Um Método para Desambiguação de Sentido e Substituição ...

134
Um Método para Desambiguação de Sentido e Substituição Lexical Apoiado em Dicionários e Embeddings Isaias Frederick Januario Orientador: Álvaro Rodrigues Pereira Jr. Dissertação submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da Computação

Transcript of Um Método para Desambiguação de Sentido e Substituição ...

Page 1: Um Método para Desambiguação de Sentido e Substituição ...

Um Método para Desambiguação deSentido e Substituição Lexical Apoiado

em Dicionários e Embeddings

Isaias Frederick Januario

Orientador: Álvaro Rodrigues Pereira Jr.

Dissertação submetida ao Programa de Pós-Graduação em Ciência da Computação daUniversidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da

Computação

Page 2: Um Método para Desambiguação de Sentido e Substituição ...

ii

Page 3: Um Método para Desambiguação de Sentido e Substituição ...

Universidade Federal de Ouro Preto

Instituto de Ciências Exatas e Biológicas

Departamento de Ciência da Computação

Programa de Pós-graduação em Ciência da Computação

Um Método para Desambiguação deSentido e Substituição Lexical Apoiado

em Dicionários e Embeddings

Isaias Frederick Januario

Dissertação submetida ao Programa dePós-Graduação em Ciência da Compu-tação da Universidade Federal de OuroPreto para obtenção do título de Mes-tre em Ciência da Computação.Orientador: Prof. Dr. Álvaro Rodri-gues Pereira Jr.

Ouro Preto - MG

Dezembro - 2019

Page 4: Um Método para Desambiguação de Sentido e Substituição ...

Januario, Isaias Frederick .JanUm método de desambiguação de sentido e substituição lexicalapoiado em dicionários e embeddings. [manuscrito] / Isaias FrederickJanuario. - 2019.Jan132 f.: il.: , tab..

JanOrientador: Prof. Dr. Álvaro Rodrigues Pereira Jr..JanDissertação (Mestrado Acadêmico). Universidade Federal de OuroPreto. Departamento de Computação. Programa de Pós-Graduação emCiência da Computação.JanÁrea de Concentração: Ciência da Computação.

Jan1. Processamento de linguagem natural (Computação). 2. Banco dedados. 3. Espaços vetoriais. I. Pereira Jr., Álvaro Rodrigues. II.Universidade Federal de Ouro Preto. III. Título.

Bibliotecário(a) Responsável: Celina Brasil Luiz - CRB6-1589

SISBIN - SISTEMA DE BIBLIOTECAS E INFORMAÇÃO

J35m

CDU 004.04

Page 5: Um Método para Desambiguação de Sentido e Substituição ...
Page 6: Um Método para Desambiguação de Sentido e Substituição ...

vii

Page 7: Um Método para Desambiguação de Sentido e Substituição ...

ix

ResumoA substituição lexical permeia diferentes atividades inerentes às áreasdo Processamento de Linguagem Natural, como a simplificação detexto e expansão de consultas. A substituição tem sido exploradaamplamente na literatura apresentando frequente evolução, princi-palmente quanto às fontes de dados utilizadas para a geração depotenciais substitutos que alimentam o processo. Naturalmente, di-cionários têm sido constantemente usados por agruparem conjuntosde sinônimos em sua estrutura. Entretanto, o caráter polissêmico daspalavras inviabiliza a troca direta de uma determinada palavra porqualquer sinônimo a ela associado no dicionário, já que a troca requera análise completa do contexto. Em outro nicho de fontes, os mode-los de espaço vetorial, tais como os embeddings, são utilizados pararepresentar os termos a partir de seus contextos de aplicação. Em con-trapartida, representar as palavras considerando fatores meramentecontextuais, em muitos casos, dá margem para uma aproximação determos no espaço mesmo não sendo sinônimos. Portanto, as deficiên-cias mencionadas sugerem a junção de bases anotadas e embeddingscomo alternativa promissora para ganhos de resultados na tarefa desubstituição. Assim, apresentamos um método de substituição utili-zando informações contidas em dicionários combinados − como asrelações linguísticas estruturadas em taxonomias − para coleta depotenciais sinônimos. Nosso método mensura a preservação do signi-ficado da sentença modificada focando um escopo restrito da sentençaoriginal. Consideramos também o contexto completo para apoiar oprocesso de desambiguação extraindo aspectos como coocorrência determos para alimentar operações vetoriais nos modelos com a inten-ção de destacar os melhores sinônimos em um conjunto previamenteselecionado. Nosso método superou uma ampla gama de trabalhosconhecidos na literatura na predição do melhor substituto de palavrascontidas em frases de uma consolidada base de experimentação.

Page 8: Um Método para Desambiguação de Sentido e Substituição ...

x

Page 9: Um Método para Desambiguação de Sentido e Substituição ...

xi

AbstractLexical substitution is involved with different areas of Natural

Language Processing, such as text simplification and query expansion.Substitution has been studied extensively in the literature, with fre-quent evolution, mainly in the sources of potential substitutes that areinput to the process. Of course, dictionaries have been used for grou-ping synonyms in their structure. However, the polysemic aspect ofwords makes it difficult to directly exchange a word for any synonymlinked to it in the dictionary, since the exchange requires detailedanalysis of the context. In another category of sources, vector spacemodels, such as embeddings, are used to represent terms from theirapplication contexts. On the other hand, representing words conside-ring purely contextual factors, in many cases, allows an approximationof terms in space even though they are not synonymous. Therefore,the mentioned problems suggest the joining of annotated bases andembeddings as a promising alternative for improving results. Thus,we present a substitution method using information contained incombined dictionaries − as the linguistic relations structured in taxo-nomies − to collect potential synonyms. Our method measures thepreservation of the meaning of the modified sentence by focusing ona reduced scope of the original sentence. We also consider the entirecontext to help the disambiguation process by extracting aspects suchas the co-occurrence of terms to feed vector operations in the models,aiming to highlight the best synonyms in a previously selected set.Our method surpassed an wide group of works in the literature inpredicting the best substitute for words included in sentences from awell-known benchmark.

Page 10: Um Método para Desambiguação de Sentido e Substituição ...

xii

Page 11: Um Método para Desambiguação de Sentido e Substituição ...

xiii

Declaração

Esta dissertação é resultado do meu próprio trabalho, exceto onde areferência explícita é feita ao trabalho de outros, e não foi submetidapara outra qualificação nesta e nem em outra universidade.

Isaias Frederick Januario

Page 12: Um Método para Desambiguação de Sentido e Substituição ...

xiv

Page 13: Um Método para Desambiguação de Sentido e Substituição ...

xv

Agradecimentos

Aos meus pais, Caetano e Ivone, pelo infindável zelo.

Às minha irmãs, Lorena, Mayara e Tábata, principalmente às duas úl-timas (também pós-graduandas) – por tornarem leve a árdua e incertacaminhada em comum.

Ao professor Álvaro, por compartilhar a experiência e pelo exercí-cio da paciência.

Às professoras Andrea e Lucelene, pelas valiosas contribuições para otrabalho.

À Universidade Federal de Ouro Preto, pela oportunidade de for-mação no âmbito acadêmico e extra-acadêmico.

Aos amigos de UFOP, especialmente ao Arthur, Guilherme e Dênis -por vivenciarem o ambiente da UFOP e suportarem meus constantesdesabafos.

Ufa! Acabei.

Page 14: Um Método para Desambiguação de Sentido e Substituição ...

xvi

Page 15: Um Método para Desambiguação de Sentido e Substituição ...

Sumário

Lista de Figuras xxi

Lista de Tabelas xxiii

Abreviaturas e Siglas 1

1 Introdução 31.1 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Definição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.5 Organização do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Fundamentação Teórica 112.1 Conceitos Fundamentais . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1 Dicionário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.2 Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.3 Ontologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.4 Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.5 Lematização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.1.6 Corpus Linguístico . . . . . . . . . . . . . . . . . . . . . . . . . . 132.1.7 Desambiguação Lexical de Sentido (DLS) . . . . . . . . . . . . . 142.1.8 Substituição Lexical . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.9 Relações linguísticas . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 A Wordnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Modelos de Linguagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.1 N-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.2 Bag-of-words (BOW) . . . . . . . . . . . . . . . . . . . . . . . . . 212.3.3 Skip-Gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

xvii

Page 16: Um Método para Desambiguação de Sentido e Substituição ...

xviii Sumário

2.3.4 Continuous Bag-of-words (CBOW) . . . . . . . . . . . . . . . . . 22

2.4 Modelo de Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.1 Análise Semântica Latente (LSA) . . . . . . . . . . . . . . . . . . 23

2.4.2 Embeddings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.5 O uso dos recursos lexicais no processo de substituição . . . . . . . . . 25

2.6 A base de referência SemEval . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6.1 Sobre o processo de anotação . . . . . . . . . . . . . . . . . . . . 29

2.6.2 Seleção das instâncias . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6.3 Subtarefas da competição . . . . . . . . . . . . . . . . . . . . . . 30

2.6.4 Capacidade de desambiguação . . . . . . . . . . . . . . . . . . . 33

3 Trabalhos Relacionados 35

3.1 Abordagens para a desambiguação lexical de sentido . . . . . . . . . . 36

3.2 Abordagens para sinônimos aproximados . . . . . . . . . . . . . . . . . 38

3.3 Abordagens de extração e ranking de sinônimos . . . . . . . . . . . . . 41

4 Método de Substituição Lexical e Desambiguação de Sentido 47

4.1 Seletor de Candidatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.1.1 Seletor da Wordnet . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1.2 Seletor de Dicionário . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1.3 Verificador de Concordância . . . . . . . . . . . . . . . . . . . . 53

4.2 Avaliador de Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1 Ponderador de Contexto Restrito . . . . . . . . . . . . . . . . . . 56

4.2.2 Ponderador de Contexto Abrangente . . . . . . . . . . . . . . . 60

4.2.3 Combinador de Critérios . . . . . . . . . . . . . . . . . . . . . . 63

5 Experimentos e Resultados 65

5.1 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . 65

5.1.1 Mensuração da correlação sintática . . . . . . . . . . . . . . . . . 66

5.2 Variação do comprimento do n-gram . . . . . . . . . . . . . . . . . . . . 68

5.3 Variação de critérios de seleção e ordenação de sinônimos . . . . . . . 70

5.3.1 Avaliação da Seleção de Candidatos . . . . . . . . . . . . . . . . 72

5.3.2 Ordenação de Candidatos . . . . . . . . . . . . . . . . . . . . . . 76

5.4 Comparação com abordagens da literatura . . . . . . . . . . . . . . . . 77

5.4.1 Avaliação na subtarefa Best . . . . . . . . . . . . . . . . . . . . . 79

5.4.2 Avaliação na subtarefa Out-of-Ten (oot) . . . . . . . . . . . . . . 82

Page 17: Um Método para Desambiguação de Sentido e Substituição ...

Sumário xix

5.5 Resultados discriminados por função sintática . . . . . . . . . . . . . . 855.5.1 Resultados para Substantivos . . . . . . . . . . . . . . . . . . . . 855.5.2 Resultados para Advérbios . . . . . . . . . . . . . . . . . . . . . 875.5.3 Resultados para Verbos . . . . . . . . . . . . . . . . . . . . . . . 905.5.4 Resultados para Adjetivos . . . . . . . . . . . . . . . . . . . . . . 92

5.6 Resultados da Desambiguação . . . . . . . . . . . . . . . . . . . . . . . 945.6.1 Precisão do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . 945.6.2 Precisão entre Todos . . . . . . . . . . . . . . . . . . . . . . . . . 95

6 Conclusões e Trabalhos Futuros 976.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.2.1 Novos modos de representação do contexto e da definição . . . 986.2.2 Tratamento Especializado para cada Função Sintática . . . . . . 996.2.3 Inclusão em outros nichos de pesquisa . . . . . . . . . . . . . . 99

Referências Bibliográficas 101

Page 18: Um Método para Desambiguação de Sentido e Substituição ...

xx

Page 19: Um Método para Desambiguação de Sentido e Substituição ...

Lista de Figuras

2.1 Um exemplo linguístico de hiperonímia: o termo “vehicle” possui umsignificado mais geral para um significado associado às palavras “car”,

“motorcycle” e “bicycle”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Na figura é demonstrada a taxonomia “é um” da ontologia da Wordnet.Figura extraída de https://www.cs.princeton.edu/courses/archive/spring17/cos226/assignments./wordnet.html. Link acessado em 1 de agosto de 2019. 19

2.3 Representação de um espaço vetorial tridimensional, com as dimensõesD1, D2 e D3. O espaço contém dois vetores, que são documentos (“doc1”e “doc2”). A distância entre os documentos sugere a proximidade se-mântica entre eles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1 Fluxo de dados em alto nível com as interações entre as bases utilizadase componentes. As setas pontilhadas representam a alimentação sobdemanda das bases pelos subcomponentes a elas interligados. . . . . . 48

4.2 Ilustração das definições taxonomicamente distribuídas na Wordnet. . 49

4.3 Conceitos distintos na Wordnet (para t=“bar”), sendo um (Conceito 1)referência como potencial provedor de bons substitutos. . . . . . . . . 54

4.4 Para os dois conceitos de t, verifica-se a lista de sinônimos dos concei-tos adjacentes, mas com critérios de seleção. Palavras negritadas sãocandidatos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

xxi

Page 20: Um Método para Desambiguação de Sentido e Substituição ...

xxii

Page 21: Um Método para Desambiguação de Sentido e Substituição ...

Lista de Tabelas

4.1 Tipos de relações ontológicas consideradas na Wordnet durante a sele-ção de candidatos através do auxílio de uma fonte secundária. . . . . . 51

5.1 Variação do peso atribuído ao tamanho n-gram na ponderação do contexto. 69

5.2 Diferentes instâncias utilizadas realizando a combinação de recursos deseleção e ordenação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.3 Retirado de [71] para a combinação de recursos. . . . . . . . . . . . . . . . . 75

5.4 Retirado de [72] para a abordagem de Grafo de Centralidade. . . . . . . . . . 75

5.5 Métricas para subtarefas oot e best. . . . . . . . . . . . . . . . . . . . . . 80

5.6 Resultados para as instâncias que contêm um substantivo substituível. 85

5.7 Resultados para as instâncias que contêm um advérbio substituível. . . 88

5.8 Resultados para as instâncias que contêm um verbo substituível. . . . 90

5.9 Resultados para as instâncias que contêm um adjetivo substituível. . . 93

5.10 Precisão da desambiguação dos métodos para somente as instânciasque viabilizam a construção de um inventários de candidatos que incluio melhor substituto (Linha “total′′ na tabela). . . . . . . . . . . . . . . . 94

5.11 Resultado da desambiguação sobre as instâncias para as quais todas asabordagens incluem o melhor substituto no seu conjunto de candidatos. 95

xxiii

Page 22: Um Método para Desambiguação de Sentido e Substituição ...

xxiv

Page 23: Um Método para Desambiguação de Sentido e Substituição ...

Lista de Algoritmos

1 Algoritmo de ponderação de candidatos aplicados a pequenos contex-tos, atribuindo maiores coeficientes às observações de frequência emmaiores contextos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

xxv

Page 24: Um Método para Desambiguação de Sentido e Substituição ...

xxvi

Page 25: Um Método para Desambiguação de Sentido e Substituição ...

“Nenhum homem pode entrar duas vezes no mesmo rio, pois na segunda vez o rio jánão é o mesmo, tampouco o homem.”

— Heráclito

Page 26: Um Método para Desambiguação de Sentido e Substituição ...
Page 27: Um Método para Desambiguação de Sentido e Substituição ...

Abreviaturas e Siglas

CALL Computer Assisted Language Learning

ESA Explicit Semantic Analysis

LSA Latent Semantic Analysis

MSL-DE Método de Substituição Lexical

baseado em Dicionários e Embeddings

oot Out-of-Ten

PLN Processamento de Linguagem Natural

PMI Pontwise Mutual Information

PPMI Positive Pontwise Mutual Information

SemEval Semantic Evaluations

SVD Single Value Decomposition

SVM Support Vector Machine

WMD Word Mover Distance

1

Page 28: Um Método para Desambiguação de Sentido e Substituição ...

2

Page 29: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 1

Introdução

O idioma inglês é aquele de maior importância atualmente. Esta afirmação pode sersustentada quando consideramos sua presença, no âmbito geográfico, sendo idiomaoficial em dezenas de países. Outro fato relevante que faz do inglês um idiomaimportante é a produção de conteúdo na língua. Para exemplificar, em determinadasáreas de atuação, como o meio de produção científica, para aumentar o impacto deum determinado trabalho, a divulgação do mesmo na língua de maior penetraçãoperante a comunidade científica faz-se imprescindível [53]1. Além deste meio, tambémé válido elencar outros, onde as categorias de conteúdo produzido recorrentemente sãolançadas em inglês, tais como: filmes, livros, músicas, seriados de televisão, programasde computadores, telejornais, jogos, páginas web.

Destacada a demanda de universalização, tem se tornado cada vez mais frequentea busca do aprendizado do idioma para inclusão no ambiente global, visando aacessibilidade para o uso da informação, sendo esta comumente fornecida em inglês,para seus diversos fins. Deste modo, a língua inglesa tem se consolidada como aquelade maior abrangência, sendo adotada como segunda opção para aquelas pessoas quenão a têm como primeira língua, na maioria das vezes.

Assim, ainda sob a perspectiva educacional, inúmeros métodos têm sido desen-volvidos. É o caso das ferramentas de aprendizagem de linguagem assistida porcomputador (CALL - Computer Assisted Language Learning), que é uma área dedicada àcriação de métodos apoiados por software para o ensino e aprendizagem de um idiomadiferente do nativo para um aprendiz.

1Este artigo demonstra o crescimento do fator de impacto em até 58% de certos periódicos brasi-leiros após universalização das publicações, reescritas em inglês, quando comparadas àquelas maisimportantes redigidas originalmente no português.

3

Page 30: Um Método para Desambiguação de Sentido e Substituição ...

4 Introdução

Tais ferramentas se apoiam em exercícios que exploram a avaliação do tamanhodo vocabulário [20, 75] do aprendiz. A partir dessa avaliação, então, são elaboradastécnicas direcionadas à expansão desse mesmo vocabulário. Tais técnicas abordamrelações linguísticas existentes entre palavras, que muitas vezes são exploradas atravésde exercícios de substituição de termos dentro de textos com a intenção da manutençãodo significado da mensagem. Essa classe de exercícios está ligada ao reconhecimentode sinônimos, relacionados através da propriedade linguística da sinonímia, que é omote desta pesquisa.

A sinonímia corresponde a uma propriedade linguística relativa à proximidade designificado entre dois itens lexicais (i.e car/automobile, huge/enormous). Ainda que surjaintuitivamente a compreensão do que é essa relação, faz-se necessária uma explicaçãoum pouco mais precisa que destaca certas peculiaridades existentes. Na literatura, porexemplo, destacam-se algumas teses que negam a equivalência perfeita de significadoentre duas palavras (“sinonímia verdadeira”). [65] defende que a sinonímia verdadeiraé muito rara, admitindo a possibilidade de nem sequer existir. [17] destaca a ausênciade meios de se caracterizar o que são termos sinônimos, observando que sinonímianão só deve estar atrelada a um alto nível de sobreposição semântica além de um baixocontraste2. No que tange à mensuração da sinonímia, 17 defende: “alguns pares deitens (lexicais) são mais sinônimos que outros, isto destaca a possibilidade de ponderara sinonímia de algum modo”3. Tais entendimentos oriundos da linguística destacam onão-binarismo que representa a sinonímia.

A mensuração do grau de sinonímia é uma tarefa dependente de contexto [11,25,72].Não é simples mensurar a proximidade de significado de duas palavras sem que ocontexto onde ambas são possivelmente aplicáveis seja cuidadosamente analisado.Utilizando um exemplo, extraído de [11], observamos melhor a relação “contextual”entre as palavras: “pedigree” se refere principalmente a “animals”; enquanto “ancestry”,“genealogy” e “lineage” se referem mais fortemente a “humans being” (“ser humano”).Isto traz para o problema a ideia de uma certa adequabilidade de uma palavra emdetrimento de outra quando consideramos onde possam ser aplicadas. Continuando,de forma intuitiva, a palavra “automobile” é mais indicada para substituir o termo “car”

2Segundo [47], elementos contrastantes são aqueles consideravelmente diferentes em significado.Antônimos (i.e marriage/divorce) ou outras relações de oposição, que inclui as de papel (i.e doctor/patient),são bons exemplos.

3Traduzido de “(...) some pairs of items are more synonymous than others, and this raises the possibility ofa scale of synonymity of some kind (...)”.

Page 31: Um Método para Desambiguação de Sentido e Substituição ...

Introdução 5

do que para substituir “vehicle” em um contexto no qual se sabe que a palavra “car”refere a um veículo de transporte de pessoas apoiado sobre quatro rodas.

A ideia de precedência de sinônimos sugere uma possibilidade de classificação(estabelecimento de ordem) entre sinônimos, obviamente. Desse modo, a mensuraçãoda sinonímia, por exemplo, efetua a simples e intuitiva avaliação de substituição. Ouseja, realiza-se a substituição de um termo por outro em uma sentença, de modo amensurar a preservação do significado original. Esta avaliação é sugerida original-mente no âmbito da linguística, como é o caso de [9]. O procedimento de substituiçãotambém é o cerne da reprodução de experimentos que consideram as abordagens rela-cionadas dirigidas à resolução deste problema, já no âmbito da área de processamentode linguagem natural (PLN).

Destacada a importância do fator “contexto”, a variação do nível das relações desinonímia para diferentes casos, a ideia da elaboração de um ranking de sinônimos sobdeterminado contexto, de forma automatizada, surge naturalmente. Assim, a geraçãode um ranking de sinônimos torna-se o resultado do método elaborado neste trabalho,que será explicada subsequentemente.

1.1 Justificativa

Reforçando a ideia de que a sinonímia entre duas palavras representa uma relaçãolinguística ponderável, é possível destacar diferentes cenários de aplicação onde seuemprego faz-se necessário. Além da aprendizagem de inglês enquanto segundoidioma - já mencionada na introdução, é possível destacar outras áreas correlatas àRecuperação de Informação e Processamento de Linguagem Natural entre as quaisa ideia de gerar um ranking de sinônimos está presente. Destacado isto, é possívelelencar e descrever diferentes aplicações a seguir.

Simplificação de texto – de forma sucinta, esta área de estudo [69] é dedicada àalteração de sentenças, modificando-as para um público específico, possivelmente commenor capacidade de compreensão. Isto implica nos atos de adicionar ou removerpalavras, mesclar sentenças e inclui também a substituição dos termos existentes porsinônimos de menor complexidade de compreensão para determinado perfil de leitor.Este mesmo leitor usufruirá do novo texto gerado sem que este tenha seu significadosubstancialmente alterado quando comparado à fonte original [70]. A simplificação é

Page 32: Um Método para Desambiguação de Sentido e Substituição ...

6 Introdução

comumente vista como um requisito aplicado à aprendizagem de um novo idioma,método de auxílio às pessoas com disfunções cognitivas [6, 67] que comprometem aleitura e escrita [75].

De forma geral, a tarefa de simplificar texto é fortemente relacionada à geração deranking de sinônimos, uma vez que palavras que preservam o significado da mensagemsão imprescindíveis à substituição. A simplificação representa uma extensão, onde oaspecto da simplicidade representa um fator considerado na geração de uma ordem.

Expansão de consultas – Para esta área [3, 14], consultas de usuários a sistemas derecuperação de informação trazem consigo problemas comuns: objetivam um conjuntode documentos, mas as palavras relevantes de muitos documentos do conjunto sãosinônimos daquelas explicitamente definidas na consulta, resultando em uma baixasobreposição entre palavras. Este problema é descrito por [30] como o “problema dovocabulário”. O contorno do problema é precedido da resolução da polissemia e dasinonímia: uma consulta q, que deseja obter determinado conjunto de documentossobre determinados assuntos, é reeditável lexicalmente com inúmeras formas diferen-tes. Entretanto, faz-se necessário desambiguar termos de q, descobrir sinônimos daspalavras naturais de q, mas que preservem seu significado original, para a derivaçãode novas consultas a ser executada. Obtendo, possivelmente, resultados mais acuradosquando comparados a aqueles de q, que é a consulta original.

Tradução automática de texto – como o próprio nome sugere, os trabalhos [29]desta subárea do Processamento de Linguagem Natural são dedicados à conversão demensagem, originalmente escrita em um determinado idioma, para um idioma-alvo.Esta subárea traz consigo algumas preocupações para a tarefa de tradução, como aexistência (ou não) da equivalência em significado entre duas palavras oriundas deidiomas distintos [74]. A tradução requer que palavras possivelmente equivalentespossuam a referência em comum para um mesmo conceito ou definição em basesde dados como dicionários ou ontologias, como estudado por [22, 35, 37]. Outrasabordagens utilizam técnicas [37] probabilísticas para ordenar os sinônimos candidatosà substituição no processo de tradução.

Resolução do problema deduplicação de entidades – os trabalhos [2,58] inerentesa esta área almejam a identificação de registros de dados que referenciam uma mesmaentidade provinda de distintas fontes. Fato que traz representações lexicograficamentediferentes. A resolução da duplicação ganha importância com o advento de conceitoscomo Big Data, que trazem a demanda por métodos que mitiguem custos de arma-

Page 33: Um Método para Desambiguação de Sentido e Substituição ...

Introdução 7

zenamento perante a crescente oferta de dados heterogêneos. É o caso do trabalhode [58], que destaca a importância da realização a substituição lexical quando se usaum contexto para sugerir uma relação semântica entre duas entidades (compondouma tripla 〈arg1, contexto, arg2〉). [58] admite que o contexto, muitas vezes, pode estarlexicograficamente redigido de diversas formas diferentes. Assim, faz-se necessária aidentificação de segmentos de texto com a mesma temática central, o que pressupõea resolução da polissemia entre de todas palavras da sentença, consequentementeidentificando similaridade semântica entre as frantes comparadas. E ainda ilustra comum exemplo, onde “legal tender in” e “be the currency used in” podem representar umamesma relação semântica extraída entre duas entidades de dois textos quaisquer.

Como destacado anteriormente, a ideia de descobrir sinônimos de determinadaspalavras a partir de um contexto permeia diferentes áreas da Linguística Computa-cional. Ordenar mediante a sua adequação ao contexto, também. Faz-se necessárioressaltar que as ferramentas, algoritmos e métodos inerentes a cada uma das áreasanteriormente mencionadas possuem uma forte relação entre si, tornando-se certasvezes indissociáveis. Uma ferramenta CALL, por exemplo, por aplicar técnicas dire-cionadas aos estudantes com diferentes níveis de domínio do idioma, pode utilizarsimplificadores de texto. Estes mesmos simplificadores necessitam de desambigua-dores para a certificação de que certas palavras possivelmente são alternativas paraaplicação no mesmo texto sem que seja observado o comprometimento do significadooriginalmente almejado.

1.2 Definição do Problema

O problema da substituição consiste em que, para uma determinada sentença S e umtermo t determinado nela contida, é necessária a busca dos substitutos da palavra emquestão almejando a preservação do significado original da mensagem. Enfatizando aentrada dos dados, o problema pode ser formalmente definido:

1. Uma sentença S de qualquer comprimento;

2. Um termo t ∈ S para a qual se gerará substitutos;

3. Uma função sintática (fs) associada a t, sendo fs ∈ {substantivo, verbo, advérbio,adjetivo}.

Page 34: Um Método para Desambiguação de Sentido e Substituição ...

8 Introdução

A saída do método é exclusivamente uma lista de palavras assumidas como sinô-nimos (bons substitutos) para t. Cada palavra ci inclusa na lista tem um coeficienteassociado, que representa a adequabilidade da aplicação de ci em S.

1.3 Objetivos

O objetivo principal deste trabalho consiste em desenvolver um método aplicado àseleção de termos semanticamente parecidos, sendo prováveis sinônimos, de formaa estabelecer a geração de um ranking cujo critério de ordenação visa deixar bemclassificadas as palavras que preservam o significado original da sentença.

Os objetivos específicos, que estão correlacionados ao objetivo principal, são:

• Desenvolver um algoritmo de desambiguação lexical de sentido baseado emdicionários, thesauri e também sobre relações linguísticas para descoberta desinônimos, que usa a descrição textual associada aos sinônimos candidatos, alémde utilizar dados probabilísticos para representar o contexto;

• Elaborar critérios de seleção de termos promissores como candidatos conside-rando múltiplas fontes;

• Estabelecer critérios de ordenação de sinônimos para a geração do ranking, consi-derando diferentes aspectos do contexto;

• Avaliar os resultados do método, comparando-os com os resultados das aborda-gens dedicadas a realizar mesma tarefa sob um consolidado cenário de experi-mentação;

• Destacar as direções de trabalhos futuros baseadas nos resultados observados;

1.4 Contribuições

Nosso método representa na literatura o primeiro que efetua a junção de dicionárioscomo fonte de sinônimos aos embeddings. Utilizamos a representação de embeddingsde modo a utilizar referência para cálculo da distância semântica do termo a sersubstituído e dos candidatos a sinônimos.

Page 35: Um Método para Desambiguação de Sentido e Substituição ...

Introdução 9

Outra contribuição corresponde à aplicação das operações algébricas de analogiasobre vetores de embeddings, que foram concebidas originalmente para outro problema,como meio para encontrar as palavras com menor distância vetorial indicando possívelrelação de sinonímia para um dado termo. Tal aplicação reforça a originalidade donosso trabalho, assim como abre a possibilidade de exploração sobre as operações emquestão.

Destacadas as contribuições do trabalho, apresentamos um fluxo de execução queinclui uma seleção de candidatos aprimorada sobre mais de uma fonte. Utilizamosde um processo de filtro de termos pouco promissores antes do uso das mesmasoperações vetoriais, paras as quais conseguimos comprovar a efetividade duranteprocessos de substituição lexical e de desambiguação de sentido.

1.5 Organização do texto

O restante deste texto está estruturado da seguinte forma: o Capítulo 2 apresenta umadescrição de conceitos importantes para a compreensão deste trabalho. O Capítulo 3apresenta os trabalhos relacionados que têm em comum conosco os objetivos principaisou marginais, além de posicionar nosso trabalho na literatura. O Capítulo 4 apresentao nosso método, destacando a sua arquitetura e as técnicas utilizadas. Já o Capítulo 5apresenta os resultados experimentais e discussões sobre os fenômenos observados.Por fim, as conclusões da pesquisa e apresenta sugestões de trabalhos futuros sãoapresentadas no Capítulo 6.

Page 36: Um Método para Desambiguação de Sentido e Substituição ...

10

Page 37: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 2

Fundamentação Teórica

Este capítulo busca explicar de forma objetiva e clara conceitos essenciais para umamelhor compreensão dos capítulos subsequentes deste trabalho, os conceitos inclui aspropriedades linguísticas consideradas pelos trabalhos que realizam a substituição naliteratura. Apresentamos também uma visão geral dos recursos léxicos na literatura(Seção 2.5), e como têm sido explorados ao longo dos nichos que ordenam sinônimospor contexto. Por fim, descrevemos o cenário de experimentação, que possui amplaadesão na literatura (Seção 2.6).

2.1 Conceitos Fundamentais

Esta seção descreve os conceitos essenciais para a compreensão deste trabalho. Es-clarecemos as terminologias das propriedades linguísticas, recursos léxicos além detécnicas mencionadas no decorrer deste trabalho.

2.1.1 Dicionário

Corresponde a uma fonte de dados para a consulta das definições de uma determinadapalavra a partir de sua grafia. A definição nada mais é que uma sucinta descriçãotextual que apresenta relevante fonte de informação semântica. Para as bases que cons-tituem um dicionário nesta pesquisa não somente se obtém as definições associadasàs palavras, mas também conjuntos de frases de exemplo de modo a elucidar o realsignificado da palavra dentro de um dado contexto.

11

Page 38: Um Método para Desambiguação de Sentido e Substituição ...

12 Fundamentação Teórica

Ao longo deste trabalho, o termo “lema” frequentemente será utilizado para sereferir à palavra que terá seu significado explanado no dicionário, sendo uma chavede indexação. Comumente, o lema representa a palavra indexada em sua formainflexionada. De mesmo modo, “significado” ou “definição” se referirão a umadescrição textual de um lema.

2.1.2 Thesaurus

Assim como os dicionários, thesaurus também constituem uma fonte de consulta apartir de uma determinada palavra. Mas de forma específica, o intuito não consiste naobtenção do significado de uma dada palavra, mas sim a obtenção de um conjunto depalavras relacionadas semanticamente. O thesaurus também busca diferenciar palavrasfortemente parecidas explicando as nuances que as diferenciam, tais como aquelasevidentes na subárea de sinônimos aproximados (Seção 3.2).

2.1.3 Ontologia

Ontologia é corresponde a um tipo de domínio de conhecimento organizado na formade um conjunto de entidades, com seus atributos, que estão relacionadas compondoclasses. Comumente tais classes estão dispostas na forma de algum tipo de organizaçãohierárquica, que mantém explicitamente diversificados tipos de relações entre asmesmas entidades.

Ao longo deste trabalho, o termo “conceito” se refere a uma entidade contidana ontologia. Isto inclui suas propriedades, bem como as relações que a mesmaentidade possui com outras entidades. A saber: no âmbito da Wordnet, temos comopropriedades a definição do conceito, a lista de sinônimos para tal conceito (que éuma lista de lemas), além das relações semânticas entre os mesmos conceitos que sãoacessíveis na forma de taxonomias.

2.1.4 Stemming

O stemming remove diferentes unidades morfológicas das palavras, tais como prefixos,sufixos e desinências. O resultado da remoção corresponde ao que se chama radicalde alguma determinada palavra. O intuito, geralmente, é permitir que palavras que

Page 39: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 13

são flexões de um mesmo lema sejam mapeadas para o mesmo radical morfológico. Oque facilita a descoberta de um possível conceito em comum entre termos, podendoser identificadas como iguais por medidas de similaridade textual (i.e “studies”→

“studi”).

2.1.5 Lematização

Esta técnica permite que duas palavras flexionadas de um mesmo lema sejam, deacordo com a conveniência da aplicação, identificadas como oriundas de um mesmolema. A lematização corresponde à transformação de uma palavra em uma formaindependente de flexão (gênero, número, tempo). Em suma, é o meio pra ser obter aforma canônica de uma palavra.

A lematização se caracteriza por compartilhar de certas aplicações parecidas com ostemming (Seção 2.1.4). No entanto, ao invés de resultar em uma palavra não flexionadade um lexema original removendo o sufixo de uma palavra (i.e “studies”→ “studi”),esta tarefa remove o sufixo de um termo. O resultado desse processo sempre resultaem um termo inflexionado do inglês (i.e “studies”→ “study”).

2.1.6 Corpus Linguístico

Corpus linguístico corresponde a um conjunto de documentos utilizado pelas apli-cações de PLN como fonte para a geração de bases de conhecimento, fonte paratreinamento de modelos de aprendizado, entre outros fins.

A utilização de corpus para as abordagens mencionadas podem prover valiosostipos de informação, desde informações estatísticas, como a coocorrência de termos. Éútil também, às vezes, como fontes de sentidos anotados para um termo nos diferentescontextos dos documentos que compõem o corpus. Esses tipos de informação extraídossão, usualmente, utilizados para predição de significados na desambiguação e para ageração de contadores de frequência de palavras.

Por exemplo, neste trabalho, a utilização de corpus sobre os trabalhos relacionadostem sido justificada recorrentemente visando o propósito de observar estatísticamentea coocorrência de palavras de modo a predizer os contextos de aplicação mais adequa-dos para qualquer tipo de palavra.

Page 40: Um Método para Desambiguação de Sentido e Substituição ...

14 Fundamentação Teórica

2.1.7 Desambiguação Lexical de Sentido (DLS)

O processo de desambiguação consiste em um tema estudado há anos pela área delinguística [43, 61]. Tal processo consiste basicamente em inferir o significado maisadequado para um texto, o que inclui desambiguar uma palavra dentro de um mesmodocumento de texto ou sentença, que representam o contexto de uso da palavra.Algoritmos de desambiguação usam diferentes técnicas para atingir a tal propósito,entre as quais podemos classificar:

1 aprendizado supervisionado - tais técnicas são geralmente algoritmos de apren-dizagem de máquina aplicado a um grande corpus anotado, como o SemCor [66].Embora amplamente use de dados manualmente anotados, existem ferramentasautomatizadas com o intuito de gerar documentos com significados associados àspalavras.

2 aprendizado não-supervisionado - tais algoritmos não fazem uso de inventáriosde sentidos. Por isto, se dedicam à aplicação de algoritmos de clusterização designificados para uma mesma palavra em um corpus;

3 baseado em conhecimento - este tipo de algoritmo de desambiguação consiste nouso de conjuntos de significados conhecidos de antemão a partir de bases léxicas,tais como a Wordnet [56], a partir dos quais deve-se inferir aquele mais apropriadopara a palavra. A majoritária parte dos trabalho relacionados elencados na Seção 3.1se encaixa nesta categoria.

2.1.8 Substituição Lexical

A substituição lexical, conforme brevemente descrita na introdução deste trabalho,se caracteriza por ser uma tarefa de troca de uma determinada palavra em umasentença por outra, onde o intuito é de preservar o significado da sentença original.A preservação de significado na geração de outra sentença, obviamente, é precedidapela identificação do termo substituível dentro da sentença. Tarefa esta que é adesambiguação lexical de sentido.

As substituição lexical e a desambiguação são duas tarefas fortemente atreladase, por vezes, indiferenciáveis. A substituição lexical equivale a uma variação dadesambiguação onde o inventário de sentidos não é explicitamente definido paradetermina base léxica. Ou seja, define-se os melhores substitutos de um termo em

Page 41: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 15

um contexto, mas não se define explicitamente qual o conjunto de definições. Parase realizar a tarefa de substituir um termo é necessário definir como o conjunto deinstâncias candidatas é gerado.

2.1.9 Relações linguísticas

Além da sinonímia, que fora descrita na introdução deste trabalho, descrevemostambém quatro tipos usuais de relações semânticas comumente utilizadas para ouso de métricas de similaridade semântica sobre ontologias (Seção 2.1.3) que estãopresentes no contexto deste trabalho.

Polissemia e homonímia

A polissemia corresponde a uma propriedade linguística que expressa a mutabilidadede significados assumidos por uma mesma representação gráfica quando a mesmarepresentação é aplicada em textos diferentes. Sob perspectiva inversa, a mesmarepresentação gráfica para um conjunto de significados expressa uma propriedadechamada homonímia. A polissemia e a homonímia, ainda que não se refiram a umamesma propriedade, se mostram indissociáveis na linguística.

A existência da polissemia é a principal propriedade linguística que justifica a exis-tência de desambiguadores lexicais de sentido. É importante observar que diferentespalavras apresentam diferentes níveis de polissemia. Tais níveis são claros durante aobservação da quantidade de significados para uma mesma palavra de entrada emum dicionário.

Utilizando um exemplo, a palavra “play” possui um alto grau de polissemia. Asdefinições “represent (a character) in a theatrical performance or a film” e “engage in activityfor enjoyment and recreation rather than a serious or practical purpose” são significados quea palavra pode assumir, entre vários, dependendo de seu contexto de aplicação.

Hiperonímia e hiponímia

A hiperonímia representa uma relação linguística e também semântica descritívelcomo uma relação “é um” entre duas palavras distintas. Mais especificamente, umconceito A corresponde a uma generalização (conceito mais abstrato) de um conceito

Page 42: Um Método para Desambiguação de Sentido e Substituição ...

16 Fundamentação Teórica

Figura 2.1: Um exemplo linguístico de hiperonímia: o termo “vehicle” possui um significadomais geral para um significado associado às palavras “car”, “motorcycle” e “bicycle”.

B. Um exemplo para esse tipo de relação, disposto na figura 2.1, é do vínculo doconceito “a motor vehicle with four wheels; usually propelled by an internal combustionengine” (associado à palavra “car”) e “a conveyance that transports people or objects”(associado ao lema “vehicle”), sendo o último conceito uma visão abstrata (hiperônimo)do primeiro.

Sob outro aspecto, a relação conceitual inversa à hiperonímia é a hiponímia. Aindapara os conceitos mencionados acima, o primeiro conceito mencionado (“car”) é umhipônimo do segundo conceito (“vehicle”). É importante ressaltar que esse tipo derelação é explícita na ontologia da Wordnet. De forma contrária, esse tipo de relaçãonão é encontrado em dicionários ou thesaurus.

É importante destacar a cardinalidade permitida na taxonomia “é um”: um conceitoA pode ser uma especialização de 1 até N conceitos. O mesmo conceito A pode seespecializar em 1 até N conceitos. Portanto, a hiperonímia é uma relação N:N - usandoa comum terminologia de banco de dados.

Esse tipo de relação provê um dos tipos de relação de sinonímia mais elementaresdentro da ontologia Wordnet. Tanto a hiperonímia quanto a hiponímia destacam aquestão da granularidade entre sinônimos. Para ser específico, utilizando um exemplo,para dados contextos, o termo “automobile” é cambiável por algum conceito maisdetalhado (i.e “motorcycle”) presente em uma gama de conceitos mais detalhados (i.e“motorcycle”, “car”, “limusine”, “bicycle”, etc). Esse tipo de relação existe entre palavrasque são substantivos ou verbos.

Page 43: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 17

Holonímia e meronímia

A relação semântica de holonímia corresponde à composição “todo-parte” entre doisconceitos expressos por duas palavras distintas. Essa composição pode ser descritacomo: um conceito A é parte integrante de um conceito B. Como exemplo, podemosdestacar a palavra “hand”, na Wordnet, associada ao conceito “the (prehensile) extremityof the superior limb”) e a palavra “body”, associada ao conceito “the entire structure of anorganism (an animal, plant, or human being”. O primeiro conceito é um merônimo dosegundo, enquanto o segundo conceito é um holônimo do primeiro.

Assim como a relação de hiperonímia (ver subSeção 2.1.9), a cardinalidade nataxonomia que expressa a relação em questão também é N:N.

Ambas relações possuem relevância no decorrer deste estudo, considerando quesão relevantes na mensuração de semelhança entre conceitos independentemente decontexto não expressam necessariamente uma relação de sinonímia. A presença deum determinado conceito nessa taxonomia não exclui a presença na taxonomia “éum”. A recíproca é verdadeira, o que sugere que dois conceitos que estão interligados,onde um é integrante do outro assim, compartilham algum conceito generalizador emcomum.

2.2 A Wordnet

A WordNet [56] é uma base de dados léxica amplamente utilizada em trabalhosrelacionados ao PLN . Isso ocorre, principalmente, por ser gratuita e disponibilizaruma estrutura relevante para pesquisas na área.

A Wordnet provê uma rede de palavras correlacionadas por seu significado na qualsubstantivos, adjetivos, verbos e advérbios são agrupados em conjuntos de sinônimoscognitivos [17] - que possuem mesma denotação, mas impõem diferentes restriçõesde aplicação, tais como as colocacionais. Com isto, as palavras são agrupadas deacordo com seus significados (que também representam conceitos associados a umadescrição textual), nos chamados synsets. Além da relação de sinonímia regular entreos termos, representada pelos synsets, existem também as relações entre synsets, quesão: hiperonímia/hiponímia (ver subSeção 2.1.9), holonímia/meronímia (ver subSeção2.1.9) entre outras.

Page 44: Um Método para Desambiguação de Sentido e Substituição ...

18 Fundamentação Teórica

As relações de sinonímia existentes entre os diversos termos, é um facilitadorpara o método proposto. Isso ocorre porque os synsets contêm, cada um, uma listade palavras (lemas) que o indexa. Portanto, representam um caso de sinonímia.Entretanto, explicitamente na base, não existe uma precedência de aplicação na listamencionada (Seção 3.2).

Um synset possui também um conjunto de frases de exemplo associada. Cada frasedeste conjunto representa a aplicação da palavra (lema) que indexa o mesmo synset naWordnet. Para tais frases de exemplo, o significado assumido pela palavra dentro dafrase é aquele expresso pela descrição textual do synset.

No que diz respeito à cardinalidade das relações semânticas, faz-se necessárioobservar que tanto as relações hiponímia/hiperonímia e meronímia/holonímia entreos synsets são de “muitos para muitos”, ou seja, um único synset S pode estar ligadoatravés dessas relações a outros muitos synsets sem que estes estejam necessariamenteligados somente a S. De modo complementar, um synset pode estar indexada pordiversos lemas diferentes, comumente assumidos como sinônimos perfeitos, sob aperspectiva da Wordnet. Já uma mesma palavra (lema) pode indexar vários synsets(polissemia).

De forma objetiva, a Wordnet representa uma base unificada, que compreende umdicionário e um thesaurus. Ambos contêm seus dados (definições e lista de sinônimos)dispostos na forma de uma ontologia (Seção 2.1).

Outro fator relevante que favorece o uso do WordNet como a base de dados dereferência é a sua API (Application Programming Interface), que oferece diversos serviçosrelacionados ao uso de dicionários, como: busca de termos, definições, antônimos,sinônimos, exemplos de uso de um termo em suas definições, além da relação entretodos esses componentes. A partir dela, há a facilidade de identificar os diversosdados relacionados ao termo sem a necessidade de processamentos adicionais.

2.3 Modelos de Linguagem

O conceito de modelos de linguagem possui aplicações importantes na área de Re-cuperação de Informação de Processamento de Linguagem Natural. Uma das ideiade aplicação é a predição de palavras que tenham uma alta propensão a ocorrer emdeterminado documento. Conforme observado por [46], modelos de liguagem têm

Page 45: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 19

Figura 2.2: Na figura é demonstrada a taxonomia “é um” da ontologia da Word-net. Figura extraída de https://www.cs.princeton.edu/courses/archive/spring17/cos226/assignments./wordnet.html. Link acessado em 1 de agosto de 2019.

um suporte probabilístico, estabelecendo uma função de medida de probabilidadesobre cadeias de caracteres de um mesmo vocabulário.

Na prática, a partir da probabilidade de uma sequência de termos sobre um corpusaprendido, pode-se utilizar deste mesmo aprendizado de modo a tentar a correta pre-dição de uma palavra mais adequada a um contexto de aplicação. Quando aplicados àresolução do problema deste trabalho, a palavra predida é o sinônimo. Assim, tem-seum meio de representar determinados contextos considerando até mesmo aspectoscomo ordem relativa. Sobre alguns tipos de modelos comuns aos trabalhos correla-cionados à pesquisa, destacamos nas subseções seguintes aqueles recorrentementeobservados.

Page 46: Um Método para Desambiguação de Sentido e Substituição ...

20 Fundamentação Teórica

2.3.1 N-gram

n-grams correspondem à representação de determinados documentos/contextos naforma de pequenos trechos contínuos de texto. n-grams trazem consigo uma maiorrelevância quanto ao aspecto de ordem e contiguidade de termos em uma mesmasentença, já que a probabilidade de ocorrência de uma sequência de termos inclui aprobabilidade de ocorrência de uma subsequência de termos.

Por tais características, n-grams são fortemente indicados para a mensuração daaplicabilidade de determinadas palavras para certos contextos, já que sinônimospodem ser separados por regras colocacionais [25]. Assim, torna-se possível ponderarpossíveis sinônimos aplicados ao contexto por relevância. n-grams apresentam consigouma característica inerente: por serem meramente probabilísticos, não identificam ocontraste existente entre palavras ou sentenças com precisão.

Este tipo de modelo de linguagem possui alguns problemas para um corpora pe-queno, que é a pouca probabilidade de ocorrência de determinado n-gram (dadosesparsos). Formalmente, a probabilidade de um n-gram ocorrer em um corpus pode serdefinida por:

P(p1p2p3, ..., pn) =n

∏i=1

P(pi|p1, ..., pn−1) (2.1)

Mais especificamente, transcrevendo a fórmula 2.1 assumindo n=2, a fórmula do2-gram é exprimível ao seguinte modo:

Pbigrama(p1p2p3) = P(p1)P(p2|p1)P(p3|p2p1) (2.2)

Estes mesmos segmentos podem possuir comprimentos (n) variados. Logo, porquestões de nomenclatura, frequentemente, quando se refere a n-grams de compri-mento cinco, utiliza-se o termo “5-grams”. Para n=4, “4-grams”. E assim se mantém opadrão para os diversos valores possíveis de n.

Outra observação pertinente para a maior compreensão deste trabalho é que acomputação de probabilidades sobre n-grams difere-se da frequência, tendo em vistaque a probabilidade de ocorrência de um n-gram é um produtório da probabilidade deocorrência entre os segmentos do mesmo n-gram em questão. Contadores de frequênciasobre n-grams como método de pontuação da factibilidade de certos contextos são,

Page 47: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 21

por si só, mais confiáveis para ponderação do contexto. A contrapartida é a possívelescassez de dados (amostragem pequena) para prover contadores razoáveis pararotular um contexto como “pouco provável” ou “muito provável”.

2.3.2 Bag-of-words (BOW)

O modelo de linguagem bag-of-words é uma representação de documentos que con-sidera as palavras que, para determinado documento, considera aspectos tais como:palavras inclusas e sua frequência existente. Assim, basicamente, posições relativasentre as palavras têm impacto nulo nesse tipo de representação. Por exemplo, assentenças “Mike is richer than Gibb” e “Gibb is richer than Mike” convergem exatamentepara a mesma representação para um sistema de recuperação de informação, já quepossuem exatamente as mesma palavra e frequência de cada palavra.

Por tal característica, quando tratado como um modelo probabilístico, o modelo“BOW” não considera a ordem relativa ou o caso de coocorrência entre as palavrasque compõe o contexto a ser ponderado. Portanto, apresenta equivalência quanto a1-gram (unigrama).

2.3.3 Skip-Gram

O skip-gram representa um tipo de n-gram generalizado e apresenta como maior con-tribuição a mitigação do custo da esparsidade recorrente em n-grams, que consistena discrepância de ocorrências de um determinado n-gram n1 quando comparadasàquelas dos (n-1)-grams, (n-2)-grams, (n-3)-grams, e demais segmentos de n1, quetambém são n-grams. Portanto, é mais indicado para corpus menores. Mais deta-lhadamente, na ausência de N palavras dispostas de forma contínua em corpus paraaprendizado, admite-se a ocorrência de todas as palavras em um contexto, mas deforma descontínua. Na prática, um skip-gram é um n-gram, mas que permite N termoscom o descarte de k dos N termos (“k-skip n-gram”). Formalmente, para uma sentenças = p1, p2, ..., pn, o modelo s skip-gram pode ser definido como:

Skipk, n(s) =

{pi1 , pi2 , ..., pin

∣∣∣∣∣ n

∑j=1

ij − ij−1 < k

}(2.3)

Page 48: Um Método para Desambiguação de Sentido e Substituição ...

22 Fundamentação Teórica

Utilizando um exemplo, para a sentença “i was driving my car”, os segmentos geradossão “i was driving”, “i was my”, “i driving my”, “was driving my”, “was driving car”, “wasmy car”, “driving my car” (“1-skip 3-grams”).

2.3.4 Continuous Bag-of-words (CBOW)

Para descrever o que é o modelo de “Continuous Bag-of-words” (CBOW), é precisorecordar a propriedade principal do “bag-of-words”: o cálculo da probabilidade deum segmento de texto é um produto da probabilidade de ocorrência de cada palavraquando tratadas como eventos isolados.

O CBOW é utilizado para criar representações de determinadas palavras no modelovetorial de embeddings, onde captura-se as palavras contextualmente circundantes acada palavra de um vocabulário indexado em um modelo vetorial. Assim, para umcorpus e aprendizado, coleta-se todas os vetores que representam os contextos queenvolvem a palavra a ser indexada e retira-se a sua média.

Um problema inerente é quanto à representação vetorial é que, com o acréscimode palavras ao vocabulário, tem-se o aumento linear em função das palavras recém-adicionadas.

O CBOW é parecido com o skip-gram, onde a diferença de maior importância éque a palavra cerne é acessível através dos contextos que a precede e que a sucede.

Utilizando um exemplo, para a sentença “i was driving my car”, os segmentosgerados são “i was driving”, “was driving my”, “driving my car” (3-gram).

2.4 Modelo de Espaço Vetorial

Em Sistemas de Recuperação da Informação documentos podem ser representadoscomo vetores multidimensionais. Mais precisamente, para um documento Di especí-fico, a representação inclui a formação de uma matriz onde cada índice k representauma palavra (pk) do vocabulário. O vocabulário representa somente aquelas palavrasrepresentantes para a representação de cada documento do corpus. As stopwords1 sãoexemplos de palavras de baixa relevância na representação vetorial.

1Pronomes, preposições, verbos de ligação, entre outras palavras, são exemplos de “stop words”.

Page 49: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 23

Em um vetor, a um determinado índice é associado um valor sugerindo a ocor-rência de k, podendo esse valor ser um valor binário (0 ou 1) ou algum contador defrequência dentro do documento, que é para ponderar a relevância das palavras. Paraoutros casos, vetores recebem coeficientes de alguma medida dedicados a valoraras palavras mais relevantes para atribuir diferentes pesos entre documentos de umcorpus. Como exemplo, mencionamos a métrica tf-idf (sigla para “term frequency -inverse document frequency”), que é um tipo de medida que busca diminuir a relevância(peso) de palavras muito frequentes em uma ampla gama de documentos de um corpusindexado. Formalmente, o tf-idf é definido pela fórmula t f id f = t fti,dj

× id fti; onde

(i): t f representa a frequência absoluta de um termo para um documento dj; (ii) id fti

equivale ao logaritmo da proporção do total de documentos do corpus sobre o total dedocumentos que contém ti.

A representação vetorial permite também a realização de operações algébricasentre os vetores criados, assim como a mensuração do ângulo entre os vetores de doisdocumentos através da distância euclidiana ou de cosseno, por exemplo.

D1

D2

D3

doc1

doc2

Figura 2.3: Representação de um espaço vetorial tridimensional, com as dimensões D1, D2e D3. O espaço contém dois vetores, que são documentos (“doc1” e “doc2”). Adistância entre os documentos sugere a proximidade semântica entre eles.

2.4.1 Análise Semântica Latente (LSA)

A LSA (Latent Semantic Analysis) [42] é uma técnica estatística de NLP destinada à men-suração semântica entre documentos. Naturalmente, a técnica em questão assume quepalavras de significados aproximados ocorrem em contextos parecidos. LSA é uma téc-nica de modelagem de tópicos, cuja finalidade é identificar os tópicos relevantes para

Page 50: Um Método para Desambiguação de Sentido e Substituição ...

24 Fundamentação Teórica

determinada palavra. Onde busca-se identificar as relações entre palavras relevantespara realizar a associação a determinados tópicos. LSA consiste na representaçãovetorial de palavras. Comparando a sua similaridade através da distância dos mesmovetores. Para o caso do agrupamento de documentos relativos a tópicos comuns semdados rotulados é baseado em algoritmos de clusterização. Naturalmente, a criaçãodos vetores que representam um documento são representados pela correlação decada palavra com um documento através de alguma métrica de relevância. Maisespecificamente, o tf-idf é amplamente utilizado de modo a obter maiores coeficientespara um dado documento quando uma determinada palavra está com distribuiçãoenviesada para este mesmo documento do corpus.

Esta técnica é dividida em uma sequência de passos. A primeira é a criação deuma matriz bidimensional da relação documento-termo com as posições preenchidaspela métrica de relevância anteriormente descrita (o LSA utiliza o “bag-of-words” comomodelo de linguagem). Posteriormente, realiza aprendizagem dos tópicos através daredução da dimensionalidade da matriz para um vetor que representa o documento. Amatriz original é decomposta em valores singulares, método da álgebra linear, sendotransformada em três outras matrizes, cujo produto representa a matriz original. Aideia é identificar o termo mais relevante por dimensão, após de uma tarefa de eliminarlinhas e colunas com menores valores singulares.

Os textos representados através da LSA podem ser documentos inteiros, seçõesde texto ou registros de dicionários. Para o último caso, é aplicável no âmbito dadesambiguação a partir de uma corpora onde cada documento representa uma par〈palavra/significado〉 de modo a se contornar a questão da polissemia.

2.4.2 Embeddings

Embeddings [55] são representações de palavras aprendidas a partir de uma coleção dedocumentos. Redes neurais têm sido utilizadas para treinar modelos de linguagenssobre dados não rotulados. Através de uma camada da rede neural (“embeddinglayer”) é possível remover a espasidade do vetor original que associa a palavra cujarepresentação será aprendida para todas as coocorrentes. Obtendo, assim, vetores detamanho reduzido e fixo. Em suma, após a projeção na “ extitembedding layer”, cadapalavra vira um vetor. Embeddings também são contínuos, ou seja, seus valores são

Page 51: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 25

não-binários. Tal propriedade abre a possibilidade de generalização das representaçõesvetoriais.

No âmbito implementacional, temos o Word2vec23, que é uma ferramenta para aconstrução de vetores e utiliza duas arquiteturas: CBOW (Seção 2.3.4) e skip-gram.(Seção 2.3.3):

• Arquitetura de skip-gram - o modelo obtém a representação de uma palavracomo entrada, e a camada de saída da rede neural é replicada várias vezes paraincluir o número de contextos, e a probabilidade de distribuição (condicional)por contexto.

• Arquitetura CBOW - Neste modelo, o processo é inverso do skip-gram. A entradada rede neural é uma determinada palavra, e a saída é a probabilidade de cadapalavra do contexto ao redor. O processo de treinamento, que inclui inúmeroscontextos, requer a média a retirada dos vetores dos contextos de entrada.

Como é mencionado por [55], skip-grams são melhores para criar representaçõesde palavras com amostragem infrequente, enquanto a arquitetura CBOW é melhorem termos de performance durante a geração do modelo e a representação de termosfrequentes.

2.5 O uso dos recursos lexicais no processo de

substituição

Na literatura, é possível identificar nichos dedicados à ordenação de sinônimos paradada sentença, onde, principalmente, diferem-se pelo modo de representação docontexto, da palavra e seu conjunto de significados e, consequentemente, pela métricautilizada para a comparação de semelhança semântica entre o contexto de entrada e arepresentação de um possível sinônimo.

Muitos trabalhos predizem o sinônimo correto para um contexto a partir de umalista predeterminada, os “sinônimos aproximados”, que são comumente vinculados

2https://code.google.com/archive/p/word2vec/3O modelo utilizado pela nossa abordagem é gerado pelo Word2Vec.

Page 52: Um Método para Desambiguação de Sentido e Substituição ...

26 Fundamentação Teórica

a um mesmo conceito4 em thesaurus [31]. Assim, sobreposições semânticas entrea palavra definição da palavra e o contexto têm pouca relevância, já que inexploraquaisquer tipo de representação anotada de cada candidato/definição como fontepara um treinamento. [25] apresenta uma classificação formal das diferentes relaçõesde sinonímia, como estilísticas e atitudinais (i.e “father”/“daddy”), onde, apesar decompartilharem um conceito nuclear em comum, suas nuances de diferenciação poucosão identificáveis nos significados de dicionários [26]

Outra gama de trabalhos, a da subárea homônima da Substituição Lexical [50],extrai e ordena sinônimos para sentença. Grande parte desses trabalhos, como a doscompetidores do SemEval-2007, utiliza também de técnicas que mensuram a probabi-lidade de aplicação do candidato à sentença (adequabilidade contextual) como pilarcentral, utilizando de modelos de linguagem como n-grams ou de frequência extraídosde grandes volumes, como o corpus Google Web 1T, com até 1 trilhão de palavras [77]ou de motores de busca. Representações do contexto na aprendizagem apresentamvariações no tamanho do n-gram ou a função de probabilidade usada. Já considerandoo aspecto da relação semântica contexto-palavra, para as abordagens que realizamessa verificação, aprende-se o significado de determinada palavra para determinadadefinição/tema (desambiguação), para essa parcelas de trabalho utiliza-se de téc-nicas como a Latent Semantic Analysis (LSA), descobrindo palavras mais relevantespara determinado domínio, indexado por um termo substituível, e mensurando aproximidade deste com o contexto.

Para dicionários, em muitos casos, mensura-se as sobreposições entre unidadeslexicais dos significados de t e entre as palavras contexto circundante de t, como em [4],predizendo uma lista de substitutos sem ordem de relevância entre si, sendo relevanteentrada para métodos de sinônimos aproximados. Técnicas de modelagem por tópicose desambigaução via-dicionários não são necessariamente excludentes entre si. Noentanto, métodos de comparação semântica entre representação “independente decontexto” de um conceito e um contexto rarol incorrem na baixa sobreposição.

Alternativamente às restrições da comparação entre definições e contexto, a utiliza-ção das típicas frases de exemplos vinculadas a cada definição mitigaria esse impactonegativo, mas as frases são escassas, e a anotação de um grande volume de frasescom os significados associados às palavras consistem em uma tarefa custosa. Asfrases associadas a cada definição da palavra principal em um contexto, pela lógica

4Uma definição é uma descrição textual de um conceito, onde ambos estão associados a um conjuntode sinônimos para representar o mesmo conceito em um documento.

Page 53: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 27

da linguística, deveriam possuir uma distância muito reduzida do contexto onde amesma palavra estaria aplicada. Portanto, dicionários, ainda relevantes fontes paraobtenção de possíveis sinônimos, carecem de fontes auxiliares para ponderação darelação entre sinônimos. Uma ideia mais que natural é, então, de dados oriundos decorpus não-anotados, de modo a se verificar a aplicabilidade no contexto de potenciaissinônimos.

Modelos de embeddings representam palavras em um espaço vetorial de baixadimensionalidade, resultantes de um processo de treinamento com redes neurais. Essetipo de representação se baseia na hipótese distribucional, que sustenta que palavrasque ocorrem nos mesmos contextos tendem a possuir mesmo significado [68]. Portanto,trazem consigo consigo a representação de palavras a partir dos seus contextos deuso. Diferente dos thesauri, que agrupam-as se considerar o contexto. Diferente daLSA, que identifica as palavras latentes (relevantes) para uma domínio específico(definição) representando-o em um vetor, embeddings recebem permitem a predição dedeterminada palavra informado o contexto [52,54]. Tal representação é capaz de captarrelações entre as palavras, diferentes daquelas explicitamente tipificadas na Wordnet[57], onde regularidades estão relacionadas a certas posições dos vetores, sejam elassintáticas, morfológicas, além daquelas efetivamente utilizadas pelo nosso trabalho:as semânticas. Algumas relações mais específicas são transcritíveis em operaçõesalgébricas, como a soma. [54] destaca essa contribuição, que inclui regularidadesentre representações de palavras, ilustrando-a com a operação υ[“king”] - υ[“man”] +

υ[“woman”] para se obter a representação no espaço dimensional mais aproximada à dapalavra “queen”.

Embeddings são essencialmentes ambíguos, condensando relações de uma pala-vra p sem que tal relação de coocorrência seja capaz de captar o significado de p nocontexto utilizado como base de treinamento na geração do mesmo vetor, tornandopossível a representação de palavras possivelmente contrastantes [60], como os antôni-mos [63], com considerável aplicabilidade contextual, ou conceitos relacionados, masque inexpressam sinonímia, como “car”-“motorcycle”. Esse tipo de característica abrea possibilidade do uso de algum recurso complementar às representações contidasno modelo, que é possível pelo uso de um thesaurus, que agrupa sinônimos indepen-dentes de contexto, reduzindo contrastes de antonímia e papel. Embeddings são, naprática, referências extraídas de grandes volumes, mas que, de certa forma, esbarramna mesma questão da escassez de dados anotados, fato que faz necessário transfe-rir ao modelo a representação da sentença que contém a palavra a ser substituída,

Page 54: Um Método para Desambiguação de Sentido e Substituição ...

28 Fundamentação Teórica

na intenção de obter representações de palavras com forte correlação à sentença emquestão.

Destacada a característica central de dicionários/thesauri, é possível dizer que agru-pam sinônimos em função dos significados assumíveis pelas palavras. Entretanto, talagrupamento é realizado por sinônimos-cognitivos, desconsideram o “fator contextode uso”, conforme a hipótese distribucional [68]. Embeddings, por si só, constrõema representação vetorial da palavra apenas baseada no contexto, dando margem àrepresentação aproximada de não-sinônimos. Pelas características e deficiências obser-vadas, a junção das fontes se apresentam como um dos fatores impulsionadores destetrabalho.

2.6 A base de referência SemEval

Os casos de entrada utilizados na experimentação são os mesmos utilizados no Se-mantic Evaluations. O SemEval é uma série de eventos direcionados à avaliação desistemas na área de PLN, o que inclui, naturalmente, áreas correlatas à Desambigua-ção Lexical de Sentido e outras subáreas que tangem o estudo do significado daspalavras em determinado idioma. Internamente a cada evento existe um conjuntode competições entre sistemas com propósitos específicos, provendo muitas vezescenários de experimentação com ampla adesão posterior à ocorrência em questão. Naedição de 2007, ocorreu a tarefa de “Substituição Lexical” (task 10 5). A SubstituiçãoLexical envolve tanto o ato de encontrar o conjunto de melhores substitutos para otermo substituível, quanto o ato de identificar o melhor substituto contido no mesmoconjunto.

Uma das principais contribuições desta tarefa é disponibilizar uma base de mensu-ração para ranking e predição de sinônimos onde as bases que provêm os significadosdas palavras não são pré-definidas. Assim, os cenários desenvolvidos para experi-mentação não só avaliam a capacidade da tarefa de desambiguação, como mensurara qualidade dos recursos, as Bases Léxicas, no intento de acrescer a acurácia dossistemas dedicados à Desambiguação/Substituição Lexical. Naturalmente, o inven-tário de sentidos trazem consigo relevante participação ao longo da tarefa, de modoque, aqueles utilizados pelas abordagens voltadas à tarefa são avaliados pela Base deExperimentação.

5Página oficial: http://nlp.cs.swarthmore.edu/semeval/tasks/index.php

Page 55: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 29

É importante ressaltar que esta competição dá completa autonomia aos participan-tes para a geração do conjunto de sinônimos, bem como sua ordenação. Ou seja, cadaparticipante tem a faculdade de escolher a combinação de métodos mais adequados,bem como as recursos (corpus Linguístico, inventário de sentidos anotado, desambi-guadores, algoritmos de classificação, medida de comparação semântica, entre outros)para o cumprimento do propósito da tarefa. Deste modo, conclui-se que nenhum casode entrada possui um favorecimento para algum determinado recurso. As abordagensnão possuem nenhum tipo de informação prévia acerca das anotações gold de todosos casos de entrada. Deste modo, conclui-se que a tarefa de busca de sinônimos éprecedida pela identificação do significado pela palavra marcada pela substituição. Taltarefa é, portanto, uma desambiguação lexical de sentido, ainda que implicitamenteimposta pela experimentação.

2.6.1 Sobre o processo de anotação

Os anotadores encarregados de gerar as anotações gold são cinco pessoas falantes deforma nativa do inglês. Entre os quais, três adquiriram background linguístico. Aosmesmos anotadores foram entregues um conjunto de procedimentos 6 para realizaremas anotações, onde as principais instruções corresponde a cada um sugerir até trêsmelhores substitutos (igualmente válidos, caso considerem existentes). Naturalmente,algumas palavras em específico trazem consigo uma quantidade maior de rótulos de“melhor substituta” (moda) que outras. Para a qual será mencionada como “moda”.

O dissenso formado pelos anotadores e a quantidade variável de recomendaçõespara as diferentes palavras sugeridas estabelecem também uma noção de ordem entretodas as palavras mencionadas, de maneira geral, por todo o conjunto de anotadores.

Um fato que reforça a ausência de inclinação para algum tipo de base léxica especí-fica. Um ponto importante a ser destacado é que o processo de anotação prioriza ovocabulário do próprio anotador, sendo-lhe facultado escolher o dicionário que lheconvir no processo de anotação em casos de maior dificuldade. Isto se lhe convir.

6Disponível em http://www.dianamccarthy.co.uk/files/instructions.pdf. Acessado em 29/03/2019

Page 56: Um Método para Desambiguação de Sentido e Substituição ...

30 Fundamentação Teórica

2.6.2 Seleção das instâncias

A base utilizada contém 1710 instâncias, que são triplas do formato 〈 frase, palavra,função sintática 〉. Deste conjunto de instâncias, cadar par distinto 〈 palavra, funçãosintática 〉 está vinculada a 10 sentenças.

As instâncias contidas na base de experimentação são aquelas cuja as palavras subs-tituível apresentam, no mínimo, um sinônimo. A mesma palavra deve ser polissêmica,ou seja, ter no mínimo dois significados. 70 palavras foram escolhidas manualmente, apartir de recursos léxicos e corpora, enquanto 131 foram escolhidas automaticamente.Com o intuito de mitigar a inclinação a um determinado significado que cada palavrapossui (skew), 20 palavras para cada função sintática, ou seja, 80 palavras da base,tiveram suas sentenças associadas escolhidas de forma manual, enquanto as demaisforam escolhidas automaticamente.

2.6.3 Subtarefas da competição

A competição SemEval 2007 é dividida, necessariamente, em duas subtarefas distintas,que foram reproduzidas na experimentação: a tarefa Best (Seção 2.6.3) e a tarefaOut-of-Ten (Seção 2.6.3). As tarefas em questão são descritas a seguir.

Best

O intuito desta tarefa é avaliar a capacidade de predição do melhor sinônimo substi-tuto. Esta tarefa permite às abordagens a sugestão de inúmeros sinônimos, caso osconsiderem equivalentes semanticamente ao termo substituível quando aplicados aocontexto. Entretanto, penaliza a pontuação de todas as abordagens que sugeriremsinônimos não considerados corretos na compreensão dos anotadores. As prediçõesdevem apresentar os substitutos na ordem de relevância na compreensão do sistemapreditor.

Para a subtarefa Best, são utilizadas duas métricas para a avaliação da acuráciados sistemas que utilizam esta base de experimentação: Revocação e Revocação da daModa. As duas métricas podem assim serem descritas:

• Revocação (R) - Esta métrica é a proporção da média da frequência de sugestõesde cada substituto dado pelos anotadores sobre a quantidade de casos de teste

Page 57: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 31

da base. A média da frequência em questão é proporcionamente reduzida emfunção da quantidade de predições apresentadas antes da retira da média porquantidade casos de testes. A métrica em questão é representada pela Equação2.4:

R =∑ai:i∈T

∑res∈aif reqres

|ai| × |Hi|

|T| (2.4)

Onde:

– T - é o conjunto de todos casos de teste (〈sentença, palavra, função sintática〉)

– ai - representa o i-ésimo conjunto de sinônimos preditos por um determinadosistema para o i-ésimo caso de entrada;

– Hi - é o conjunto de pares composto por substitutos e suas respectivas frequên-cias providos pelos anotadores para o i-ésimo caso de entrada;

– res - representa um determinado substituto compreendido em Hi;

– f reqres - representa a frequência associada a res em Hi;

– |ai|, |Hi| e |T| representam o comprimento dos conjuntos ai, Hi e T, respecti-vamente;

• Revocação da Moda (Rmoda) - Esta métrica é de fácil compreensão, e é descritívelde forma sintetizada: calcula-se a proporção de acertos do substituo mais indicado(predição correta do substituto, que é moda) para somente as instâncias quepossuem um substituto moda. A métrica é expressa pela Equação 2.5:

Rmoda =∑bgi:∈Tm

1 i f bgi = mi

|Tm|(2.5)

Onde:

Page 58: Um Método para Desambiguação de Sentido e Substituição ...

32 Fundamentação Teórica

– Tm - representa o conjunto somente com as instâncias que contêm um substi-tuto com maior frequência única (moda);

– bgi - é o melhor substituto (“bestguess”), retornado pelo sistema participantepara a i-ésima instância de Tm;

– |Tm| comprimento de Tm;

– mi - é o sinônimo de maior frequência única na anotação;

Out-of-Ten (oot)

A tarefa oot avalia mensurar se um sistema, dado um limite de até dez sugestões,pode encontrar o melhor sinônimo (na compreensão dos anotadores) para um termono contexto. É importante ressaltar que esta métrica não penaliza a pontuação dasabordagens em função das possíveis sugestões erradas. A não-penalização em taiscenários é justificada pelo autor pela quantidade restrita de anotadores participantes.

Para a subtarefa oot, também são utilizadas duas métricas para a avaliação daacurácia dos sistemas: Revocação e Revocação da da Moda. Entretanto, algumasdiferenças em relação às métricas da subtarefa Best merecem destaque:

• Revocação (R) - Esta métrica é a proporção da média da frequência de sugestõesde cada substituto dado pelos anotadores sobre a quantidade de casos de teste dabase. No entanto, inexiste a penalização proporcional em função da quantidadede predições apresentadas antes da retira da média por quantidade casos detestes. A definição formal da Revocação para oot está na Equação 2.6.

R =∑ai:i∈T

∑res∈aif reqres

|Hi||T| (2.6)

A revocação para a oot difere-se da revocação para a subtarefa Best quanto au-sência penalização por quantidade de sugestões das predições (divisão por ai damédia das frequências)

• Revocação da Moda (Rmoda)

Page 59: Um Método para Desambiguação de Sentido e Substituição ...

Fundamentação Teórica 33

A revocação da moda, para a subtarefa oot, difere-se da revocação (Equação 2.6)apenas no fato que inexiste uma noção de ordem meio às predições realizadas.Na fórmula para esta métrica, mi representa um substituto sugerido, mas sem apenalização por não ser o primeiro no conjunto predito, sendo pertinente apenaso seu pertencimento ao mesmo conjunto predito. A revocação da moda é dadapela Equação 2.7.

Rmoda =∑ai:∈Tm

1 i f mi ∈ ai

|Tm|(2.7)

2.6.4 Capacidade de desambiguação

Este cenário de avaliação, também originário da competição de Substituição Lexical,vai além da capacidade de sugestão do melhor substituto para um contexto. Ele avaliaa capacidade de uma abordagem de efetuar a escolha para as instâncias nas quais eleexiste 7 meio ao conjunto universo de candidatos (tU) para um par 〈 t, fs 〉 gerados porcada sistema.

Assim, apresentamos as duas variações das métricas de precisão: “Precisão paraTodos” (Equação 2.8), que considera apenas as instâncias para as quais todos osmétodos conseguem inclui o melhor substituto em sua lista de candidatos. A outramétrica é a “Precisão do Sistema” (Equação 2.9), que considera somente as instânciaspara as quais o sistema avaliado inclui o melhor substituto na sua lista de candidatos.

PT =∑bgi∈T 1 se bgi = mi

|T| (2.8)

Onde, para cada cada variável da equação 2.8, temos as representações:

• T - Representam todas as instâncias da base SE-2007 que incluem um substituto-moda e que, para as mesmas instâncias, exatamente todas as abordagens encon-traram o substituto em seus respectivos tU;

7Um substituto mais votado pelos anotadores.

Page 60: Um Método para Desambiguação de Sentido e Substituição ...

34 Fundamentação Teórica

• bgi - O melhor substituto (“best guess”) predito por determinado sistema para ai-ésima instância de T;

• mi - O melhor substituto (“best guess”) no entender dos anotadores para a i-ésimainstância de T;

PSis =∑bgi∈Sis 1 se bgi = mi

|Sis| (2.9)

Onde, para cada cada variável da Equação 2.8, temos as representações:

• Sis - Representam todas as instâncias da base SE-2007 que possuem um substituto-moda e que, para as mesmas instâncias, a abordagem avaliada por essa funçãoencontrou o substituto com seu respectivo tU;

• bgi - O melhor substituto (“best guess”) predito por determinado sistema para ai-ésima instância de Sis;

• mi - O melhor substituto (“best guess”) no entender dos anotadores para a i-ésimainstância de Sis;

Page 61: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 3

Trabalhos Relacionados

Este capítulo é destinado à apresentação dos trabalhos relacionados. Portanto, subdi-vidimos os trabalhos em três tópicos principais de modo a melhor descrever a relaçãocom o corrente trabalho.

O primeiro tópico é sobre Desambiguação Lexical de Sentido (Seção 3.1), quecompreende as abordagens dedicadas à predição dos significados para um termoquando aplicado a um certo contexto. Esta classe de trabalhos está aqui relacionadaem virtude do fato da desambiguação representar parte integrante da SubstituiçãoLexical e ranking de sinônimos.

Já o segundo tópico é relativo à predição do melhor sinônimo meio a um conjuntode sinônimos aproximados (Seção 3.2). Tal classe de abordagens para o problemado sinônimo aproximado se caracteriza por sua parte dos trabalhos utilizar métodosprobabilísticos no inferimento da palavra mais adequada para um contexto de uso.Sinônimos aproximados são aqueles que estão frequentemente vinculados a um únicoconceito nas ontologias ou dicionários [39]. Portanto, este segmento de pesquisa nãoinclui seleção/extração de sinônimos para o contexto, já que o conjunto de entradapara esses métodos é uma lista fechada associada a uma definição. Devido a esta carac-terística, informações semânticas extraíveis das relações ontológicas ou das própriasdefinições têm pouca aplicabilidade para este nicho de trabalhos.

O terceiro tópico, que é o de Extração e Ranking de sinônimos (Seção 3.3) abarcaos trabalhos concorrentes do 4th International Workshop on Semantic Evaluations 2007(SemEval 2007), que utilizam significativa parte das métricas de experimentaçõesque adotaremos para mensurar a qualidade da nossa abordagem. Estas abordagensrealizam a extração de sinônimos candidatos e sugestão das melhores alternativas

35

Page 62: Um Método para Desambiguação de Sentido e Substituição ...

36 Trabalhos Relacionados

para substituição em um contexto. Trabalhos reproduzidos fielmente sob o mesmocenário de experimentação também são descritos na subseção.

3.1 Abordagens para a desambiguação lexical de sentido

Um dos trabalhos mais conhecidos relativos à desambiguação lexical de sentido foirealizado por [43]. Este trabalho utiliza dicionários para a tarefa, onde a avaliação desemelhança entre as definições assumidas por duas palavras distintas são comparadasatravés da heurística de interseção de palavras comuns entre todas as descrições detodos os termos contidos no contexto (combinatorialmente).

Assim, a definição que mais compartilha de sobreposições com um contexto de usorepresenta o significado provável. Tal trabalho desconsidera propriedades sintáticascomo a função sintática da palavra e aspectos relativos à posição entre as palavras.Esta abordagem utiliza o dicionário de Oxford como inventário para obter sentidosanotados. O uso de ontologias ainda não é realizado neste trabalho que apresentaa vantagem de ser independente de linguagem e facilmente adequável a diferentesdicionários. Este trabalho é seminal na desambiguação de sentido utilizando dasobreposição de termos como solução. A acurácia deste algoritmo atinge até 70% deprecisão em experimentações criadas pelos próprios autores. Por ser um problemacombinatorial, passível de incorrer numa explosão de combinações, uma variaçãopossível do método corresponde à sobreposição das palavras das descrições do termosubstituível e aquelas do contexto.

O trabalho de [5] apresenta um método de desambiguação derivado da propostaoriginal de [43]. Entre uma das principais diferenças é a inutilização do dicionário deOxford [21] como inventário de sentidos seguido da adoção da Wordnet como novafonte. Outra diferença do trabalho é o uso dos synsets da Wordnet para calcular asobreposição de palavras no processo de desambiguação. Naturalmente, uma vezque existem taxonomias ao longo da Wordnet, são empregadas também as definiçõessemanticamente relacionadas 1 às definições das palavras do contexto são inclusasnas combinações. Tais combinações são entrada para a medida de sobreposição.Esta abordagem alcança a acurácia até 23% superior à acurácia apresentada em [43].Todas as abordagens da classe [43], que utilizam exclusivamente dicionários, incorrem

1O trabalho de [5] utiliza hiperonímia/hiponímia, holonímia/meronímia, toponímia para estetrabalho.

Page 63: Um Método para Desambiguação de Sentido e Substituição ...

Trabalhos Relacionados 37

facilmente no problema clássico da “esparsidade dos dados”, onde as palavras (comsuas inúmeras definições combinadas) tendem a ter baixa, ou completamente nula,sobreposição.

O trabalho de [7] apresenta uma variação do método de [43], mas evitando amedida rudimentar de sobreposição entre palavras. Ao invés disso, utiliza umamedida de similaridade que compara entre a representação do contexto e da definiçãodo termo substituível através de um espaço semântico distribucional. O autor utilizao inventário de sentido da Babelnet [62], cuja vantagem é associação de páginasda Wikipedia (verbetes), que descrevem certas páginas, às respectivas definiçõesda Wordnet. Assim, documentos da Wikipedia são inerentemente adicionados àrepresentação do significado de um termo.

O autor cria uma representação em um espaço vetorial da definição, que é umadescrição textual. A representação da definição na forma de vetor semântico para adefinição Dp de um termo p, considera as palavras de Dp, além de definições associadasfornecidas pela Babelnet (através da função “getRelatedMap” oriundo da API, ondeas descrições de antônimos são excluídas). Assim, tem-se uma concatenação dasdefinições, compondo uma espécie de “definição estendida” (De

p). Para as palavraspertencentes a De

p, aquelas também inclusas em Dp assumem peso maior. Palavras dasdescrições relacionadas têm peso decrementado em função da distância taxonômicapara Dp, além de sua respectiva frequência (tf-idf ) dentro do vocabulário compostopor todas as palavras existentes na união das “definições estendidas”. Assim, é criadaa representação do vetor para a “definição estendida” associada com os significadosde p. A representação do contexto se dá numa janela mais compacta que engloba aesquerda e direita da palavra que será substituída através da soma das representaçõesdas palavras. O autor trabalha com a probabilidade de Dp ser a definição para p apartir de uma base para aprendizagem da distribuição de 〈descrição/palavra〉 junto àdistância de cosseno das representações das definições do termo desambiguável juntoao contexto que o circunda.

Este trabalho consegue resultados superiores ao método Lesk clássico, além dobaseline de significado mais usual para determinado cenário de experimentação.

Page 64: Um Método para Desambiguação de Sentido e Substituição ...

38 Trabalhos Relacionados

3.2 Abordagens para sinônimos aproximados

O trabalho de [24] apresenta uma solução não-supervisionada para o problema daescolha lexical, utilizando um método estatístico através de redes de coocorrênciaentre as palavras. A ideia da utilização de redes de coocorrência é que mesmo queuma palavra não coocorra com uma outra, é possível predizer uma terceira palavraa partir de duas palavras fortemente correlacionadas. Deste modo, percebe-se umatransitividade entre palavras, onde o próprio autor do trabalho exemplifica: “learn”pode estar fortemente relacionado com “task” porque “learn” coocorre frequentementecom “difficult” que coocorre frequentemente com “task”. Então, o autor propõe umasegunda ordem de coocorrência para a predição da relação de duas palavras atravésda mediação de um termo correlato a ambas.

Para tal, o autor usa um corpus para criar um grafo de árvore, onde cada sinônimocandidato representa a raiz. As palavras coocorrentes a cada um dos sinônimos emum mesmo contexto compõem uma relação de primeira ordem. Para definir se duaspalavras que comporão uma relação de primeira ordem são usadas duas medidas:(i) mutual information e (ii) t-score. A função das medidas é calcular a probabilidadede junção entre palavras. Quando utilizadas juntas, almeja-se evitar que o espaçoamostral que gera a medida de coocorrência, sendo pequeno, forneça probabilidadespouco acuradas. Para as relações de segunda ordem é utilizada apenas a medidat-score.

Dadas duas palavras quaisquer w1 e wn, para uma relação de ordem d, uma medidade significância para a relação 〈w1, wn〉 para o menor caminho na árvore P(w1, wn)é expressa por uma fórmula que assegura que a importância da correlação decaiaproporcionalmente ao aumento da distância em quantidade de saltos.

A construção de uma rede utiliza uma sentença de entrada. Assim, cada palavra deum conjunto de sinônimos aproximados (sem descoberta de sinônimos) se torna raizde uma rede de coocorrência com as palavras da sentença S* de entrada. A partir destaestrutura, o sinônimo predito s é aquele que maximiza o somatório da função sig(s,wi) onde wi representa cada palavra pertencente a S* e sig() é uma função que aplicaas medidas da probabilidade de junção de s e todas as palavras da rede construída. Otrabalho atinge até 68.9% de acurácia para um determinado caso de entrada.

O trabalho de [38] apresenta um método estatístico para a escolha automática dosinônimo aproximado integrando um thesaurus inteligente, que sugere uma ordem

Page 65: Um Método para Desambiguação de Sentido e Substituição ...

Trabalhos Relacionados 39

de sinônimos para um contexto de uso definido. Esta abordagem computa umapontuação para cada sinônimo de um conjunto o quão adequado é para um contextode uso. A pontuação se baseia na medida de informação mútua [15] para verificar seduas palavras tendem a coocorrer em determinado contexto (probabilidade de junção).No trabalho em questão, o tamanho da janela de contexto utilizada no corpus parao cálculo do PMI é de k palavras à esquerda e k à direita ao lado da ocorrência nocorpus do sinônimo a ser predito. Assim, para cada sinônimo aproximado, calcula-se osomatório da medida PMI para cada este mesmo sinônimo e todas as palavras inclusasna janela que define o contexto.

O trabalho de [38] também considera restrições colocacionais (posição dentro deuma sentença) a partir de uma base de conhecimento às palavras escolhidas parapreencher uma lacuna de um trecho de texto. Para cada palavra colocada próximaa um sinônimo aproximado, é realizado um teste t a partir de um motor de buscacom contadores para mensurar se essa composição configura uma colocação válida ouuma violação. De forma complementar, também é apresentado um método supervi-sionado à tarefa. Naturalmente, obtém-se dados rotulados. Além disto, é necessáriorealizar o treinamento de classificadores para cada grupo de sinônimos aproximadosjuntos à sentença utilizada para predizer o sinônimo aproximado mais adequado.Naturalmente, tal propriedade se destaca como uma desvantagem comum a todasas abordagens supervisionadas, que necessitam de treinamento para cada inventáriofechado de sinônimos.

As classes do modelo são os sinônimos do conjunto solução admitido. Cadasentença é então convertida em um vetor de atributos para a realização do treinamento.São utilizadas duas propriedades no modelo: (i) o coeficiente de cada parte do contexto(esquerda e direita), portanto, a quantidade de atributos passa a ser o dobro daquelade sinônimos aproximados. (ii) as palavras nas janelas de contexto. Para cada conjuntode sinônimos aproximados, fora usado o grupo das 500 palavras mais frequenteslocalizadas próximas às lacunas no conjunto de desenvolvimento. A cada palavra, nomomento do treinamento, é registrada se uma palavra ocorre no mesmo contexto ounão. O trabalho de [38] faz uso diferentes algoritmos classificadores sobre o mesmomodelo.

O trabalho de [40] apresenta uma abordagem apoiada sobre método estatístico enão-supervisionada que não demanda de ontologias para a resolução do problemade sinônimos aproximados. Diferente de trabalhos anteriores, o corpus utilizado poreste trabalho fora o Google Web 1T (que abrange cerca de até 109 páginas web) . O

Page 66: Um Método para Desambiguação de Sentido e Substituição ...

40 Trabalhos Relacionados

trabalho usa modelo de linguagem 5-grams (Seção 2.3.1), que é uma tentativa de semedir o quão frequente uma cadeia de palavras acontece enquanto uma sequênciaem um corpus. Basicamente, as sentenças são construções de uma sentença originalpreenchida por cada um dos sinônimos a ser classificado. Assim, são consultadassentenças formadas por uma janela deslizante de tamanho 5 sobre os trechos de textosgerados para a consulta ao corpus. A acurácia média aproximada é de 69.9%.

A abordagem de [31] estende à abordagem de [38] para a resolução do problemade preencher lacunas de uma sentença por sinônimos. A principal diferença realizadaé o uso de skip-grams (Seção 2.3.3), como alternativa de uma janela de contexto parao cálculo da medida de informação mútua, entre os sinônimos aproximados e aspalavras pertencentes ao skip-gram.

Este trabalho também realiza a avaliação entre sinônimos anotados por avaliadorescomo “atitudinais"ou “não-atitudinais"com o intuito de corroborar à hipótese queconjuntos de sinônimos classificados como “atitudinais", quando unidos a métodosestatísticos, entregam um resultado mais acurado. No entanto, tal hipótese não écomprovada. Esta abordagem consegue um ganho de até 4% na acurácia quandocomparado ao trabalho de [24].

O trabalho de [76] propõe um método de aprendizado que consiste em uma junçãode máquinas de vetores de suporte (SVM) com análise semântica (Latent SemanticAnalysis - LSA). Para a realização da análise semântica, cria-se uma matriz de frequên-cias de palavras por documentos (obtidas através dos termos que circundam os sinô-nimos aproximados, com uma janela de tamanho 5). Em mais detalhes, um termo p(sinônimo candidato) é representada por um vetor com todas as palavras coocorrentesno contexto. O vetor na posição i recebe 1, se a palavra do vocabulário no índice icoocorra com p, ou recebe 0, caso contrário. Por fim, o método de SVD é aplicado aovetor original que representa a palavra com o intuito de destacar atributos infrequentesnos contextos de uso dos sinônimos candidatos, e então representá-los em um espaçocom baixa dimensionalidade.

A conclusão do algoritmo se dá através do treinamento de classificadores SVM comos vetores resultantes (latent vectors) de modo a melhorar a acurácia da performancedos classificadores. O autor faz uma experimentação mais focada ao tamanho maisadequado para a janela de contexto aplicada ao domínio do problema, concluindo que415 palavras é o mais adequado. O algoritmo consegue ganhos significativos sobreseu baseline, que é [38], alcançando até 74.5% de acurácia.

Page 67: Um Método para Desambiguação de Sentido e Substituição ...

Trabalhos Relacionados 41

Quando comparada a este nicho de trabalhos, nossa abordagem difere-se que atacaum problema mais amplo no que concerne à seletividade de sinônimos. Ou seja,não trabalha com o escopo reduzido a sinônimos inclusos em uma mesma definição.Entretanto, compartilha de pontos em comum, como considerar métricas como a PMIpara cálculo de coocorrência entre palavras do contexto e um eventual candidato.

3.3 Abordagens de extração e ranking de sinônimos

O método de [36] aplica a medida PMI para calcular a probabilidade de aplicação docandidato sobre aquele contexto na forma de n-grams, que assumem vários tamanhosderivados contendo o potencial substituto. O autor calcula uma medida agregada queé uma função probabilística sobre bigramas, trigramas, tetragramas e pentagramas,implicando que a ocorrência do substituto em maiores n-grams confere pontuaçõesmais expressivas. Os n-grams consultados na base apresentam também variação daposição do candidato dentro de cada n-gram.

O autor utiliza a Wordnet de base léxica, utilizando de hipônimos, hiperônimos esinônimos diretos para substantivos, além de sinônimos dos synsets adjacentes parao termo substituível. A base utilizada como fonte para a computação da funçãoprobabilística é o corpus Web 1T [10].

O método de [77] (KU) utiliza um modelo de linguagem estatístico para o uso deuma função de verossimilhança sobre 5-grams retirados do corpus Web 1T, predizendotambém o significado do substituto para o contexto em questão. Nesta abordagem,utiliza também das palavras inclusas na definição como candidatos. O trabalho de [36]aplica uma função probabilística que agrega a mesma função variando o tamanho docontexto e posição relativa do termo substituível dentro dos contextos variados.

O método de [78] utiliza motores de busca para a geração de contadores sobreconsultas geradas da partir da sentença que circunda o termo substituível. Cadasentença que contém cada um dos potenciais bons substitutos é subdividida em trêssubconsultas diferentes: aquelas cujo contexto considerado é apenas o antecedenteao candidato, outro, para o contexto posterior ao candidato. Por último, considera-se também quando o candidato centraliza o contexto (pivô). A pontuação de cadacandidato é calculada em função do comprimento de cada subconsulta. Para a seleção

Page 68: Um Método para Desambiguação de Sentido e Substituição ...

42 Trabalhos Relacionados

de cada candidato considera-se os sinônimos de cada synset do termo substituível, bemcomo dos synsets hiperônimos logo adjacentes, quando para verbos e substantivos.

O método de [59] cria uma matriz de associativa entre categorias e palavras, ondeas categorias são as definições extraídas do Mcquarie Thesaurus. As associações exis-tentes evidenciam possíveis fortes relações entre o termo substituível e determinadaspalavras atreladas a uma certa categoria. Posteriormente, o autor utiliza dois classi-ficadores: um baseado em PMI, além de outro bayesiano; onde a definição adotadacomo certa é aquela que maximiza uma função objetivo resultante do somatório damedida PMI sobre cada palavra da sentença a uma categoria específica.

O trabalho de [34] (UNT) mescla rankings distintos ajustando pesos para cada umutilizando de um algoritmo genético. Os pesos são ajustados a partir dos melhoresresultados obtidos sobre a base de desenvolvimento. O autor considera a frequênciado candidato, dentro da sentença modificada, através da submissão de consultas amotores de tradução e também em motores de busca. Outro ranking considera a proba-bilidade condicional do candidato computado sobre n-grams, além de desambiguaçãoe LSA para captura de relação semântica entre o termo substituível e o contexto.

O processo de seleção de candidatos combina bases léxicas, expandindo os atravésde generalização/especialização os sinônimos candidatos para a Wordnet. De formacomplementar, o autor utiliza também do Microsoft Encarta, onde, para cada definiçãodo mesmo thesaurus, estende a lista de sinônimos escolhendo na Wordnet aquela demaior sobreposição de sinônimos em sua lista.

O método de [71] combina recursos e técnicas para mensuração da distância semân-tica das palavras e da sentença, como o LSA e ESA, além de modelos como n-grams detamanhos variados. Como bases léxicas, usa a Wordnet, Roget’s thesaurus, Encartae Transgraph para aumentar a chance da escolha de bons candidatos verificando aocorrência de um determinado candidato em mais de uma única fonte.

O método de [52] faz uso de um modelo de embeddings que se apoia no modelode linguagem do skip-gram, armazenando contextos e palavras específicas no mesmoespaço vetorial, computando uma medida agregada que considera a distância entrepalavra-candidato e candidato-contexto. Assim, permitindo a obtenção de candidatosa partir de um contexto informado ao modelo.

O autor [51] apresenta uma representação de contexto alternativa ao tradicional“bag-of-words”, que é de um vetor de substitutos do termo. A representação do contexto

Page 69: Um Método para Desambiguação de Sentido e Substituição ...

Trabalhos Relacionados 43

se dá através dos substitutos de primeira ordem, através do coeficiente PMI sobren-grams do contexto junto ao substituto passível de integrar o vetor mensurandosua adequação. A representação de um termo t fora de contexto se dá pela médiasimples dos vetores de substitutos dos contextos que contêm t. Também cria umarepresentação “dependente de contexto”, fazendo a média ponderada dos vetoressubstitutos dos contextos existentes, atribuindos aos contextos mais parecidos comuma sentença que contém a palavra ser representada maiores pesos.

O método de [1] usa meta-heurísticas na desambiguação para obtenção da melhorlista de substitutos para a palavra: faz uso de uma metaheurística de Simulated An-nealing e outra baseada em colônia de abelhas. O autor utiliza do algoritmo de [4]como forma desambiguação para mensuração da compatibilidade semântica entreo contexto e as definições da palavra desambiguável. A geração de candidatos, econsequente expansão da lista, tem a Wordnet e Wiktionary sobrepondo as definiçõesde ambas fontes, buscando sempre uma maximização de palavras. Ao fim, agrupa ossinônimos por distância taxonômica da palavra desambiguável, além de, internamenteaos agrupamentos, ordena-os por frequência.

O trabalho de [48] apresenta uma abordagem direcionada à tarefa classificada pelamétrica best. Entre os objetivos do trabalho, além da obtenção de resultados relevan-tes na própria competição, inclui o estudo da qualidade do sinônimos candidatos,filtragem sintática e configurações do algoritmo utilizado.

O autor obtém sinônimos a através das relações de sinônimos, hiperônimos de atédois salto de distância, além de outras relações menos utilizadas na Wordnet, como“similar_tos” e “entailment”. O autor realizar o ranking mesclando diferentes critérios.Entre tais critérios, destaca-se o filtro de frequência das definições dos candidatosdentro do corpus SemCor. O comprimento do candidato também é utilizado comométrica. Ordene as consultas considerando os seguintes critérios: comprimentoda consulta, distância da palavra relativa para a palavra-alvo (usando métricas desinonímia e hiperonímia), número de resultados obtidos pela consulta construída. Porfim, a palavra relativa presente na sentença mais bem-ordenada mediante critériosanteriormente mencionados é a escolhida.

O trabalho de [18] apresenta dois sistemasnão-supervisionados. Ambos partilham do método de coleta de sinônimos, entretanto,se diferem no algoritmo de ranking. A coleta dos sinônimos consiste na seleção dossinônimos a partir do Roget Thesaurus. Assim, seleciona-se todos os sinônimos que

Page 70: Um Método para Desambiguação de Sentido e Substituição ...

44 Trabalhos Relacionados

possuam a mesma função sintática. De forma complementar, só foram escolhidas ossinônimos vinculados às definições cujo rótulo (“Main Entry") seja idêntico à palavra-alvo a orientar a busca por novos sinônimos. (i) O primeiro (SWAG1) gera umapontuação dos sinônimos substitutos baseados no o quão frequente o contexto local(trigrama do Web 1T corpus) é adequado a cada um dos sinônimos; (ii) o segundo(SWAG2), descrito pelo autor como uma extensão do SWAG1, em termos de métricas,calcula a distância de cosseno sobre uma mescla de “casamento de contexto"unido aum modelo bag-of-words que utiliza definições da palavra.

[32] apresenta duas abordagens (não-supervisionadas) para a realização de subs-tituição lexical em ambas métricas (best e oot). A coleta de sinônimos se dá com arecuperação de sinônimos das definições existentes no Oxford American Thesaurus2.O mesmo foi reproduzido para a Wordnet. A funcionalidade do ranking para estetrabalho é realizada de duas formas distintas:

1. Proximidade de domínio (por similaridade baseado em LSA, utilizando a distân-cia de cosseno sobre os vetores correlacionados entre sinônimo) – O propósitodesta abordagem é clusterizar palavras possivelmente sinônimas baseadas emtópicos presumidamente comuns a tais palavras, compondo um domínio semân-tico. Para isto, utiliza-se de LSA, onde é criada uma matriz de frequência dapalavra por documento para todos os N documentos de um corpus. Posterior-mente, é aplicada a técnica de Decomposição em um Único Valor (Single ValueDecomposition) de modo a destacar os sinônimos candidatos mais relevantes paracada domínio. Entre os rankings gerados, é escolhido aquele gerado a partir dodomínio semântico que tenha maior proximidade ao contexto de entrada para asubstituição de palavras.

2. Coerência sintagmática – A indução lógica por trás deste método é: se duaspalavras 〈w1, w2〉 são sinônimos, então numa sentença que w1 ocorre é possívelencontrar em um corpus um contexto quase idêntico onde w2 ocorra. Para tal,é procurado no corpus (Web 1T 5-gram corpus) a sentença-alvo (5-gram), naqual o termo substituível é substituído pelo sinônimo candidato e proporcionapontuações (proporcionais) baseada na frequência da ocorrência da nova sentença.Em particular, esta técnica ordena determina lista de sinônimos com algumamétrica de similaridade na ocorrência do Web 1T 5-gram corpus – que especifica

2O Oxford American Writer Thesaurus deste trabalho relacionado e o Dicionário de Oxford(https://en.oxforddictionaries.com/) utilizado em nosso método representam fontes diferentes dedados.

Page 71: Um Método para Desambiguação de Sentido e Substituição ...

Trabalhos Relacionados 45

frequência de n-grams em amostras oriundas de grandes corpus. Assim, associapontuações proporcionais para substituições com alta frequência na Web.

A abordagem não-supervisionada de [72] realiza a expansão de sinônimos (des-coberta de sinônimos) mais adequados para uma determinada palavra dentro deum contexto. Tal abordagem se baseia em medidas de grafo de centralidade, que,basicamente, resulta em um grafo direcionado de similaridade.

Esta abordagem utiliza inúmeras fontes de coleta de sinônimos, tais como (i)Wordnet [57]; (ii) Microsoft Encarta [23]; (iii) Roget Thesaurus 3; (iv) Transgraph [27] e(v) similaridade distribucional [45].

A construção do grafo de similaridade se dá da seguinte forma:

1. tem-se sentença que contém uma palavra-alvo para encontrar os sinônimos;

2. constrói-se um grafo onde os vértices são as palavras que cercam os sinônimoscandidatos ao longo do corpus. Naturalmente, os sinônimos candidatos tambémrepresentam

3. é empregado o conceito de “similaridade direcional"para ponderar a semelhançaentre as palavras do grafo, que é uma correlação entre termos, possivelmentesinonímia, mas de forma assimétrica: para um determinado contexto, uma pa-lavra A pode ser trocada por B, mas a recíproca não se mostra verdadeira (i.e“(Bill) Clinton” e “president” - exemplo do próprio autor). Esta relação entre duaspalavras é computada através das Equações 3.1 e 3.2:

DSim(w1, w2) =C12C1

Sim(w1, w2) (3.1)

Sim(w1, w2) = Cos.Sim(ESA(w1), ESA(w2)) (3.2)

Onde:

• Cos.Sim é uma função que recebe dois vetores para a aplicação da função decosseno;

3http://www.thesaurus.com

Page 72: Um Método para Desambiguação de Sentido e Substituição ...

46 Trabalhos Relacionados

• ESA - é a função de ESA sobre a palavra para um corpus;

• C12 - é a frequência da coocorrência de palavras similares em mesmo texto notexto do corpus;

• C1 - ocorrência da palavra C1 sozinha ao longo do corpus;

Como DSim não é uma função de resultado simétrico, ou seja, a troca de w1 porw2 não assegura mesmo resultado. O que implica que w1 e w2 são substitutíveis entresi. Assim DSim é aplicada nos dois cenários. Então, se DSim(w1, w2) > DSim(w2, w1),diz-se que a similaridade é de w1 para w2.

Estabelecido o grafo direcionado, bem como a medida de similaridade, é aplicadoao grafo algoritmos de centralidade (PageRank ou Degree) para atribuir diferentesimportâncias aos vértices do grafo. Baseado neste tipo de estudo, o autor conclui quepara a métrica oot, a mescla de ESA, similaridade direcional junto ao algoritmo dePageRank, apresenta o melhor resultado na escolha do melhor sinônimo.

Quando comparada às abordagens que trabalham com Extração/Seleção de can-didatos e ranking de sinônimos, nosso representa o único que busca fazer a seleçãode candidatos considerando relações semânticas das taxonomias “é um” e “tem um”,presumindo que seu uso está condicionado à checagem em outras fontes. No quetange ao uso de recursos, ainda que métodos como [34, 71, 72] usem modelo espaçovetorial, nosso trabalho é o único que engloba bases de conhecimento (thesauri) eembeddings.

Page 73: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 4

Método de Substituição Lexical eDesambiguação de Sentido

Este capítulo apresenta o método aplicado à tarefa de substituição lexical, cujo pro-blema foi descrito na Seção 1.2. A arquitetura do nosso “Método de SubstituiçãoLexical Baseado em Dicionários e Embeddings” (MSL-DE1) é representada na Figura4.1, que ilustra o fluxo de dados em alto nível ao longo de cada componente/subcom-ponente do método. Dentro do fluxo duas fases do método são destacáveis:

i Seleção de candidatos, realizada pelo Seletor de Candidatos (4.1), selecionando ostermos que representam potenciais sinônimos (candidatos) para uma determinadapalavra que integra um caso de entrada (sentença S, um termo substituível t, euma função sintática fs assumida por t quando contida em S);

ii Ordenação dos potenciais sinônimos, que é realizada pelo Avaliador de Contexto(4.2), que compreende a ponderação dos candidatos dentro dos contextos, aindacom tamanho reduzido (inferior ao comprimento S), além da mensuração dapreservação semântica de uma representação contextual de S e de S modificadacom a inserção de um candidato;

Nas seções a seguir, os componentes da arquitetura serão apresentados e ilustrados.

1Adotamos tal nomenclatura para rotulação nas tabelas dos Experimentos (Seção 5).

47

Page 74: Um Método para Desambiguação de Sentido e Substituição ...

48 Método de Substituição Lexical e Desambiguação de Sentido

P1 D1 S1P1 D1 S1P2 D2 S2

P1 D1 S1P1 D1 S1P2 D2 S2

SeletorWordnet

SeletorDicionário

Verificador de concordância

Ponderadorde

Contexto  Abrangente

Combinador de critérios

<t, pos>

Wordnet (dicionário/ontologia)

Dicionário Adicional

Base de N-Grams

Embeddings

Base deCoocorrência

Seletor de Candidatos

Avaliador deContexto

<S>

Lista de sinônimosordenados

Ponderadorde

ContextoRestrito

Figura 4.1: Fluxo de dados em alto nível com as interações entre as bases utilizadas e compo-nentes. As setas pontilhadas representam a alimentação sob demanda das basespelos subcomponentes a elas interligados.

Page 75: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 49

Figura 4.2: Ilustração das definições taxonomicamente distribuídas na Wordnet.

4.1 Seletor de Candidatos

Este componente se encarrega da descoberta de candidatos, consultando recursoslexicais, tais como dicionários e thesaurus. Para tal, adota-se a Wordnet como fonteprincipal por representar dois dos três recursos. Adota-se também um dicionárioadicional (sem ontologia), cuja função é ajudar a estender o conjunto de candidatosatravés de um critério específico de seleção para o dicionário adicional e para aWordnet. A saída do componente alimenta o Avaliador de Contexto (Seção 4.2).

A vantagem de utilizar mais de uma base léxica auxilia no processo de seleçãorealizando a verificação de concordância entre criadores de fontes diferentes, ou seja,assumimos que bons sinônimos para determinado termo tendem a estar em mais deum repositório. Sob o aspecto da utilização da ontologia, seu uso auxilia a expandir asalternativas linguisticamente próximas dos possíveis substitutos de “primeira ordem”.Inerente à etapa de seleção, elencamos os seguintes problemas, para os quais a junçãode bases léxicas alimentando o nosso critério de seleção, almeja atacar:

Page 76: Um Método para Desambiguação de Sentido e Substituição ...

50 Método de Substituição Lexical e Desambiguação de Sentido

1. A oferta restrita de sinônimos no inventário de definições: apenas 46% das defini-ções de um termo contêm, no mínimo, um sinônimo para substituição [77]2, evi-denciando a necessidade expandir tal conjunto extraindo palavras com razoávelrelação semântica para as definições de t, sejam generalizações/especializaçõesou da relação “todo-parte”, que são acessíveis pelas taxonomias de hiperonímia emeronímia, respectivamente;

2. Bons candidatos podem estar implícitos na definição ou compartilhar de umageneralização em comum sem que pertençam ao mesmo caminho taxonômicoda Wordnet. Para tal, ilustramos com as triplas 〈 palavra, definição, sinônimos〉 expressos por d1 = 〈“war”, “the waging of armed conflict against an enemy”, 〈“war”,

“warfare”〉〉 e d2 = 〈 “conflict”, “an open clash between two opposing groups (or individuals”,

〈“combat”, “conflict”〉〉. Onde d2 representa conceito implicitamente referenciadoem d1, como ilustrado na Figura 4.2. Outra observação é que a definição ded1 contém a palavra “conflict” implicitamente, que seria um bom candidato dedistância taxonômica e posição relativa, a mesma para 〈“vote”, “the opinion of a

group as determined by voting”〉 e 〈“attendance”, “the act of being present (at a meeting or

event etc.”〉, meio às outras dezenas de pares palavra-definição, que representamdado ruidoso para o componente. As relações almejadas para uma seleção maisacurada estão ilustradas na Tabela 4.1;

3. As medidas de similaridade semântica mais conhecidas sobre a Wordnet, es-truturadas sobre taxonomias, são completamente independentes de contexto,conforme verifica-se no estudo comparativo de [13]. Ou seja, por mais úteis que aprincípio são, vão na contramão da hipótese principal que norteia a similaridadesemântica entre as palavras: palavras de significados próximos acontecem emcontextos parecidos;

2 [77] e o nosso trabalho utilizam a Wordnet 3.00 na exemplificação e implementação.

Page 77: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 51

Tabela 4.1: Tipos de relações ontológicas consideradas na Wordnet durante a seleção de candi-datos através do auxílio de uma fonte secundária.

Ontologia Dicionário(s) Auxiliar(es)

Hiperônimo adjacente X

Hipônimo adjacente X

Hiperônimo não-adjacente X

Hipônimo não-adjacente X

Co-hipônimo imediato (ancestral em comum adjacente) X

Co-hipônimo não-imediato (ancestral em comum não-adjacente) X

Destacados os pontos que orientam a seleção de candidatos, faz-se necessária autilização de um recurso léxico complementar, captando relações promissoras queestão dispersas dentro das taxonomias da Wordnet, que granularizam as palavrascom definições significantemente parecidas. A Tabela 4.1 ilustra os tipos de rela-ções inicialmente captadas pela combinação das bases, considerando suas distintasestruturações.

A combinação de recursos permite a poda de candidatos pouco promissores queestão taxonomicamente próximos a t, além de selecionar os promissores com distânciaequivalente. Ainda que seja uma solução em tese simples, esse tipo de verificação semostra de grande contribuição, que é comprovada na experimentação (Seção 5) dométodo.

A junção entre fontes, em partes, se constitui de uma operação de interseção deconjuntos. Intersecção esta que não considera os candidatos imediatos de t na Wordnet,mas sim aqueles um pouco mais afastados de t ao longo de sua taxonomia. Posterior-mente, os mesmbros da intersecção resultante se unem ao candidatos imediatos de toriundos de todas as fontes integrantes da solução.

Para fins de ilustração, adotamos a tripla E=〈 S=“He will invite you for have drinksat the bar and walk around”, t=bar, f s=substantivo〉, como instância de entrada aolongo do fluxo de execução do método. Os melhores substitutos para E seriam “pub”,

“tavern”, “taproom” e “counter”.

Page 78: Um Método para Desambiguação de Sentido e Substituição ...

52 Método de Substituição Lexical e Desambiguação de Sentido

4.1.1 Seletor da Wordnet

Conforme descrito na Seção 2.2, a Wordnet traz relações semânticas entre as palavras.As mesmas relações são úteis para a abordagem, já que podem fornecer bons candi-datos para a palavra que será substituída na sentença. Para este subcomponente, sãoescolhidos todos os sinônimos vinculados a todas as definições indexadas por t. Todoshiperônimos, hipônimos, merônonimos e holônimos vinculados a cada definição inde-xada por t são pré-selecionadas, mas são efetivamente verificados pelo Verificador deConcordância (Seção 4.1.3).

4.1.2 Seletor de Dicionário

O dicionário adicional para o método cumpre com dois propósitos: (i) Estender alista de candidatos, selecionando aqueles mais relevantes vinculados a cada definiçãoindexada por t. Assumimos que o candidato mais relevante é aquele primeiramenteelencado na lista de sinônimos fornecida. (ii) Aglutinar candidatos em torno deuma mesma definição, sem que as hierarquizações inerentes à ontologia da Wordnetafaste-os. O conjunto união das listas de sinônimos apresentadas para t, é utilizadaefetivamente pelo 4.1.3.

Exemplo. A lista a seguir, para o exemplo que ilustra o fluxo de execução dométodo, elenca as definições para o registro 〈 “bar” / substantivo 〉 (aninhados a cadadefinição constam os termos adotados como sinônimos de t):

i “A long rigid piece of wood, metal, or similar material, typically used as an obstruction,fastening, or weapon.”

• Sinônimos: rod, pole, stake, stick, batten, shaft, shank, rail, pale, paling, spar, strut,support, prop, spoke, crosspiece, girder, beam, boom

ii “An amount of food or another substance formed into a narrow block.”

• Sinônimos: block, slab, cake, tablet, brick, loaf, wedge, lump, chunk, hunk, cube,ingot, nugget, piece

iii “A counter in a pub, restaurant, or cafe across which drinks or refreshments are served.”

• Sinônimos: counter, table, buffet, stand

iv “An establishment where alcohol and sometimes other refreshments are served.”

Page 79: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 53

• Sinônimos: hostelry, tavern, taproom, pub, saloon

v “A barrier or restriction to an action or advance.”

• Sinônimos: obstacle, impediment, hindrance, obstruction, check, stop, block, hurdle,barrier, stumbling block, handicap, restriction, limitation

4.1.3 Verificador de Concordância

Este subcomponente busca refinar a seleção de candidatos partindo da premissaque duas bases de conhecimento criadas a partir de grupos de linguistas distintostendem a trazer uma interseção de recomendações, assumindo que esta interseçãoé o conjunto mais confiável de substitutos. Essa fase impõe as primeiras podas doconjunto resultante do processo, ainda que desconsidere o contexto de aplicação.Destacadas as considerações que balizam o algoritmo de seleção para as diferentesfontes (Seção 4.1), o algoritmo em questão que estende o inventário de candidatos é oseguinte:

1. Na Wordnet, para todos os conceitos associados à palavra t na Wordnet, incluano conjunto de saída todos os seus sinônimos vinculados. A Figura 4.3 ilustradois conceitos indexados por t onde um contém melhores candidatos (Conceito1) e, o outro (Conceito N), candidatos ruins. Por não necessitar verificação numafonte secundária, este passo é como uma união de bases (“Wordnet ∪ Oxford”) ;

2. Na Wordnet e fonte secundária, para cada um dos conceitos imediatamente aces-síveis por t, que foram visitados na seleção anterior, busque na ontologia todasos |D| conceitos adjacentes acessíveis através de: generalizações, especializações,merônimos ou holônimos na Wordnet (verbos e substantivos). Assim, selecionepara compor a saída somente os sinônimos vinculados a cada um dos |D| concei-tos que também constam como sinônimos em, ao menos, alguma lista expressana Seção 4.1.23. Esta operação é como uma interseção de fontes. (“Wordnet ∩Oxford”);

3. Na Wordnet e fonte secundária, para cada descrição textual (definição) de cadaconceito imediato de t, inclua no conjunto de candidatos os tokens também conti-dos na lista expressa em 4.1.2 (assumimos a possível referenciação de um sinô-

3Para advérbios e adjetivos utilizamos a função similar_tos para estender a lista de sinônimos nosegundo passo.

Page 80: Um Método para Desambiguação de Sentido e Substituição ...

54 Método de Substituição Lexical e Desambiguação de Sentido

"aroomorestablishmentwherealcoholicdrinksareservedoveracounter"

anareawithinabuildingenclosed

bywallsandfloorandceiling

"acheapdrinkingand

dancingestablishment"

"(duringprohibition)

anillegalbarroom"

"abarroominahotelorrestaurantwhere

cocktailsareserved"

"asaloonwhoseflooris

coveredwithsawdust"

barrom/bar/saloon/ginmill/taproom

roomConceito1

speakeasy

barrelhouse/honky-dring cocktail_lounge sawdust_saloon

"arigidpieceofmetalorwood;usuallyusedasafasteningor

obstructionorweapon"

instrumentation(apieceof

equipmentortool)usedto

effectanend

ahorizontalbarthat

goesacrosssomething

"therevolvingbarof

adistributor"

abarorpairofparallelbarsofrolledsteelmakingtherailway

alongwhichrailroadcarsorothervehiclescanroll

"ametalbar(orlengthof

pipe)usedasalever

"

bar

implement

rotor

crossbar handspike track/rail/runway

tavernconsistingofabuildingwithabarand

publicrooms;

pub/saloon/taphouse

épartede

éum

Vérticeindexadoport

ConceitoN

Figura 4.3: Conceitos distintos na Wordnet (para t=“bar”), sendo um (Conceito 1) referênciacomo potencial provedor de bons substitutos.

Page 81: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 55

"aroomorestablishmentwherealcoholicdrinksareservedoveracounter"

anareawithinabuildingenclosed

bywallsandfloorandceiling

"acheapdrinkingand

dancingestablishment"

"(duringprohibition)

anillegalbarroom"

"abarroominahotelorrestaurantwhere

cocktailsareserved"

"asaloonwhoseflooris

coveredwithsawdust"

barrom/bar/saloon/ginmill/taproom

roomConceito1

speakeasy

barrelhouse/honky-dring cocktail_lounge sawdust_saloon

"arigidpieceofmetalorwood;usuallyusedasafasteningor

obstructionorweapon"

instrumentation(apieceof

equipmentortool)usedto

effectanend

ahorizontalbarthat

goesacrosssomething

"therevolvingbarof

adistributor"

abarorpairofparallelbarsofrolledsteelmakingtherailway

alongwhichrailroadcarsorothervehiclescanroll

"ametalbar(orlengthof

pipe)usedasalever

"

bar

implement

rotor

crossbar handspike track/rail/runway

tavernconsistingofabuildingwithabarand

publicrooms;

pub/saloon/taphouse

épartede

éum

Vérticeindexadoport

ConceitoN

Figura 4.4: Para os dois conceitos de t, verifica-se a lista de sinônimos dos conceitos adjacentes,mas com critérios de seleção. Palavras negritadas são candidatos.

Page 82: Um Método para Desambiguação de Sentido e Substituição ...

56 Método de Substituição Lexical e Desambiguação de Sentido

nimo por outro na sua própria definição). A Figura 4.4 expressa as palavrasselecionadas para duas definições diferentes. Somente aquelas presentes noconjunto universo de sinônimos dispostos na lista expressa 4.1.2 sinônimo seleci-onável na ontologia. Esta operação é uma interseção de conjuntos (“Wordnet ∩Oxford”);

4. Para o dicionário de Oxford, inclua no conjunto de saída o sinônimo mais rele-vante por definição. No caso, utilizamos contadores de frequência de definiçõesem corpora. Como alternativa, assumimos que o sinônimo mais relevante sejaaquele primeiramente elencado na lista específica de sinônimos (disposta em4.1.2), como uma forma de favorecer um possível viés de seleção. Esta operaçãose assemelha ao primeiro passo da composição do conjunto e também é parte deuma operação de união de conjuntos (“Wordnet ∪ Oxford”);

Exemplo. Ao fim do critério de seleção supracitado, a Figura 4.4 representa aspalavras selecionadas para serem aplicadas ao contexto e gerar um coeficiente de apli-cabilidade para a Wordnet. A lista de saída deste componente é, então, composto pelaspalavras “pub”, “barrom”, “saloon”, “ginmill”, “taproom”, “counter”, “rail”, “obstacle”,“block”, “hostelry”, “rod”. 4.

4.2 Avaliador de Contexto

O passo subsequente é o processo de ordenação de melhores substitutos, que consistena verificação da aplicabilidade de cada candidato obtido no passo anterior dentrodo contexto. Esta verificação é dividida em duas subtarefas distintas: ponderação empequenos contextos (Seção 4.2.1) e ponderação em contextos de tamanho abrangente(Seção 4.2.2).

4.2.1 Ponderador de Contexto Restrito

A primeira subtarefa mensura a aplicação do candidato em partes menores do contexto.Esses contextos auxiliam a abordagem na verificação da coerência do candidato dentro

4Por questão de simplificação omitimos os candidatos extraídos da Wordnet para as definições]2, N-1[. Assim, assumimos que pertencem à lista de saída. Ilustramos o antagonismo entre “bonscandidatos” e “candidatos ruins” compreendidos entre os synsets conceitos 1 e N, respectivamente

Page 83: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 57

de parte do sintagma [8], como a relação diante de todas as palavras (independente dafunção sintática), tais como preposições, artigos e pronomes. Assim, em tese, mitigariaerros que tangem às restrições de escrita quanto à correlação com as palavras defunções sintáticas pouco significativas para representação semântica da sentença.

Essa checagem é viabilizada através do uso de uma base com n-grams, represen-tando a primeira associação de cada candidato a uma pontuação em função da frequên-cia, além de atribuir pesos aos respectivos comprimentos. Deste modo, elimina-secandidatos com pontuação inferior a coeficiente previamente definido, que represen-taria um ponto de corte, presumindo inaplicabilidade naquele contexto. Além disso,atribui pesos maiores aos candidatos que acontecem em n-grams de tamanhos maiores.A subtarefa em questão é formalmente descrita no Algoritmo 1.

Exemplo. A frase “He will invite you for have drinks at the bar and walk around”,possui o termo (t) “bar” substituído por cada um dos candidatos retornados peloSeletor de Candidatos (Seção 4.1). Aqui selecionamos exclusivamente o candidato“tavern” como símbolo de um candidato promissor em fase anterior à mensuração deaplicabilidade contextual. Adotamos também “rail” como um candidato inadequado.Após a substituição, a sentença modificada (S+tavern) é “He will invite you for have drinksat the tavern and walk around”.

Assim, são gerados os n-grams que contêm o token “tavern” derivados de S+tavern

para diferentes valores de n (para o exemplo, n ∈ ]2, 5[). Posteriormente, são consulta-das na nossa base de n-grams suas respectivas frequências, que são:

〈“tavern”,“and”〉: 1098, 〈“the”,“tavern”〉: 10901, 〈“tavern”,“and”,“walk”〉: 850, 〈“at”,“the”,“tavern”〉:

8788, 〈“the”,“tavern”,“and”〉: 6755, 〈“tavern”,“and”,“walk”,“around”〉: 600, 〈“drinks”,“at”,“the”,“tavern”〉:

5321, 〈“the”,“tavern”,“and”,“walk”〉: 200, 〈“tavern”,“and”,“walk”,“around”〉:700, 〈 “have”, “drinks”, “at”,

“the”, “tavern”〉: 4781, 〈 “drinks”, “at”, “the”, “tavern”, “and”〉: 2785, 〈 “at”, “the”, “tavern”, “and”, “walk”〉:

321, 〈 “the”, “tavern”, “and”, “walk”, “around”〉: 410

O mesmo processo que inclui a substituição em S, geração de n-grams e consultade frequência é efetuado para o candidato pouco promissor “rail”: 〈“rail”,“and”〉: 1098,

〈“the”,“rail”〉: 8761,

〈“rail”,“and”,“walk”〉: 210, 〈“at”,“the”,“rail”〉: 7001, 〈“the”,“rail”,“and”〉: 1015,

〈“rail”,“and”,“walk”,“around”〉: 50, 〈“drinks”,“at”,“the”,“rail”〉: 0, 〈“the”,“rail”,“and”,“walk”〉: 200,

〈“rail”,“and”,“walk”,“around”〉:120, 〈 “have”, “drinks”, “at”, “the”, “rail”〉: 0, 〈 “drinks”, “at”, “the”, “rail”,

“and”〉: 0, 〈 “at”, “the”, “rail”, “and”, “walk”〉: 0, 〈 “the”, “rail”, “and”, “walk”, “around”〉: 0

Page 84: Um Método para Desambiguação de Sentido e Substituição ...

58 Método de Substituição Lexical e Desambiguação de Sentido

Assim, baseada na função expressa no Algoritmo 1, que aplica um somatório defrequências ponderadas de função do tamanho da janela, os coeficientes para “tavern”e “rail”, respectivamente, são5: 512094 e 119390. Assim, para esta fase, permanece anoção de ordem relativa entre as palavras (ignorando as demais palavras desta etapa)em questão. Candidatos cujo conjunto de coeficientes obtidos a partir de seus n-gramsponderados que sejam menores ou iguais a determinado limiar são excluídos dospassos subsequentes do método6.

Mais uma vez: o par ilustra, simplificadamente um termo intuitivamente avaliadocomo “bom” para a instância de entrada do método e outro termo é avaliado como“muito ruim”. Para todas as etapas, além do par, existe uma gama ampla de termosaplicados ao mesmo processo.

5Simbolicamente atribuímos a κ o valor 2.6O Algoritmo 1 expressa o limiar em questão como “Min”.

Page 85: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 59

Algorithm 1 Algoritmo de ponderação de candidatos aplicados a pequenos contextos,atribuindo maiores coeficientes às observações de frequência em maiores contextos.

1: procedure ponderar_ngram2: Entrada:3: (1) Conjunto de candidatos C,4: (2) Sentença de entrada S,5: (3) Termo substituível t,6: (4) Tabela associativa de N de frequência de n-grams no formato 〈ngram :

f requencia〉,7: (5) Tabela associativa de h de pontuações de C no formato 〈candidato :

pontuacao = 0.00〉8: (6) Um peso κ para o n-gram9: (7) Um coeficiente Min mínimo que o n-gram ponderado deve atingir para não

ser excluído do processo para as fases subsequentes10: Saída: Uma estrutura associativa chave-valor C* de candidatos com uma

pontuação mínima, que é conferida pela própria função (C* ⊂ C)11:

12: for candidato ci ∈ C do13: SM← S substituindo t por ci

14: n-grams ci← { }15:

16: for n ∈ [2, ...,5] do17: n-grams ci← n-grams ci ∪ n-grams derivados de SM que contêm ci

18: end for19:

20: for n-gram ni ∈ n-grams ci do21: h[ci]← h[ci] + f (N[ni], comprimento de ni) # f(a, b) = a× b κ

22: end for23: end for24:

25: C*← h - registros com pontuação ≤ Min26: C*← normalizar_coe f icientes(C*) # transformando coeficientes27: da estrutura em [0,1]28:

29: retorne C*

30: end procedure

Page 86: Um Método para Desambiguação de Sentido e Substituição ...

60 Método de Substituição Lexical e Desambiguação de Sentido

4.2.2 Ponderador de Contexto Abrangente

A segunda subtarefa de mensuração de aplicabilidade contextual utilizada é menosrestritiva quanto às palavras relevantes consideradas no contexto. Esta fase busca criaruma representação do contexto considerando, principalmente, o termo substituívele as propriedades mais relevantes da sentença. Deste modo, busca-se na sentençaalguma palavra que tenha forte correlação com o t para viabilizar a representação de tpara o contexto.

Assumimos que realizada a composição do conjunto de candidatos para a substi-tuição, após considerar aspectos semânticos (independentes de contexto) e aspectossintáticos (dependentes do contexto), é possível aprimorar a ordenação final a partirda captura de aspectos semânticos dependentes de contexto que abrange t. O aprimo-ramento se dá a partir da proximidade semântica da sentença, quando compreendeo termo substituível, com uma representação escolhida de cada um dos candidatosselecionados.

O Avaliador de Contexto avalia um documento que visa extrair o significadodo termo principal dentro da sentença e verifica a ocorrência de alguma palavraque exprima o mesmo significado, extraída de algum dicionário, e já avaliada parapequenos contextos para mitigar a imprecisão. Assim, partimos da premissa que osegundo ranking é direcionado à aplicabilidade contextual, mas focando em grandesjanelas ao redor do termo desambiguável.

A medição da aplicação do candidato dentro do contexto abrangente pode assim serdescrita: para cada palavra wi, sendo wi ∈ {substantivos, verbos, adjetivos, advérbios}(usando o POS-Tagger apresentado em [73]), da totalidade S, mensura-se sob demandaqual possui maior associação ao termo substituível t. Para a computação da medida decoocorrência para cada palavra wi da sentença S de entrada junto ao termo t, aplica-sea medida que mensura a probabilidade de ocorrência simultânea de dois eventos,conhecida como Pontwise Mutual Information (PMI) [15], que é expressa pela Equação4.1.

pmi(t, wi) = log2p(t, wi)

p(t)p(wi)(4.1)

Page 87: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 61

Para a Equação 4.1, p denota a probabilidade de observação de ocorrência dedeterminada palavra em um contexto, que é aprendida a partir de um corpus paraaprendizagem. Mais especificamente, p(t) e p(wi) representam a observação daocorrência, de forma independente, de t e wi, respectivamente. De mesmo modo,p(t, wi) denota probabilidade da coocorrência do par 〈t, wi〉 em um dado conjunto decontextos, onde tal medida é computada a partir de um corpus de aprendizado (aconfiguração é expressa na Seção 5).

Nosso método obtém a probabilidade p de modo bem específico quanto ao escopode observação: para a computação da medida, p considera cada contexto como sendouma frase “bem formada” dos corpora (para o processo de aprendizagem considera-se afrase concluída por algum dos caracteres “?”, “!”, “.”), e não necessariamente pequenasjanelas com imposições de ordem relativa, tais como os n-grams ou skip-grams. Por talcaracterística, a área de pesquisa possui comprimento desconhecido de antemão.

Focando na instância de entrada do MSL-DE, o subcomponente computa a medidaPMI para todas as palavras do contexto S combinadas junto ao termo t. Concluídasas várias invocações da medida temos uma lista ordenada com todas as palavras dasentença S, exceto para t, naturalmente.

Posteriormente, para a lista ordenada, é retornada aquela palavra wi que maximizaa função PMI (Equação 4.1), conforme expressa pela Equação 4.4, que recebe a repre-sentação simplificada de toda sentença. Representação esta que, concretamente, é umproduto da distância de embeddings (método 3CosMul78 [44]), que retorna as palavrasmais aproximadas através da distância de cosseno a partir da operação vetorial.

A Equação 4.3 obtém coeficientes maiores para termos que conciliam proximidadevetorial do seu potencial substituto, além da palavra de maior frequência de ocor-rência antes computada. A representação da menor correlação tende a obter valoresirrisórios para qualquer sentença de entrada, já que não determinamos um limite infe-rior pretensamente adequado para o denominador. Mais detalhadamente, a mesmaequação representa a única operação vetorial realizada no método, que consiste em umproduto das distâncias de cosseno sobre dois pares de termos. O primeiro, compostopelo candidato ponderado e t, o segundo, composto por t junto à palavra de S maiscorrelacionada na aprendizagem. A saída do produto é entrada na divisão da mesma

7A Equação 4.3 requer que cada coeficiente Xθ obtido pela distância de cosseno seja não negativo.Depois, é efetuado (Xθ+1)/2 sobre o resultado de Xθ .

8Logo a seguir, os coeficientes da função para a saída do Ponderador de Contexto Abrangente sãonormalizados para o intervalo [0,1].

Page 88: Um Método para Desambiguação de Sentido e Substituição ...

62 Método de Substituição Lexical e Desambiguação de Sentido

distância de cosseno entre o candidato (cj) e a palavra de menor correlação à t9. Já avariável Ln representa o vocabulário oriundo da subtarefa de ponderação de n-grams(Fórmula 4.2), inclusa no Ponderador de Contexto Restrito (Seção 4.2.1).

A saída da Equação 4.3, que é também a saída do Ponderador de Contexto Abran-gente, é a lista de palavras com menor distância no espaço multidimensional (Lemb),orientadas pela função que maximiza o enviesamento ao contexto, filtrada pela listaimposta pelo vocabulário contido em Ln.

Ln = ponderar_ngram(C, S, t) (4.2)

Lemb =argmax

cj ∈ (Ln)cos(cj, t)cos(cj,

argmax(pmi(t,wi))

wi ∈ S )

cos(cj,argmin(pmi(t,wi))

wi ∈ S +0.0001

(4.3)

Conceitualmente, a Equação 4.4 representa uma operação que almeja uma palavraparecida tanto com t que esteja para aquela da sentença com forte correlação PMI(argmax(wi, t)), além de ser substancialmente diferente de argmin(wi, t), que é a pala-vra do contexto com menor medida PMI (argmin), para composição da operação deanalogia. υ[t] é a representação vetorial de t, a qual é adicionada a saída da funçãode maximização, que também é um embedding. A saída, naturalmente, é uma lista derepresentações das palavras com as menores distâncias de cosseno contidas no mesmoespaço multidimensional, que é então filtrada sintaticamente selecionando aquelascontidas como chaves de entrada na Wordnet quando associadas à função sintática det quando aplicadas dentro de S.

Re = cos(υ[t] + υ[argmax(pmi(t,wi))

wi ∈ S ]− υ[argmin(pmi(t,wi))

wi ∈ S ]) (4.4)

Esta função é pertinente para a descoberta de padrões linguísticos transcritíveis naforma de operações algébricas de vetores. Na prática a função busca enviesar otermo substituível ao contexto, selecionando as palavras representadas no espaçodimensional com atributos comuns às palavras do par 〈t, wi〉.

Exemplo. Na sentença S este subcomponente identifica as funções sintáticas detodas as palavras nela existentes gerando a lista associativa: Sa=[(“He”, “pronome”), (“will”,

9A constante 0.0001 é utilizada meramente para evitar divisões por zero.

Page 89: Um Método para Desambiguação de Sentido e Substituição ...

Método de Substituição Lexical e Desambiguação de Sentido 63

“verbo”), (“invite”, “verbo”), (“you”, “pronome”), (“for”, “preposição”), (“have”, “verbo”), (“drinks”,

“substantivo”), (“at”, “preposição”), (“the”, “artigo”), (“bar”, “substantivo”), (“and”, “conjunção”),

(“walk”, “NN’), (“around”, “preposição”)]. Posteriormente, filtra-se somente aquelas comfunção sintática semanticamente relevante nesta etapa, reduzindo Sa à lista: Sa*=[(“will”,

“verbo”), (“invite”, “verbo”), (“have”, “verbo”), (“drinks”, “substantivo”), (“walk”, “verbo’), (“around”,

“preposição”)].

A seguir, acontece a aplicação da medida PMI para cada palavra inclusa Sa* emum casamento com o token “bar” é efetuada, resultando na lista SPMI(a*, bar) = [(“bar”,

“drinks”, 9.0120), (“bar”, “invite”, 4.1723), ..., (“bar”, “walk”, -1.0090), (“bar”, “will”, -4.2010)]. O passofinal aplica a tripla de palavras 〈 bar-drink-will 〉 como entrada para a Função 4.3,retornado a lista temporária que é representada no espaço muldimensional Lemb*=(“pub”,

0.5826115012168884) (“tavern”, 0.5498610734939575), (“taproom”, 0.5342156291007996), (“nightspot”,

0.5226896405220032). A saída desta etapa corresponde à lista Lemb já sem o registro de“nightspot”, naturalmente, já que este último não fora o único não selecionado pelossubcomponentes anteriores.

4.2.3 Combinador de Critérios

A função do Combinador de Critérios cumpre com a função de mesclar as listas decandidatos provindos dos dois processos de ordenação utilizados pelo Ponderadorde Contexto Restrito (Seção 4.2.1) e pelo Ponderador de Contexto Abrangente (Seção4.2.2). O processo de intercalação das listas de candidatos é descrita pelos passos aseguir.

i Obtém-se a lista das palavras com menor distância semântica para t e para otermo de maior correlação com t contido em S (argmax(t, wi)), que é o cerne doPonderador de Contexto Abrangente (Seção 4.2.2). A lista possui um limitantesuperior (maxvet) da quantidade retornada. Posteriormente efetuamos a remoçãode termos contidos no modelo que não possuam função sintática associada naWordnet que seja idêntica à de t;

ii As palavras oriundas do passo anterior, mantendo suas respectivas posições rela-tivas são selecionadas e adicionadas ao conjunto de saída, contanto que estejamtambém no conjunto provido pelo Ponderador de Contexto Restrito;

Page 90: Um Método para Desambiguação de Sentido e Substituição ...

64 Método de Substituição Lexical e Desambiguação de Sentido

iii As palavras que compõem a saída do Ponderador de Contexto Restrito que nãoforam selecionadas no passo anterior são adicionadas ao conjunto de saída, man-tendo a ordem relativa ainda imposta pelo subcomponente supracitado;

A ordenação final tende a ser encabeçada pelas palavras bem avaliadas nos doiscritérios de ordenação. Importante destacar que a representação vetorial permaneceambígua, ou seja, não possui representações específicas para pares palavra/definição,apesar do fato que o MSL-DE seleciona as palavras no espaço vetorial que minimizema distância para o vetor resultante da operação algébrica da Função 4.3. Por talmotivo o filtro de n-grams é utilizado como um filtro preliminar de modo a mitigar aambiguidade do termo.

Exemplo. A saída do Ponderador de Contexto Abrangente, que é a lista elemento-coeficiente [(“pub”, 0.5826115012168884), (“tavern”, 0.5498610734939575),(“taproom”, 0.5342156291007996)], encabeça o ranking entregue pelo método. A listarestante é complementada pela saída do subcomponente Ponderador de ContextoRestrito (Seção 4.2.1). A palavra “rail” tende a ficar na base da ordenação, já que tevepontuação baixa no subcomponente mencionado, que ilustra o primeiro filtro.

Page 91: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 5

Experimentos e Resultados

Esta seção é dedicada à apresentação de experimentos realizados para avaliar a qua-lidade do método proposto sob a avaliação de uma consolidada base na literaturacom instâncias de experimentação. Os experimentos foram projetados para reproduzirfielmente o cenário de experimentação da competição de Substituição Lexical [49],avaliando as diferentes métricas e subtarefas existentes.

Quanto à divisão deste capítulo, a Seção 5.1 destaca a configuração dos experimen-tos. Realizamos a investigação do ajuste de peso do n-gram para o Ponderador deContexto Restrito na Seção 5.2. Incluímos a investigação quanto à combinação dosrecursos utilizados, tanto as bases léxicas (Wordnet e dicionário) e os dois critérios demensuração de adequabilidade contextual na Seção 5.3. Posteriormente, demonstra-mos a comparação às demais abordagens, discutindo o resultado médio na Seção 5.4.Na Seção 5.5 realizamos a discriminação dos resultados por função sintática. Por fim,na Seção 5.6 mensuramos também a qualidade do processo de desambiguação.

5.1 Configuração dos Experimentos

Como referências de bases léxicas, utilizamos a Wordnet como fonte de candidatosem um dicionário principal, além das suas relações ontológicas para o mesmo. Comofonte complementar utilizamos o dicionário de Oxford1.

1Acessível em https://developer.oxforddictionaries.com/ com licença gratuita para softwares comfinalidades científicas.

65

Page 92: Um Método para Desambiguação de Sentido e Substituição ...

66 Experimentos e Resultados

Os corpora utilizados para a geração de n-grams (no Ponderador de Contexto Restrito4.2.1) incluem o corpus SignalMedia [16], COCA Corpus [19] e Leipzig Corpus [33],onde, para cada um, fora utilizada uma versão parcial composta por documentosselecionados aleatoriamente 2. Os corpora são sem domínio de assunto específico. Paraa seleção da medida de correlação entre palavras também foram utilizados os mesmoscorpora utilizados para a geração dos n-grams.

Parametrizando o MSL-DE, a seleção de sinônimos por definições imediatas de tna Wordnet é 4. O conjunto união de sinônimos do dicionário adicional (que alimentaas intersecções com a Wordnet) considera o top-4 por definição elencada. Já a operaçãode junção entre as bases forma o conjunto de candidatos do dicionário adicional comos top-2 sinônimos por definição. O limiar (maxvet) que delimita o máximo de palavrasretornadas pelo Ponderador de Contexto Abrangente, que foi mencionado na descriçãodo Combinador de Critérios (Seção 4.2.3) é 100.

A coleção de documentos que gerou os embeddings destinados à extração de relaçõessemânticas para estabelecer uma ordem no ranking final utilizado foi o Google NewsDataset 3, sem domínio específico, que indexa 100 bilhões de palavras e foram treinadoutilizando um modelo de linguagem de skip-grams.

Para mensurar a qualidade das sugestões dos trabalhos que seriam utilizadoscomo base de comparação para avaliação dos novos resultados, são utilizadas duastarefas originalmente apresentadas pelo SemEval 2007. As subtarefas de competiçãopodem ser vistas como categorias diferentes, para as quais, cada uma, possui métricasdiferentes de avaliação da acurácia (Seção 2.6.3).

5.1.1 Mensuração da correlação sintática

Além das medidas de precisão apresendas no Semeval-2007, utilizamos uma medidacriada por nós para tornar mais clara a contribuição da função sintática da palavrasubstituível no processo de substituição. As funções sintáticas apresentam diferentesaspectos dentro da sentença, desde representar nomes, conferir qualidade a um nome,ações ou até atribuir propriedades às mesmas ações ou qualidades. Tais aspectos sãoconsiderados de modo que apenas alguns termos dentro da sentença são julgadosnecessários para auxiliar a predição dos substitutos. Por tal motivo, estabelecemos um

2Disponíveis em github.com/isaiasfrederick.3Disponível em https://code.google.com/archive/p/word2vec/.

Page 93: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 67

modo de mensurar a inclinação (viés) que o termo substituível tem para o contexto queo circunda, resultando em uma medida. Tal medida busca tornar quantificável quegrau de relevância o “fator contexto” é relevante na predição de um bom substitutode diferentes funções sintáticas. Formalmente, a medida é expressa pela Equação 5.4(formalmente definida a seguir) requerendo maior detalhamento nas Equações 5.1, 5.2e 5.3.

1. Criamos a um agrupamento (I f s) com todas as sentenças cujas palavras que serãosubstituídas possuem a função sintática (fs). O termo tj é aquela que pertence àsentença Sj;

2. Para cada sentença Sj inclusa em I f s, calcula-se cartesianamente a função PPMI(Equação 5.1)4 para o termo substituível (tj), de forma casada com cada palavrawi (sendo wi 6= tj ) das |Sj| palavras contidas na mesma sentença Sj (compondopares);

3. Ainda para Sj, retira-se o coeficiente PMI maior (Equação 5.2) meio aos |Sj|coeficientes PMI calculados. O coeficiente retirado integrará um outro conjunto -max f s( f s) (Equação 5.3), que é uma amostragem específica para os contextos quecircundam a palavra a ser substituída de uma determinada função sintática (fs);

4. Calcula-se a média - coeficiente ao qual nomearemos “PPMI médio” - sobre oconjunto max f s( f s);

PPMI(w1, w2) =

0 if PMI(w1, w2) < 0

PMI(w1, w2) caso contrário(5.1)

max(tj, Sj) = argmax(PPMI(tj, wi))wi∈Sj

(5.2)

max f s( f s) = {max(tj, Sj) ∀ 〈Sj, tj, f s〉 ∈ I f s} (5.3)

4A função PPMI é uma variação da PMI [15].

Page 94: Um Método para Desambiguação de Sentido e Substituição ...

68 Experimentos e Resultados

PPMImedio( f s) =

∑e∈max f s

e

||max f s( f s)|| (5.4)

5.2 Variação do comprimento do n-gram

Esta subseção mensura o impacto na acurácia do método em função da variaçãodo peso atribuído ao comprimento do n-gram. O peso em questão é o utilizadopelo Algoritmo 1, que mensura a adequabilidade do candidato dentro de pequenoscontextos, e é executado pelo Avaliador de Contexto (Seção 4.2).

Tal medição auxilia a escolha do peso próximo ao ideal, entendido como o que trazmaior ganho à pontuação final após as diferentes subtarefas. Utilizamos na seleção abase da Wordnet e o dicionário de Oxford (com checagem de concordância). Já a fasede realizar a ordenação concilia técnicas de ordenação por frequência em pequenoscontextos, além da desambiguação através de coocorrência como partes utilizadas einvariáveis do método para observação do impacto do peso.

Nossa abordagem considera a frequência dos n-grams que contêm os candidatosem um corpus para aprendizagem para calcular o coeficiente do candidato, mas nãosomente isto: atribuímos também pesos maiores aos n-grams de maior comprimento.Tal escolha tende a melhorar a pontuação final quando consideramos a propensão àmaior ocorrência de pequenos n-grams incluindo o candidato em relação à frequênciados n-grams maiores. A comum disparidade (problema de esparsidade) pode implicara consequência que candidatos pouco indicados como sinônimos, porém muito fre-quentes em pequenos n-grams, tenham a eles associadas pontuações expressivas. Poroutro lado, “bons” candidatos (possivelmente sinônimos), verificados em contextosgrandes e infrequentes, recebem menores pontuações. O aumento do peso de grandesn-grams minimiza o impacto da frequência em pequenos contextos no coeficiente queé saída do Algoritmo 1, mas sem desconsiderá-la por completo, obviamente.

Variamos o peso κ, criando dois intervalos fechados i1 e i2 que contêm os valoresassumidos pela variável, sendo i1 = ]4,10[ = {κ ∈ Z} e i2 = ]10, 60[ = {κ ∈ Z : κ % 5 = 0}.A união dos dois intervalos é expressa na Tabela 5.1, que ilustra o impacto na acuráciapara as subtarefas oot e best, destacando as métricas inerentes às subtarefas.

Page 95: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 69

Tabela 5.1: Variação do peso atribuído ao tamanho n-gram na ponderação do contexto.

Pesos contexto best oot

κ R Rm R Rm

2 12,79 21,46 40,43 58,70

3 12,82 21,54 40,48 58,78

4 12,82 21,63 40,51 58,86

5 12,80 21,54 40,53 58,94

10 13,06 21,87 40,58 58,94

15 13,10 21,95 40,54 58,78

20 13,27 22,20 40,64 59,11

25 13,31 22,28 40,63 59,11

30 13,39 22,44 40,65 59,11

35 13,43 22,52 40,66 59,11

40 13,43 22,52 40,66 59,11

45 13,43 22,52 40,66 59,11

50 13,43 22,52 40,66 59,11

55 13,43 22,52 40,66 59,11

60 13,43 22,52 40,66 59,11

O resultado daa Tabela 5.1 apresenta pequenos ganhos para todas as tarefas com oincremento κ em 1, caso do intervalo i1. Mais precisamente, na variação entre 2 e 5observa-se um ganho praticamente nulo para a subtarefa best. O mesmo fenômenofoi observado para a subtarefa oot, apesar de ter detido um ganho um pouco maissignificativo: ≈0.4% para a métrica Rm.

O subintervalo i2, que traz um salto maior para a variável foco da discussão, maisbem destaca o impacto de κ do que o subintervalo i1. Para o cenário onde κ assume35, mais especificamente, é observável a estabilização do crescimento da acurácia donosso método para todas as subtarefas. O ganho mais expressivo quando comparado

Page 96: Um Método para Desambiguação de Sentido e Substituição ...

70 Experimentos e Resultados

à parametrização geral que obtém menor acurácia (κ = 2) é de 5% e 4.9% na subtarefabest para as métricas R e Rm, respectivamente.

Já para a subtarefa oot os consideráveis ganhos observados para a subtarefa besttem-se o ganho ínfimo de aproximadamente 0.56% e 0.69% para as métricas R e Rm.De maneira geral, esta perspectiva dentro do MSL-DE é mais eficaz para auxiliar oencontro do substituto principal, mas não os demais “bons substitutos”, fato corrobo-rado pela variação do pior para o melhor caso na subtarefa oot. A função de pontuaçãoutilizada, de fato, busca equilibrar dois fatores: (i) a frequência e (ii) o tamanho docontexto com ocorrência observada. A frequência, frequentemente, tem um viés paraa palavra mais usual.

Os corpora são fortemente enviesados para certas palavras, além de que estas têmmaior frequência de associação a certas definições. Tal característica destaca a demandapor volumes de dados com uma amostragem mínima de contextos por pares 〈 palavra,definição 〉 pouco frequentes. Os corpora utilizados pelo nosso método consistemem uma mescla coletada manualmente de três corpus genéricos: SignalMedia [16],COCA [19] e Leipzig [16]5.

Uma explicação plausível para o ganho notável da acurácia somente com grandesvariações de κ para todas as subtarefas em função de κ, principalmente a oot, é funda-mentada sobre a esparsidade da nossa fonte de n-grams utilizada. Ou seja, nem todosos candidatos mensurados apresentam contadores não-nulos para auxílio no processode ponderação. A maioria dos trabalhos relacionados que consideram contadores defrequência, como a IRST2 [32], para auxiliar o processo de ordenação se apoia sobrecorpora mais impactantes no tamanho do vocabulário e da amostra, fato que melhora aqualidade dos contadores de frequência.

5.3 Variação de critérios de seleção e ordenação de

sinônimos

Este cenário de experimentação avaliado neste trabalho corresponde à observaçãoisolada dos critérios de seleção de sinônimos a partir das bases léxicas utilizadas. Outroaspecto avaliado mensura os critérios de ordenação disponíveis no nosso método.

5Os corpora foram separados em frases concluídas em “?”, “.” “!”.

Page 97: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 71

Faz-se necessária a descrição sucinta dos critérios, apesar de suas especificaçõesmais detalhadas dentro do capítulo que descreve o método, já que dentro de todo oprocesso tais critérios (seleção/ordenação) podem não ser vistos como etapas bemseparáveis entre si. Como referência de bases léxicas, adotamos a Wordnet comoprincipal referência, sendo usada na seleção de candidatos de forma irrestrita. Ouseja, sem que todas as generalizações ou especializações do termo substituível sejamfiltradas. A outra base, que é o dicionário complementar (de Oxford), é utilizada paraextrair os sinônimos candidatos das N definições nela existentes. A junção das basessó seleciona candidatos das definições não-adjacentes de t na Wordnet contanto queexistam no dicionário auxiliar simultaneamente.

Para a fase de ordenação consideramos frequência de n-grams, onde se consideraos candidatos retornados mais frequentes em n-grams de tamanhos variados, onden-grams maiores contabilizam maior influência na pontuação final. Outro critério utili-zado corresponde à desambiguação baseada na correlação entre o termo substituível eas palavras existentes no contexto, que são transcritas para operações algébricas entrevetores.

Geramos nove variações distintas da nossa abordagem. Quanto à nomenclatura,nos referimos de forma sucinta a “embeddings” como um critério de ordenação quecompreende somente o ranking resultante do Ponderador de Contexto Abrangente(Seção 4.2.2), assim como “n-grams” referencia o ranking provindo somente pelosubcomponente Ponderador de Contexto Restrito (Seção 4.2.1). Na nomeação dasbases, “Dicionário de Oxford” se refere somente ao terceiro passo da política deseleção expressa no “Verificador de Concordância” (Seção 4.1.3). Já para “Wordnet”,nos referimos apenas ao primeiro passo e ao segundo (com o adendo que este nãorequer a ocorrência do candidato na fonte auxiliar para ser selecionado).

As combinações são elencadas a seguir, além de estarem na Tabela 5.2 apresentandoas métricas (R) revocação e revocação da moda (Rm) 6. O peso da janela de contextodo n-gram para este cenário de experimentação é 35.

1. Dicionário de Oxford (seleção) + n-grams (ordenação);

2. Dicionário de Oxford (seleção) + embeddings (ordenação);

3. Dicionário de Oxford (seleção) + n-grams/embeddings (ordenação);

6Revocação e precisão apresentam coeficientes iguais para este cenário. Portanto a precisão foiomitida.

Page 98: Um Método para Desambiguação de Sentido e Substituição ...

72 Experimentos e Resultados

4. Wordnet (seleção) + n-grams (ordenação);

5. Wordnet (seleção) + embeddings (ordenação);

6. Wordnet (seleção) + n-grams/embeddings (ordenação);

7. Dicionário de Oxford/Wordnet (seleção) + n-grams (ordenação);

8. Dicionário de Oxford/Wordnet (seleção) + embeddings (ordenação);

9. Dicionário de Oxford/Wordnet (seleção) + n-grams/embeddings (ordenação);

Tabela 5.2: Diferentes instâncias utilizadas realizando a combinação de recursos deseleção e ordenação.

Abordagens (instâncias) best oot

R Rm R Rm

(1) Oxford + n-grams 9,26 15,77 16,09 25,45

(2) Oxford + Embeddings 9,83 16,42 16,11 25,45

(3) Oxford + n-grams/Embeddings 10,20 17,24 16,09 25,45

(4) Wordnet + n-grams 8,58 13,50 32,21 45,93

(5) Wordnet + Embeddings 9,62 15,37 32,89 47,07

(6) Wordnet + n-grams/Embeddings 9,77 15,45 32,87 47,15

(7) Wordnet/Oxford + n-grams 10,53 16,99 39,29 56,50

(8) Wordnet/Oxford + Embeddings 12,08 20,57 40,14 58,46

(9) Wordnet/Oxford + n-grams/Embeddings 13,43 22,52 40,66 59,11

5.3.1 Avaliação da Seleção de Candidatos

Esta subseção avalia a qualidade da seleção de termos que são potencialmente sinôni-mos (candidatos), que é realizada pelo Seletor de Candidatos (Seção 4.1). A Tabela 5.2apresenta os resultados obtidos.

A observação mais relevante é que o nosso método apresentou melhor resultadoquando realizou o uso efetivo de ambas bases léxicas, conforme ilustra a instância 9.

Page 99: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 73

Além disso, a mesma instância evidencia a completividade das fontes de sinônimosutilizadas, já que supera todas as instâncias que fazem uso de somente uma base léxicae de dois critérios de ordenação para todas as métricas em todas as subtarefas, como éo caso das instâncias 3 e 6.

Quanto à abrangência de candidatos sugeridos como sinônimos, o que torna clara oquão satisfatório é o inventário de candidatos para a posterior alimentação dos critériosde ordenação, precisamos primeiramente destacar que a subtarefa e métrica quemelhor quantificam tal característica são a oot e R, respectivamente. Como esperado,nosso trabalho também apresentou melhores resultados para todas as instâncias queconsultam as duas bases léxicas (Wordnet e dicionário de Oxford), quando comparadasàquelas equivalentes nos critérios de ordenação (combinados ou não) apoiadas sobreuma única fonte como inventário de candidatos. A vantagem mais expressiva éobservada entre a instância 9 (que usa Wordnet e dicionário de Oxford) contra aconfiguração 3 (utiliza somente o dicionário de Oxford) no cenário oot/R com 40.66 e16.09, respectivamente.

Do mesmo que jeito que a concordância entre os anotadores do gold estabelecea ordem entre os sinônimos, a mesma ideia de utilizar consensos entre avaliadoresé uma dos porquês de combinar fontes. Outra questão é quanto à restritividade desinônimos para certas palavras. A Wordnet busca oferecer sinônimos vinculados acada definição assumível por t, não conseguindo em muitos casos, conforme destacadona Seção 4.1. Uma alternativa é buscar os termos ligados aos conceitos que generali-zam ou especializam os termos ligados às definições de primeira ordem, aumentandoexpressivamente o conjunto de candidatos que alimentará o componente Avaliadorde Contexto (Seção 4.2). Porém bom substitutos podem se afastar em muitos saltostaxonômicos de t, colocando termos pouco usuais no vocabulário das pessoas adjacen-temente, aumentando o conjunto de candidatos com integrantes pouco promissores. Asegunda fonte (dicionário), que não possui representação em taxonomia, aglutina emum mesmo nível hierárquico os termos mais usuais como substitutos no vocabuláriode seus mantenedores. Assim, viabilizam uma poda na taxonomia da Wordnet aoremovermos as palavras indesejadas por serem pouco usuais no vocabulário dos lin-guistas que estruturaram ambas fontes, já que também não existem nos agrupamentos“por significado” do dicionário.

É presumível que a Wordnet e o dicionário de Oxford, quando experimentadosde forma separada com um mesmo critério de ordenação, sem inclinem a apresentarresultados aproximados na subtarefa best (assumindo que melhores substitutos estão

Page 100: Um Método para Desambiguação de Sentido e Substituição ...

74 Experimentos e Resultados

frequentemente presentes em ambas fontes). Essa suposição é confirmada quandoobservamos uma sutil vantagem do dicionário de Oxford comparado à base Wordnetna subtarefa best (métrica Rm). Podemos destacar os pares7 de instâncias (1, 4), (2, 5)e (3, 6), onde o par (1, 4) traz o cenário mais díspar das bases: ≈11%. Ainda para osmesmos três pares, mas observando exclusivamente a métrica R, o cenário mais dísparentre o dicionário de Oxford de Wordnet é de ≈7%.

Combinação de bases em outros métodos

Observando na literatura, a obtenção de sinônimos pela utilização irrestrita, ou seja,a mera união de conjuntos, do inventário de sinônimos de diferentes bases léxicasvisando um consequente aumento do nível de abrangência, contraintuitivamente, nãoé determinante no ganho de resultados. Os trabalhos [71, 72], assim como o nosso,também exploram tal aspecto na fase de seleção.

Os métodos combinados de [71] trazem dados relevantes, replicados na Tabela 5.3:para o método supervisionado que pondera diversos critérios no ranking, a configu-ração que usa a interseção de candidatos oriundos da Wordnet e Microsoft Encartaaprimora resultados para a subtarefa best, em ambas métricas, quando comparadaao uso restrito somente da Wordnet ou somente do Encarta. No entanto, quandoutiliza exclusivamente a Wordnet (W), ou apenas o Encarta (E), ao invés de candidatosnaturais de ambas fontes, obtém resultados melhores na subtarefa oot, para ambasmétricas. Este último fenômeno também é observado em [72], visível na Tabela 5.4.

Em [72], o resultado obtido sobre a base de teste atesta também que a ideia deutilizar a concordância entre anotadores de diferentes bases pode aprimorar a tarefabest/R para certos cenários em relação ao uso somente do Encarta ou Wordnet comofonte. A união de conjuntos, por outro lado, aprimora a subtarefa oot, enquantodegrada a best, quando observamos o par Encarta-Wordnet como fontes de dadoscomparado ao uso da Wordnet.

O melhor resultado de [72] para subtarefa oot é obtido quando requer a ocorrênciado candidato em ao menos três bases (sem especificação prévia)8. A exigência daocorrência do candidato em três fontes (“any3”) meio às cinco utilizadas sugere uma

7O primeiro membro do par referencia a instância que utiliza somente o dicionário de Oxfordenquanto o segundo referencia somente a Wordnet.

8Incluindo também o Roget Thesaurus 9 e Transgraph [27] e similaridade distribucional [45] comoalternativas de fontes.

Page 101: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 75

Tabela 5.3: Retirado de [71] para a combinaçãode recursos.

Recursos best ootR Rm R Rm

Encarta 8,30 12,40 32,90 41,80Wordnet 9,10 13,60 21,80 27,20W ∩ E 10,10 14,10 20,30 25,50W ∪ E 8,6 14,10 36,20 45,08any2 7,10 11,40 33,20 42,30any3 9,30 14,10 30,90 44,00

Tabela 5.4: Retirado de [72] para a abordagemde Grafo de Centralidade.

Recursos best ootR Rm R Rm

Encarta 5,40 8,30 38,20 44,90Wordnet 8,10 12,10 30,10 40,10W ∩ E 11,20 9,80 27,50 38,00W ∪ E 5,40 7,60 36,30 45,50any2 5,90 9,70 35,10 47,40any3 7,70 15,40 50,70 66,30

maior variação no conjunto de candidatos do que a observação em todas as basesléxicas consultadas, além de ser menos restritiva que a interseção entre três basesexplicitamente selecionadas. A quantidade restrita de anotadores (cinco) ajuda aexplicar, em partes, o resultado, já que os substitutos inclusos no gold tendem a serempoucos, assim como a lista de candidatos cujo pré-requisito é a presença em três fontes.Estabelecer que a ocorrência de um candidato deva se dar em um mínimo de fontesurge como primeira métrica de modo a aprimorar a etapa de seleção favorecendo oscandidatos mais usuais no vocabulário dos anotadores.

No nosso trabalho, combinamos operações da interseção de inventário das duasbases utilizadas, além da união para as palavras mais relevantes das definições de tem ambas fontes ampliando a gama de candidatos já construída com o inventário daWordnet. O ponto-chave é que hipônimos e hiperônimos selecionados precisam estarpresentes em uma fonte secundária. Sinônimos vinculados às definições imediatasde t na Wordnet e dicionário de Oxford são unidos ao conjunto de saída. Dessemodo, apresenta um ganho expressivo com a junção de bases para ambas subtarefas.[71,72], quando utilizam a Wordnet, não extraem candidatos da taxonomia da Wordnet.Replicar os métodos de combinação de [72] aumentando a gama de fontes de sinônimosrepresenta potencial para melhoria dos resultados.

Cobertura de Sinônimos

Em uma análise posterior à experimentação, mensuramos a cobertura de sinônimospropostas pelos anotadores da competição de Substituição Lexical. A Wordnet 3.0

Page 102: Um Método para Desambiguação de Sentido e Substituição ...

76 Experimentos e Resultados

elenca um substituto mais indicado para apenas 54% dos synsets [77] nela existentes.A alternativa mais indicada é utilizar palavras semanticamente relacionadas explici-tamente definidas na Wordnet, entretanto, aumenta as chances de falsos positivos,conforme mencionado no Capítulo 4, que descreve a abordagem. O autor [48] apre-senta uma sucinta, porém relevante comparação que sustenta nosso ponto de vista:a Wordnet abrange apenas 36% dos sinônimos apresentados para as 300 instâncias(considerando os dados de desenvolvimento da tarefa de Substituição Lexical). Isto sedá através dos conjuntos de candidatos extraídos por sinônimos diretos e hiperônimosem até dois saltos de distância (Wordnet 2.0). Como o próprio autor avalia, e endos-samos tal conclusão, tal abrangência tem uma cobertura baixíssima. Essa preliminarcomparação destaca o nível de complexidade do problema quando consideramossinônimos “independentes” e “dependentes” do contexto: palavras agrupadas em ummesmo conceito nem sempre representam bons substitutos quando aplicados em ummesmo cenário. Ainda sobre o uso de fonte complementar, com verificação efetuadapor nós mesmos, o dicionário de Oxford atinge 42% de abrangência para a mesmabase de desenvolvimento.

5.3.2 Ordenação de Candidatos

Esta subseção avalia a qualidade do resultado final a partir dos candidatos previamenteselecionados em cenário isonômico. A ordenação é realizada através o Avaliador deContexto(Seção 4.2), a Tabela 5.2 apresenta os resultados obtidos.

Mensurando os impactos das políticas de ordenação já aplicadas às diferentes com-binações de candidatos, é clara a vantagem do critério que visa maximizar os atributosdo par de maior pontuação pmi, que é aplicado à operação algébrica implementadaem embeddings, em preferência ao uso restrito de n-grams. As instâncias 7 e 8 ilustramtal fato para a subtarefa best, onde se observa uma acurácia para Rm da instância 8 deaté 21% superior quando comparada à 7.

De maneira geral, os critérios de ordenação apresentam significativa diferençaentre si, tendo tal discrepância mais perceptível na subtarefa best. Para a subtarefa oot,independente da métrica, observa-se diferenças pouco expressivas entre os critériosde ordenações distintos quando fixamos um mesmo conjunto de sinônimos a seremordenados. Os pares de instâncias que melhor ilustram essas diferenças pouco acen-tuadas são: (1, 2) para a diferença menos expressiva, praticamente nula, a revocação

Page 103: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 77

(piorando quando se substitui a ordenação por n-grams pelo nosso desambiguador emembeddings). A maior diferença observada para a oot observando o método ordenaçãoé dada pelo par (7, 8), que é de apenas 3%.

Os critérios de ordenação têm sua contribuição mais perceptível na escolha dosubstituto mais indicado. Para o começo da constituição do ranking. Sob outro aspecto,a diferença para as mesmas instâncias para métricas oot cai substancialmente, confir-mando essa tese, além de reforçar que mensurar a frequência dentro de um contextoainda é ponto pertinente de partida para a elaboração de rankings de sinônimos e suadesambiguação inerente.

Mais detalhadamente na ordenação, a desambiguação de embeddings + pmi foraefetiva para encontrar o substituto adequado. Sua contribuição é ainda mais signifi-cativa quando utiliza mais de uma fonte para seleção de sinônimos candidatos paratodos os casos. O mesmo ganho de não ocorre no uso restrito de n-grams para nossaabordagem, mas, quando utilizando de forma conjunta ao outro critério de ordenação,apresentou a melhora de até 7% para a subtarefa best. Ambos critérios de ordenaçãoobjetivam capturar propriedades diferentes da representação da sentença, tendo talobjetivo refletido no resultado.

5.4 Comparação com abordagens da literatura

Tanto as abordagens originais do SemEval-2007 - Tarefa de Substituição Lexical, quantoas subsequentes que foram validadas sob mesmos cenários, e que - de maneira geral- apresentaram maiores variações nos recursos utilizados, tiveram seus resultadosexpressos na Tabela 5.5. Nosso método é rotulado como “MSL-DE” nas tabelassubsequentes.

Naturalmente, posteriormente à competição, a área de PLN adquiriu uma série deavanços, o que implica a adição de novos recursos agregados a uma agama de trabalhosinclusos neste nicho de pesquisa. Com certeza, o maior deles é a possibilidade do usodo recurso conhecido como Word Embeddings, que corresponde à representação vetorialde palavras capaz de capturar relações semânticas, sintáticas e morfológicas no espaçomultidimensional. Portanto, tem forte utilidade para a detecção da relação contextualentre palavras onde um termo é representado por um vetor capaz de armazenar os

Page 104: Um Método para Desambiguação de Sentido e Substituição ...

78 Experimentos e Resultados

termos mais próximos sob a perspectiva de similaridade entre os contextos onde sãogeralmente aplicados.

Por abarcarem novos recursos do PLN, ou auxiliarem a destacar o viés de signi-ficado mais comum na desambiguação, acrescemos baselines para complementar acomparação às abordagens destinadas à substituição lexical, como medidas de seme-lhança de documentos baseadas embeddings (WMD), além de dois baselines “enviesados”ao substituto mais comum variável em fonte de candidatos (SMCWordnet e SMCOxford).Deste modo, adicionamos os baselines:

1. Word Mover Distance [41] Adaptado - esta medida de distância entre dois docu-mentos viabiliza a obtenção de valores mais acurados até para uma interseçãovazia de palavras (problema da ortogonalidade entre vetores). Os pares sãocompostos pela sentença original comparada a cada uma das sentenças após asubstituição por um candidato. Candidatos aplicados às sentenças de menordistância para a sentença original, ficam mais bem avaliados na saída do baselineque utiliza dos potenciais substitutos retornados pelo Seletor de Candidatos (4.1)(para o cenário no qual utilizamos das duas bases léxicas descritas nesse trabalho),destacando a acurácia do critério de ordenação entre candidatos;

2. (SMCOxford10) Retorna a primeira palavra relacionada à lista de sinônimos da

definição mais comum do termo substituível da fonte dicionário de Oxford(“Substituto mais comum” - SMC). O baseline complementa a lista até as dezpredições com os sinônimos que primeiro aparecem nas definições mais usuaisda base. Se a definição mais comum não contém dez sinônimos vinculados,complementa-se a lista com os sinônimos da segunda mais comum;

3. (SMCWordnet [57]) Retorna a primeira palavra relacionada à lista de sinônimosda definição mais comum do termo substituível da Wordnet (“Substituto maiscomum” - SMC). O baseline complementa a lista até as dez predições com ossinônimos que primeiro aparecem nas definições mais usuais da base. Se adefinição mais comum não contém dez sinônimos vinculados, complementa-se alista com os sinônimos da segunda mais comum;

As abordagens utilizadas para comparação, que estão mais bem descritas no capí-tulo de trabalhos relacionados (Seção 3), são as seguintes:

• UNT - University of North Texas Subfinder [34]

10https://www.lexico.com/en

Page 105: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 79

• USYD - University of Sidney [36]

• SWAG1 - Swarthmore College [18]

• SWAG2 - Swarthmore College [18]

• IRST1 - Fondazione Bruno Kessler Irst [32]

• IRST2 - Fondazione Bruno Kessler Irst [32]

• HIT - Harbin Institute of Technology [78]

• MELB - University of Melbourne [48]

• TOR - University of Toronto [59]

• KU - Koç University [77]

• Métodos Combinados (LSA + ESA + n-grams) [71]

• Grafo de Centralidade [72]

• “Modelo Simples” (Simple Model) [52]

• Metaheurísticas [1] + Lesk Adaptado [4]

• Vetores substitutos [51]

5.4.1 Avaliação na subtarefa Best

Na subtarefa best, para a métrica R, nossa abordagem apresentou bons resultados,superando onze entre as doze abordagens elencadas, entre as quais destaca-se aabordagem KU [77], que representa o teto do cenário. Este método, diferente do nosso,faz uso de um pequeno corpus com dados anotados para estabelecer probabilidadesde palavras estarem vinculadas a certas definições durante a tarefa de desambiguação,além de se apoiar por completo no método estatístico sobre n-grams para mensurar aadequabilidade de um potencial sinônimo ao contexto, o que destaca a competitividadede métodos probabilísticos para a tarefa. A abordagem UNT faz uso de vários métodospara o ranking, tais como os contadores de frequência (através de motores de busca),ferramenta de tradução de máquina (verificando se a tradução para outro idiomaconverge com o documento original), probabilidades através de modelos de linguageme relação semântica 〈candidato-contexto〉 através de LSA.

Page 106: Um Método para Desambiguação de Sentido e Substituição ...

80 Experimentos e Resultados

Tabela 5.5: Métricas para subtarefas oot e best.

Abordagens best oot

R Rm R Rm

MSL-DE 13,43 22,52 40,66 59,11

Metaheurísticas + Lesk Adaptado 11,37 19,35 34,68 47,80

Vetores Substitutos (embeddings) 12,72 21,71 36,37 52,03

Modelo Simples (embeddings) 8,14 13,41 27,41 39,19

Grafo de Centralidade + LSA 11,20 15,40 50,70 66,30

Métodos combinados 13,60 21,30 49,40 64,70

KU (SE-07) 12,90 20,65 46,15 61,30

UNT (SE-07) 12,77 20,73 49,19 66,26

MELB (SE-07) 12,68 20,41 - -

IRST1 (SE-07) 8,06 13,09 41,20 55,28

IRST2 (SE-07) 6,95 20,33 68,90 58,54

USYD (SE-07) 10,88 17,64 34,96 42,28

HIT (SE-07) 11,35 18,86 33,88 46,91

WMD - Adaptado (baseline) 12,05 20,08 38,29 54,15

SMCWordnet (baseline) 9,49 14,88 26,45 36,91

SMCOxford (baseline) 7,20 11,54 9,37 14,96

Ainda para o cenário R, nosso resultado ficou aquém apenas daquele provindométodo combinado para desambiguação e ordenação de [71] (≈1.2% inferior) conside-rando a configuração que obtivera resultados mais expressivos. O resultado reportadode [71] foi obtido através de uma técnica supervisionada, utilizando um classificadorbaseado em árvore de decisão combinando atributos sobre métodos de adequabilidadecontextual tais como LSA, ESA e frequência de candidatos em n-grams e frequênciamínima em uma gama de dicionários/thesauri. O método selecionado atribui maiorespesos aos atributos que representam a quantidade de fontes que contém um mesmocandidato na fase de coleta.

As abordagens de [71] - que combina muitos métodos - e a UNT, além de representaros métodos que mais combina propriedades durante o processo de ranking, são asduas mais bem avaliadas no valor médio dos quatro cenários apresentados na Tabela5.5. Além de, junto de [72], representarem aquelas que fazem a junção de dicionários e

Page 107: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 81

vetores de palavras. No entanto, o método de [72], que apesar de utilizar dicionáriospara a coleta de candidatos, não apresenta resultados tão competitivos para a subtarefabest (11.20 e 15.40 para as métricas R e Rm, respectivamente).

Para a métrica Rm apresentamos resultados muito significativos, superando a ven-cedora da competição (UNT) para a métrica em cerca de 8.6%. Além disso, superoua abordagem de Vetores Substitutos [51] com considerável vantagem (sendo cercade 3.7% mais acurada). Superamos também [71] em 5%, que é, até então, a segundaabordagem mais acurada pós-competição. Os resultados para a subtarefa best, inde-pendente das métricas, são os nossos mais competitivos quando comparados aos dasdemais abordagens avaliadas.

Da gama dos trabalhos baseados em embeddings, o trabalho de [51] apresenta vetoresde substituição, representando o contexto vetorialmente através de uma segundaordem de coocorrência entre palavras. Mais especificamente, usa a medida PMI decandidatos dentro de n-grams como atributo para o treinamento do modelo com vetoresde substituição. Portanto, atributos colocacionais estão inclusos dentro do própriomodelo. Já [52], também embedding, utiliza um modelo que gera representações parao contexto e também de t. A representação utilizada em questão utiliza do modelode linguagem de skip-grams, que também consideram aspectos colocacionais entreos termos durante o processo de aprendizagem, mas captam com menor acurácia aadjacência entre termos por tais motivos. Assim, os melhores substitutos são aquelesno modelo que conciliam as menores distâncias para o termo substituível para seucontexto e seu possível substituto. Quando observamos em valores relativos aosrespectivos tetos das subtarefas best e oot, notamos que abordagens baseadas emembeddings são mais competitivas na primeira.

Sob o aspecto de representação do contexto, utilizamos de n-grams de tamanhosvariáveis com contadores de frequência associados a pesos em função do comprimentoda sentença, o que capta com maior precisão as propriedades colocacionais dentrodo contexto antes da utilização do modelo vetoriais. Em abstrato, nossa abordagemutiliza duas representações enviesadas ao contexto: uma baseada em frequência eoutra que é uma função de minimização de distância vetorial. Naturalmente, a coletade candidatos de dicionários aprimorou os nossos resultados em relação às abordagensque s somente de embeddings para identificar sinônimos. A representação de contextosdentro de um espaço vetorial requer a média da representação das palavras inclusos nocontexto, atribuindo aos seus elementos mais relevantes pesos, se pertinente. Diferen-temente, utilizamos do produto de vetores, considerando só a palavra mais relevante

Page 108: Um Método para Desambiguação de Sentido e Substituição ...

82 Experimentos e Resultados

do contexto, mas não da totalidade do contexto para representá-lo vetorialmente. Ocandidato é encontrado através de uma função que busca o minimizar a distância de tpara o candidato e para o termo de maior correlação dado ao coeficiente pmi de formasimultânea. Por fim, em um nicho muito específico, até onde bem conhecemos, otrabalho de [1] representa o único que utiliza exclusivamente da descrição textual dosconceitos associados às palavras do contexto para a resolução do problema. [1] obteve11.37 e 19.35 para as métricas R e Rm, respectivamente. Tais resultados são competi-tivos para a subtarefa, mas se apresentam consideravelmente inferiores também aosnossos em 15% e 14%, respectivamente. Técnicas que utilizam somente as definiçõessão mais problemáticos devido à desconsideração de fatores como coocorrência entretermos do contexto. Este é um tipo de problema de esparsidade, ou seja, a combinaçãode definições das palavras do contexto representam um vocabulário restrito que, emmuitas vezes, resultam na inexistência de sobreposição entre as descrições textuais daspalavras do contexto.

Em comparação outras abordagens, o MSL-DE superou o “WMD - Adaptado” paraas duas métricas existentes com notável vantagem, obtendo 12% na métrica Rm. Paraos baselines de substituto mais usual para Wordnet (SMCWordnet) e Oxford (SMCOxford),nosso método superou ambos com larga vantagem em ambas métricas, para Rm, obti-vemos quase o dobro da acurácia que o baseline SMCOxford. A disparidade observadaatesta a pouca significância da heurística do substituto mais comum aplicado à inerentedesambiguação. Isto se deve ao fato que a seleção de amostras da base busca removertal viés ao significado mais comum [49]. Complementar aos resultados de [1], além doproblema da oferta restrita de sinônimos por definição apontada em [77], o resultadoem discussão é mais uma evidência da deficiência de bases anotadas utilizadas comoúnica fonte de dados para a resolução da tarefa de desambiguação.

5.4.2 Avaliação na subtarefa Out-of-Ten (oot)

Nossa abordagem apresentou resultados menos expressivos que aqueles obtidos paraa subtarefa best (Seção 5.4.1) quando comparados em valores relativos aos resultadosdas demais abordagens. Para a métrica R, o MSL-DE obteve 40.66 de coeficiente. Aindaassim, superou cinco das doze abordagens elencadas. Uma possível explicação paraa disparidade mencionada é a expansão do inventário de candidatos consideradosdurante a fase de seleção, localizados em todas as definições do dicionário auxiliar

Page 109: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 83

independente da ocorrência em outras fontes. Tal escolha aumenta substancialmente oconjunto com dados ruidosos, que têm baixa sobreposição com t para aquele contexto.

Focando o teto do cenário R, nosso processo ficou cerca de 40.9% menos acu-rado que a abordagem IRST2. Esta abordagem mensura a coerência do candidatono sintagma através de frequência de n-grams de comprimento variável. No entanto,utiliza corpora com tamanhos muito superiores (British Nacional Corpus 11 e Web 1T5-gram [10]) aos nossos utilizados. IRST2 também consulta a Wordnet e do OxfordAmerican Thesaurus como fontes, mas sem que utilize de dados ontológicos explicita-mente selecionados durante a seleção de candidatos.

A métrica R é mais sensível à escolha ruim de substituições diferentes do substitutomais adequado. Deste modo, para o nosso trabalho, conclui-se que é necessárioo aprimoramento no que tange às diferenciações de sinônimos com significadosaproximados à palavra substituível (“melhores sinônimos”) deveriam ser mais fáceisde se identificar meio ao conjunto, que é majoritariamente composto de candidatos“pouco promissores”. Portanto, identificar propriedades secundárias, além daquelasextraíveis da operação algébrica com termo mais correlato a t, do mesmo contextodesambiguável representa pertinente investigação futura. As melhores abordagensoot se apoiam amplamente sobre dicionários para o começo da geração do ranking,reforçando a vantagem notória de bases de conhecimento em relação aos modelosvetoriais que aprendem a representação das palavras, como os trabalhos de [51, 52].Mais precisamente, [52] representa a abordagem de pior resultado para a métrica R.

Para a métrica Rm, nosso processo superou sete abordagens. Obtivemos 59.11 decoeficiente, resultado cerca de 10.84% inferior ao teto [72]. Para nosso trabalho, aqueda dos resultados para tarefa oot quando comparada à best evidencia a necessidadedo aprimoramento para a desambiguação, principalmente captando as nuances quediscriminam os bons sinônimos com maior semelhança. Os métodos UNT e os métodoscombinados de [71] representam o segundo e terceiro melhor resultado para Rm.Na outra extremidade dos resultados, que concerne aos piores, [52] representa ométodo com resultado mais baixo (39.19), mais um indício da baixa competitividadede modelos de embeddings para conseguir uma cobertura razoável de sinônimos.

Único trabalho apoiado totalmente em bases de conhecimento, [1] apresenta resul-tados muito inferiores ao nosso trabalho, obtendo 34.68 e 47.8, para as métricas R e Rm,respectivamente. Os resultados atestam uma razoável cobertura de sinônimos, que são

11http://www.natcorp.ox.ac.uk/

Page 110: Um Método para Desambiguação de Sentido e Substituição ...

84 Experimentos e Resultados

explicáveis pelas limitações na captação de informações contextuais para comparaçãocom as respectivas definições de t. O método é inerentemente desfavorável à premissacentral 12 da hipótese distribucional [68]: “você deve conhecer uma palavra pela companhiaque ela mantém” 28 - já que não utiliza nenhuma fonte de treinamento que representecontextos de aplicação de cada candidato - tais como as escassas frases existentesassociadas aos synsets da Wordnet. Alternativamente, de modo a se contornar o caráterbinário para comparação entre palavras (casamento), é factível a utilização da criaçãode uma representação vetorial para cada da definição da palavra, por exemplo. Reque-rendo assim a coleta de palavras relevantes ligadas de alguma forma à definição emquestão, além suas respectivas ordens de importância na representação, como o casodo trabalho [7]. O resultado de [1], apesar de razoáveis resultados, atesta que o usorestrito somente de dicionários para a substituição lexical não representa a alternativamais adequada para maior competitividade quando comparada às abordagens maisacuradas da literatura.

Assim, observa-se que métodos probabilísticos calculados para grandes volumes apartir de grupos de sinônimos candidatos retirados de dicionários têm, geralmente,apresentado resultados competitivos para a resolução do problema. Por outro lado,modelos vetoriais de embeddings são úteis para selecionar os substitutos mais próximosao topo para uma dada palavra em um contexto.

Resultados dos baselines

Em comparação com outras abordagens nosso resultado se mostrou muito superiorao SMCOxford, quase quatro vezes mais acurado para Rm. De mesmo modo, fomossuperiores também que o SMCWordnet. Quando comparados à abordagem “WMD -Adptado”, o MSL-DE obteve resultados com considerável vantagem para a métricaRm: 59.11 versus 54.15. Curiosamente, o baseline em questão utiliza do nosso métodocompleto de seleção de candidatos, fato que destaca que a nossa ordenação a maioracurácia do componente destino à ordenação. Esse resultado sugere como um trabalhofuturo uma maior exploração quanto ao comportamento da função para mensurara distância vetorial entre documentos com duas palavras cambiadas representandosupostos sinônimos.

12Traduzido de “(...) you shall know a word by the company it keeps (...)”.

Page 111: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 85

5.5 Resultados discriminados por função sintática

A avaliação da competição original da Semeval-2007 de Substituição Lexical inclui oagrupamento das instâncias em conjuntos determinados pela função sintática associ-ada ao termo substituível. Os coeficientes apresentados no resultado agregado (Seção5.4) representam uma média de todas as instâncias da base separadas por funçãosintática.

As abordagens inclusas nesta subseção de avaliação são as originais da competiçãoSemEval2007. Incluímos também o trabalho apresentado por [52], já que foi o únicopós-competição a disponibilizar os dados filtrados ou prover material suplementarpara a fiel separação do conjunto que proveu o resultado agregado da Seção 5.4). Porquestão de objetividade, as seções que descrevem os resultados por função sintáticanão são destacadas por subtarefa.

5.5.1 Resultados para Substantivos

Tabela 5.6: Resultados para as instâncias que contêm um substantivo substituível.

Abordagens best oot

R Rm R Rm

MSL-DE 13,05 21,35 38,39 54,78

HIT 11,91 19,66 32,13 44,66

SWAG1 - - 27,95 37,64

SWAG2 - - 22,63 30,06

USYD 11,01 17,98 33,14 40,17

TOR 2,79 3,93 9,94 12,64

IRST1 8,29 13,20 38,48 52,81

IRST2 5,77 19,10 57,66 56,46

KU 12,14 18,82 40,84 55,34

MELB 9,41 13,76 - -

UNT 12,26 19,94 48,07 64,04

Modelo Simples (embeddings) 9,60 15,75 27,52 37,64

Page 112: Um Método para Desambiguação de Sentido e Substituição ...

86 Experimentos e Resultados

Substantivos são palavras que nomeiam seres (conceitos), ou seja, tudo aquilo “queexiste”, e é passível de uma nominação dentro da gramática (independente do nívelde concretude). De forma geral, os resultados para os substantivos apresentarambons resultados. Principalmente para a predição do substituto principal (subtarefabest). Curiosamente, os resultados dos substantivos se mostraram parecidos à médiaexpressa na Tabela 5.5, que exibe o resultado agregado.

Para a subtarefa best superamos as demais abordagens para ambas métricas exis-tentes. Para a revocação da moda, por exemplo, fomos até 5.6% superior à abordagemUNT, que combina vários métodos (ver Seção 3). Para a revocação, superamos amesma UNT em aproximadamente 6%. O modelo de [52], única abordagem de em-beddings, se mostrou mais competitiva na revocação, conseguindo 9.6, cerca de 36%inferior ao nosso resultado.

Para a substarefa oot, diferente da best, o MSL-DE não dominou a tarefa, apesarde se mostrar competitivo ou superior quando comparado à maioria das abordagens.Ficamos apenas 3% inferior à IRST2, que é a segunda mais bem avaliada para arevocação da moda. Entretanto, para a revocação, nosso método se mostrou menosacurado, sendo 33% inferior à IRST2 (teto para a revocação), que é um resultadoparecido com aquele também obtido no resultado agregado 5.5. Já para a subtarefa oot,os métodos que utilizam apenas de frequência/probabilidade sobre n-grams obtiveramótimos resultados, como a KU e a IRST2, apesar da última não ser tão competitiva napredição do melhor substituto.

Os substantivos têm, em média, cerca de 7.96 definições por palavra13, o queaumenta a complexidade da tarefa em relação a outras funções sintáticas. Ainda assim,em linhas gerais, é possível alegar que obtivemos bons resultados.

Em uma análise na nossa base que inclui os registros da medida PMI (construídasob demanda para fazer a validação), para todas as instâncias (sentenças de entrada) desubstituição, observa-se que em 68% a correlação mais forte se dá entre pares de termossubstantivo-substantivo. Tal característica, respaldada pelo resultado competitivo paraa subtarefa best, sugere que a forte correlação (coocorrência) entre nomes em umasentença pode auxiliar a identificação de substitutos de substantivos. Obviamente,a relação semântica existente entre os dois conceitos identificados não é levada emconsideração pela contagem de coocorrência. Portanto, ainda não é de fácil transcriçãoa relação semântica na forma de analogia para tal.

13Na Wordnet 3.0 para os substantivos contidos nas instâncias inclusas na base de teste.

Page 113: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 87

Para aspectos sintáticos, naturalmente, permanece o Ponderador de ContextoRestrito. Outro aspecto é que a função utilizada para o Ponderador de ContextoAbrangente (4.2.2), que busca retornar palavras de representação vetorial aproximadaà palavra t e que compartilhe de características implícitas comuns à palavra de maiorcorrelação, parece uma ideia razoável para substantivos.

O suposto viés para maior frequência de coocorrência entre pares de funçõessintáticas específicas surge como possibilidade de investigação e, como consequência,criação de um aprimoramento em um tratamento específico para esta função sintática,além de sugerir que o filtro de n-grams é menos significante durante o processo deranking, já que tem maior utilidade na correlação com classes de funções sintáticas demenor contribuição semântica.

Ainda avaliando os contextos, entre todas as funções sintáticas, utilizando a medidaPPMImédio, os substantivos representam aquelas que possuem mais forte correlaçãocom o contexto (PPMImédio(substantivo) = 2.84). O viés ao contexto, junto à observa-ção estatística de maior correlação com outros termos substantivos, sugerem que estafunção sintática é a mais recomendada a ser processada pelo nosso método.

5.5.2 Resultados para Advérbios

Meio a todas as funções sintáticas, os advérbios são aquelas cujas instâncias nostrouxeram os melhores resultados (Tabela 5.7) quando comparados aos dos outrostrabalhos. Para as subtarefas best e oot isso se observa, se mostrando como a classe depalavras de mais fácil substituição.

Para a subtarefa best, a abordagem MELB representa o teto de acurácia para asubtarefa best, tanto para a revocação quanto para a revocação da moda, com 23.09 e36.48, respectivamente. Ainda para esta subtarefa, nossa abordagem obteve resultadossuperiores a seis abordagens para a revocação, com 20.12 (4% inferior ao teto), e seteabordagens, 33.05 (10% inferior ao teto), para a revocação da moda.

MELB [48] aplica critérios de ordenação que consideram os synsets mais observadosno corpus SemCor, útil para remover sinônimos pouco frequentes da lista de candidatos,dando suporte à sequência final considerando a frequência de janelas de contexto comseus respectivos candidatos para determinadas consultas submetidas do motor do

Page 114: Um Método para Desambiguação de Sentido e Substituição ...

88 Experimentos e Resultados

Tabela 5.7: Resultados para as instâncias que contêm um advérbio substituível.

Abordagens best oot

R Rm R Rm

MSL-DE 20,12 33,05 53,51 75,54

HIT 20,43 31,33 50,89 69,10

SWAG1 - - 32,33 44,21

SWAG2 - - 47,46 63,09

USYD 16,46 25,75 36,71 51,93

TOR 4,59 6,44 22,28 28,76

IRST1 10,81 18,88 56,07 72,96

IRST2 12,33 28,76 120,66 75,97

KU 15,85 24,89 56,72 73,82

MELB 23,09 36,48 - -

UNT 21,63 35,62 60,54 78,97

Modelo Simples (embeddings) 8,85 14,59 31,99 47,64

Google 14. O método UNT também considera a heurística de presumir significadomais comum em um dos rankings gerados pela abordagem (“most common sense”), masapenas como uma das propriedades consideradas na ordenação final. O método UNTfoi a segunda abordagem mais bem avaliada para a subtarefa best em ambas métricas.

Para a oot, obtivemos resultados superiores a seis abordagens para a revocação, eoito para revocação da moda. A abordagem que domina a revocação é a IRST2, com120.66, 225% superior ao nosso método. A IRST2 contabiliza a ocorrência de n-gramscomo critério de ordenação, mas considerando uma única observação de um n-gramcom um candidato ci mais valiosa que uma grande frequência para um “(n-1)-gram”contendo o mesmo ci. Para a Rm, subtarefa que possui a UNT como teto, com 78.97,4% inferior ao teto.

Advérbios apresentam uma característica peculiar, diferentes de outras funçõessintáticas, tais como verbos, adjetivos ou substantivos. [64] reforça que advérbiosdão qualidades a elementos em uma sentença capazes de se manter íntegros seman-ticamente e sintaticamente sem a existência do advérbio, o que faz dele dispensável

14www.google.com

Page 115: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 89

dentro da mesma sentença. Entre as circunstâncias expressas pelos advérbios pode-mos listar: frequência, local, momento, intensidade, maneira, entre outras. Advérbiosconjuntivos, mais especificamente, podem indicar sequência de ideias, como conclu-são, causalidade, ressalva, continuidade, constraste (oposição de ideias expressas emduas sentenças) entre outras relações. Por tais características, têm sua representaçãoainda mais difícil, já que a desambiguação possui como tarefa inerente a tipificação dealguma relação semântica entre as cláusulas separadas pelo advérbio. Tais relaçõessemânticas estão mais relacionadas à associação do nível da dissimilaridade de docu-mentos para associar a alguma espécia de adverbo. Até onde bem conhecemos, nãohá trabalhos na literatura dedicados a tal tarefa, observação que sugere um promissornicho de pesquisa na área de PLN.

Em bases de conhecimento a representação de advérbios é ainda mais limitada.Um termo que expressa um advérbio não integra alguma taxonomia para uma explo-ração de suas relações semânticas. Já a definição descreve textualmente e de formadesestruturada o cenário de aplicação do advérbio. Assim, qualquer termo de suadefinição aparenta ser pouco expressivo para recuperação de documentos que tragamsentenças que representem o contexto de aplicação do advérbio em questão.

Com uma verificação posterior na base de experimentação, atestou-se que paraos advérbios o PPMImédio é de ≈1.85, cerca de 34.8% inferior quando comparada àmédia dos substantivos (≈2.84). Advérbios são palavras pouco inclinadas ao contexto,corroborando o entendimento do que são os advérbios [64]. A média PPMI evidenciao aumento da complexidade para criar a sua representação contextual em relação àsdemais classes de palavras.

Abordagens que se apoiam sobre a Wordnet para seleção de advérbios se mostra-ram bem acuradas para o experimento. O autor [49] inclui um baseline baseado naWordnet em seu trabalho, considerando o substituto mais frequente do synset maisusual. Este resultado representa forte indício que advérbios, embora pouco relacio-náveis ao contexto, têm forte inclinação a um mesmo substituto (independente dedefinição). A própria abordagem MELB e sua performance supracitada reforçam quea “frequência independente de contexto” é aspecto a ser considerado.

Considerar o resultado mais usual para a palavra se mostra eficaz, ao menos, paraos advérbios. Este resultado atesta a aptidão da frequência de n-grams para este tipode função sintática para a revocação, apesar do baixo viés ao contexto dos advérbios.Portanto, conclui-se que advérbios possuem um viés para certo significado e, conse-

Page 116: Um Método para Desambiguação de Sentido e Substituição ...

90 Experimentos e Resultados

quentemente, um conjunto de substitutos específicos. Outro fator que simplifica atarefa de substituição é o nível de polissemia baixo: existem 4.8 definições em médiapor advérbio da base de experimentação, o que sugere ser um aspecto de grande im-pacto para justificar a acurácia competitiva quando comparada às outras abordagens.

5.5.3 Resultados para Verbos

Tabela 5.8: Resultados para as instâncias que contêm um verbo substituível.

Abordagens best oot

R Rm R Rm

MSL-DE 7,90 11,78 29,87 43,63

HIT 6,47 11,15 29,25 39,81

SWAG1 - - 28,75 38,54

SWAG2 - - 31,56 41,72

USYD - - 41,10 37,26

TOR 0,99 0,96 6,12 5,10

IRST1 6,20 11,15 32,18 43,63

IRST2 4,64 14,33 46,41 45,22

KU 10,68 18,79 39,78 52,55

MELB 9,01 14,33 - -

UNT 7,90 11,46 44,24 59,24

Modelo Simples (embeddings) 7,95 13,38 28,08 38,54

Os verbos representaram a classe de função sintática de maior complexidadedurante a tarefa de desambiguação. É notória a expressiva queda de acurácia para amaior parte das abordagens participantes (quando têm seus resultados comparadosaos resultados obtidos para as demais funções sintáticas, exceto para [52]). A mesmaqueda de acurácia é observada para nossa abordagem.

Para a subtarefa best, o resultado que domina a base de experimentação é obtidopara a abordagem KU [77], que obtém 10.68 para a revocação. Nossa abordagemobtém um resultado de 7.9, que é 27% inferior. Para a revocação da moda, [77] tambémdomina o resultado para os verbos, obtendo uma pontuação de 18.79, diferente danossa, que foi 11.78 para a métrica (cerca de 38% inferior).

Page 117: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 91

O KU [77] usa somente um método probabilístico/n-grams para calcular a ade-quabilidade do candidato ao contexto. Este método continua sendo eficiente para atarefa, mas carece de um grande volume para um resultado acurado. Nosso métodoutiliza n-grams como ponto de partida, mas por utilizar corpora com volumes inferioresem quantidade de documentos, trabalha com n-grams de tamanhos variáveis (2 a 5)com a intenção de mitigar o custo da esparsidade dos dados. Quando confrotadocom a única abordagem que faz uso de vetores [52], nosso método obteve exatidãoaproximada para a revocação e ligeiramente inferior para a revocação da moda (11.78contra 13.38).

Quando observamos a subtarefa oot, notamos a considerável diferença de nossosresultados para os melhores da tarefa: IRST2 e UNT, para revocação e revocação damoda, respectivamente. Nosso método se apresentou 26% inferior, para uma métrica,e 35%, para outra. Quando comparamos nosso trabalho ao de [52], notamos vantagempara as duas métricas apresentadas. Vantagem de 29.87 versus 28.08 (revocação) e43.31 versu 38.54 (revocação da moda). A revocação, no entanto, apresenta valoresaproximados aos obtidos pelo nosso trabalho, o que evidencia uma demanda deaprimoramento para melhorar a cobertura de sinônimos para verbos.

Parte desses resultados menos satisfatórios em relação aos das demais abordagens éexplicável pelo nível de polissemia dos verbos, que é o mais elevado. Os verbos que se-rão substituídos, para a base de experimentação, têm em média aproximadamente 17.2de definições associadas. Valor muito superior à média da polissemia dos advérbios,que é 4.8. A oferta de substitutos para os verbos pertencentes à base experimentação,considerando exclusivamente a Wordnet, inclui em média 17 substitutos, que é umnúmero muito elevado.

Ao avaliar o PPMI médio, verbos apresentaram correlações mais fracas com asdemais palavras do contexto, apresentando até 19% a menos (2.30) para a medidaestatística utilizada quando comparada à classe dos substantivos, que representaa função sintática cujos contextos ao redor são capazes de prover correlações maisefetivos para a predição de substitutos.

Outro aspecto problemático é a falta de tratamento especializado à peculiaridadedos verbos rotulados de “empty verbs”, para os quais o significado em abstrato nãoé de fácil identificação. Tais verbos são altamente polissêmicos em bases como aWordnet, e com ampla distribuição [12], tendo seu significado fortemente atrelado àscolocações imediatas na sentença sugerindo o significado concreto do verbo, como

Page 118: Um Método para Desambiguação de Sentido e Substituição ...

92 Experimentos e Resultados

“this equipment takes photos”, onde “takes” assume a conotação de gerar/conceber,facilmente trocável por “shoot”).

Entretanto, “empty verbs” configuram nicho de verbos de uso frequente 15. Porexemplo, meio aos top-15 verbos mais utilizados comprováveis pelos contadores, 7pertencem à tal classe de verbos. Quando mensuramos a “cobertura” de candidatosoferecida para a Wordnet 16 para as 10 instâncias de sentenças da base SemEvalindexadas pela palavra “get” (usando exemplo mais específico de “empty-verb”),apenas 9 substitutos cobrem os 34 sugeridos pelos anotadores do SemEval (26% decobertura).

5.5.4 Resultados para Adjetivos

Para adjetivos, obtivemos os melhores resultados na subtarefa best. A revocaçãosuperou com sutil vantagem a abordagem KU - melhor resultado da competição - em≈4%.

Ainda na subtarefa best, para a revocação da moda, a vantagem para os demaisfora ainda maior: cerca de 20% superior à MELB (26.61 x 22.02). A abordagem MELBmensura a aplicação do candidato na sentença a partir de consultas variadas que foramgeradas de uma janela deslizante sobre o contexto de substituição. O algoritmo básicoinclui ordenação baseado no tamanho da consulta gerada, distância taxonômica de te quantidade de documentos retornados da consulta submetida ao Google. O autorefetua parametrizações, entre as quais, inclui a remoção de candidatos associados àsdefinições inexistentes no SemCor. Ou seja, os adjetivos nessa base inclinam-se aossignificados mais usuais. Nossos resultados comparados aos da abordagem KU, queobteve 21.41, foram superiores expressivamente em 24%.

Na subtarefa oot, o MSL-DE se mostrou competitivo na revocação da moda, superandoquase todas as demais trabalhos, ficando aquém apenas da KU (que obteve 67.28).Quando observamos a revocação, fomos significantemente menos competitivos que oteto, apesar de superar sete abordagens. Quando comparada à IRST2 (com frequênciade n-grams), teto para a revocação, nosso resultado foi inferior em 52%. Nosso semostrou inferior à KU em 13% para a revocação, sendo esta a segunda mais competitivapara tal cenário. Os adjetivos apresentam o resultado generalista do nosso método

15Utilizando os contadores de frequência do COCA Corpus [19].16Capturando hipônimos e hiperônimos imediatos.

Page 119: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 93

Tabela 5.9: Resultados para as instâncias que contêm um adjetivo substituível.

Abordagens best oot

R Rm R Rm

MSL-DE 14,52 26,61 45,14 66,97

HIT 9,54 16,51 29,22 40,37

SWAG1 - - 42,19 55,35

SWAG2 - - 42,19 55,35

USYD 9,60 15,29 29,96 42,51

TOR 4,04 7,95 10,21 15,90

IRST1 7,81 10,70 43,12 56,57

IRST2 6,89 21,41 68,90 61,16

KU 13,92 21,41 51,07 67,28

MELB 12,94 22,02 - -

UNT 12,25 19,88 47,80 66,36

Modelo Simples (embeddings) 6,13 10,09 24,61 35,47

quando a descoberta de substitutos de maior referenciação pelos anotadores (moda): apredição do substituto mais indicado na base restrita às instâncias com um substituto-moda (oot/Rm) traz melhores resultados.

Adjetivos representam as funções sintáticas que mais bem ilustram o porquê dajunção de dicionários e a representação em embeddings, já que o primeiro efetuaagrupamentos de sinônimos. Já o segundo apresenta a possibilidade de incorrer narepresentação semanticamente aproximada de palavras, apesar de captar aspectoscontextuais, que contêm uma relação de antonímia [60]. Tal afirmação se torna maisclara quando observamos o modelo [52], que representa o segundo pior métodopara todas as subtarefas e métricas. O uso dos dicionários como agrupamentos desinônimos ainda é o meio mais eficiente para mitigar o impacto do contraste noresultado eliminando palavras com aplicação em contextos parecidos mas com valoressemânticos muito diferentes.

Quanto à complexidade da desambiguação, adjetivos têm em média 9.14 definiçõespor palavra (para as instâncias de entrada). Adjetivo é, portanto, a segunda funçãosintática com maior ambiguidade (ficando atrás apenas dos verbos). O alto nível depolissemia junto aos bons resultados da subtarefa best sugerem que outros fatores

Page 120: Um Método para Desambiguação de Sentido e Substituição ...

94 Experimentos e Resultados

Ainda quanto ao “viés” ao contexto (PPMImédio), a inclinação dos adjetivos se mostrouapenas 2% inferior (2.78) à dos substantivos, que é a mais expressiva.

Avaliando a base de coeficientes PMI, para 80.5% das instâncias que contêm ad-jetivos para substituição, a maior correlação aplicada ao Ponderador de ContextoAbrangente se dá através do adjetivo junto a um substantivo (adjetivo-substantivo).Conceitualmente adjetivos são da classe gramatical que dá qualidade a substantivos.Logo, o dado estatístico, além do próprio entendimento do que é “adjetivo”, apresen-tam uma possibilidade de exploração do método para a especialização no tratamentode adjetivos, trabalhando apenas com substantivos no cálculo da medida PMI. Até en-tão, o escopo do cálculo da medida trabalha com todos os termos da sentença, contantoque sejam palavras “de conteúdo” (substantivos, adjetivos, verbos e adjetivos).

5.6 Resultados da Desambiguação

Reproduzimos também a avaliação da qualidade da desambiguação sobre as instânciasda base para as quais as abordagens incluem, no seu conjunto de candidatos, osinônimo rotulado como moda nos dados anotados (gold). A competição realizou talcomparação incluindo todas as abordagens até então apresentadas 17.

5.6.1 Precisão do Sistema

Tabela 5.10: Precisão da desambiguação dos métodos para somente as instâncias que viabili-zam a construção de um inventários de candidatos que inclui o melhor substituto(Linha “total′′ na tabela).

Sistema HIT UNT KU MELB USYD IRST2 IRST1 TOR MS MSL-DE

PSis 52,53 59,67 42,31 53,71 37,77 44,57 43,82 37,91 48,11 53,12

total 499 432 587 465 575 888 364 152 345 544

O primeiro cenário, que é ilustrado na Tabela 5.10, compreende os resultados paraa métrica de desambiguação PSis (Seção 2.6.4). Nossa abordagem representa a terceiramais bem avaliada, ficando 12% inferior à UNT. Meio a todas as abordagens avaliadasneste cenário, a UNT, naturalmente é que a mais combina métodos durante a desam-biguação, o que tende a captar melhor as relações sob todos os aspectos: sintáticos

17Devido ao tamanho, a abordagem de [52] é rotulada apenas como “MS” nas tabelas desta seção.

Page 121: Um Método para Desambiguação de Sentido e Substituição ...

Experimentos e Resultados 95

e semânticos sob menores e maiores contextos com muita ênfase em contadores defrequência. Os métodos IRST2 e KU, que aproveitam da frequência contada a partirde motores de busca, também obtiveram bons resultados. O método de [52], surpreen-dentemente, superou quatro métodos, ainda que a sua representação vetorial (comdimensionalidade reduzida) tenha sido constantemente inferior a grande parte dasabordagens para as subtarefas de substituição.

A amostragem utilizada para descrever a precisão de cada método é problemáticana instauração de um cenário de igualdade, já que os resultados estão condicionados àsespecíficas habilidades de seleção de candidatos por cada abordagem. A linha inferiorda Tabela 5.10 (“Instâncias”) destaca a quantidade de instâncias que satisfazem ao pré-requisito para a reprodução da métrica avaliada. Observando a variação da amostra eda precisão das abordagens, o resultado é pouco assertivo quanto à superioridade dealguma técnica específica inclusa nas abordagens, diferente da tarefa de substituição,onde a combinação dicionário e contadores de frequências são mais competitivos.

5.6.2 Precisão entre Todos

Tabela 5.11: Resultado da desambiguação sobre as instâncias para as quais todas as abordagensincluem o melhor substituto no seu conjunto de candidatos.

Sistema UNT KU IRST2 MSL-DE

PT 67,04 44,82 45,59 59,00

A competição original avaliou também a qualidade da desambiguação utilizandosomente aquelas instâncias com moda para as quais todos os participantes da compe-tição foram capazes de colocar o substituto correto no seu conjunto de candidatos. Noentanto, a premissa que assegura este cenário isonômico para as abordagens reduz abase de experimentação em um conjunto ínfimo de 17 instâncias das 1710 originais(≈1%). Consideramos esse volume de instâncias uma amostragem muito pequena,dando margem a resultados pouco fidedignos para mensurar a qualidade das abor-dagens. Portanto, afrouxamos a restritividade do cenário em questão, reduzindo oconjunto de abordagens testadas (apenas IRST2, KU e UNT), e aumentando conse-quentemente o espaço amostral utilizado para 261 das 1710 instâncias (≈15%). Quantoaos trabalhos escolhidos, em nossa defesa, priorizamos aqueles que representam osmelhores métodos para as subtarefas best e oot para R e Rm. Destacamos outra vez aolongo desse trabalho: a subtarefa oot na métrica R é o cenário que mais bem ilustra a

Page 122: Um Método para Desambiguação de Sentido e Substituição ...

96 Experimentos e Resultados

cobertura de sinônimos, já que avalia as abordagens que inclui os melhores substitutos(independente de serem a moda ou não) meio às dez sugestões admitidas.

O cenário da Tabela 5.11 exibe os resultados para a métrica de desambiguação PT

(descrita na Seção 2.6.4). A UNT, mais uma vez, é o teto da avaliação. Obtendo 67.04 deprecisão, contra 59.00 do MSL-DE. Entretanto, ainda que o resultado da desambiguaçãoseja competitivo, a qualidade das instâncias não é investigada no cenário. Maisuma vez, o MSL-DE carece de apresentar resultados mais competitivos em cenárioque oot/revocação, já que atribui peso maior aos bons substitutos, mas que não sãomajoritários no gold. A desambiguação aqui mensurada reduz a avaliação somenteà precisão sobre o substituto ideal, o que nem sempre é satisfatório para predizera definição correta em cenários para os quais tem-se um inventário de definiçõesexplicitamente definido.

Conforme observado na Seção 5.4. Nosso método se mostrou competitivo paraencontrar o substituto mais adequado. No entanto, a desambiguação de sentido estáfortemente atrelada à base que constitui o inventário de sentidos. A definição corretaa ser descoberta no processo de desambiguação pode estar associada a uma listade sinônimos com tamanho expressivo. A desambiguação de sentido reproduzidaneste trabalho não possui inventário de sentido explicitamente definido, sendo men-surada em função da escolha o termo certo na substituição isolando a mensuraçãoda qualidade da seleção/extração da avaliação. Partindo da premissa que muitossignificados de uma mesma palavra possuem muitos sinônimos em suas listas compar-tilhados, emerge como necessidade a descoberta não só do substituto principal, masdos melhores substitutos. A descoberta da definição correta de t se daria através dadiferenciação entre os sinônimos presentes em sua lista que não são compartilhadoscom as definições incorretas.

Page 123: Um Método para Desambiguação de Sentido e Substituição ...

Capítulo 6

Conclusões e Trabalhos Futuros

Neste capítulo destacamos as conclusões a respeito do trabalho desenvolvido (Seção6.1) e os trabalhos futuros possíveis a partir do que fora observado (Seção 6.2).

6.1 Conclusões

A substituição lexical possui diversas aplicações no âmbito de sistemas de recuperaçãode informação, através da indexação semântica e expansão de consultas, e no proces-samento de linguagem natural, em tarefas como desambiguação lexical de sentido etradução de máquina.

Destacados os cenários de aplicação, apresentamos um método destinado à substi-tuição lexical que usa dicionários, n-grams e modelos de embeddings. Para dicionários,utilizamos de seus significados existentes, extraindo potenciais bons substitutos atra-vés das relações ontológicas verificando a concordância entre anotadores de diferentesbases, atestando se tais conexões ontológicas provêm alternativas promissoras. Naprática, criamos dois critérios de ordenação distintos, que atendem a dois diferentespropósitos: um em pequenos contextos (baseado em n-grams) para atestar a integri-dade sintática do substituto; e outro na totalidade da sentença buscando uma fortecorrelação com a palavra marcada para a substituição. A partir desta correlação,alimentamos uma operação algébrica para sugerir melhores substitutos contidos noespaço vetorial.

Nossa abordagem se provou competitiva para selecionar o melhor substituto paraas instâncias que possuem uma moda durante o processo de anotação (Seção 5.4). Para

97

Page 124: Um Método para Desambiguação de Sentido e Substituição ...

98 Conclusões e Trabalhos Futuros

o caso considerando todas as instâncias, nossa abordagem se mostrou competitiva aoestado da arte. Quando investigamos a junção de dicionários/thesauri, conseguimosa aprimorar todas as subtarefas e métricas (Seção 5.3), atestando que a concordânciaentre anotadores de bases diferentes é de relevância para o começo do processo.

Ainda que com bons resultados na predição do melhor substituto meio a deztentativas para as instâncias com moda, nosso trabalho desempenhou mal na prediçãode substitutos para entradas sem moda meio a dez tentativas, o que atesta que oMSL-DE carece de aprimoramento para obter contadores de frequência mais precisospara alimentar o Avaliador de Contexto. Tal deficiência, talvez seja explicada porum possível viés para a palavra mais usual nos contextos aprendidos dos corporautilizados. Nosso método, diferente de todos ao nosso comparados, gera os n-gramsde corpora distintos.

6.2 Trabalhos Futuros

No decorrer da execução dessa pesquisa, nos deparamos com diversos pontos quepermitem uma maior exploração da pesquisa em curso para estender o método. Cate-gorizamos as possibilidades exploráveis quanto a novos modos de representação dasdefinições e do contexto (Seção 6.2.1), ao tratamento específico a cada função sintática(Seção 6.2.2) e, por fim, às áreas PLN que podem ser exploradas com extensões daabordagem (Seção 6.2.3).

6.2.1 Novos modos de representação do contexto e da definição

O trabalho permite aprimoramentos no que tange à representação das definiçõesassociadas pelo termo substituível t dentro do contexto.

Uma maior exploração da totalidade de cada descrição textual (definições) dapalavra a ser substituída surge como alternativa. Até então o fluxo do MSL-DE utilizou-a para encontrar outros possíveis sinônimos textualmente referenciados, mas semutilizá-la para criar uma representação dentro do modelo para comparação posterior àrepresentação vetorial também construída pelo contexto.

Para representar um potencial substituto, o MSL-DE obteve contadores de frequên-cia através de n-grams. Uma outra representação do mesmo substituto inclui o con-

Page 125: Um Método para Desambiguação de Sentido e Substituição ...

Conclusões e Trabalhos Futuros 99

tador PMI para auxiliar a transcrever t e a palavra mais relevante do contexto parao modelo, verificando, assim, se o mesmo substituto previamente filtrado atravésde seus contadores de frequência. Destacadas as representações, é possível obternovos contadores de frequência a partir de n-grams obtidos de janelas de contextos quenão utilizam os separadores de término de um frase. A computação dos coeficientesPMI também podem adquirir novo escopo de observação, considerando a totalidadede cada documento dos corpora e não as frases supracitadas oriundas dos mesmosdocumentos.

6.2.2 Tratamento Especializado para cada Função Sintática

Quando olhamos especificamente cada função sintática, a criação de mais subcom-ponentes para tratar cada uma delas em específico se mostra promissora. Funçõessintáticas cumprem papéis distintas em um texto e, além desta premissa, temos acorroboração pelos resultados que avaliam as funções sintáticas em específico (Seção5.5) obtidos na discriminação realizada para respaldar esta questão como trabalhofuturo.

Atentos aos detalhes, notamos a complexidade da desambiguação para verbos,devida à alta polissemia e o baixo viés ao contexto, que provê as palavras que auxiliamno processo de ordenação. Conforme sugerido na Seção 5.5.3, “empty verbs” possuemalta frequência de uso, fato que justificaria um subcomponente específico para essesubproblema identificado durante a pesquisa. Os advérbios, por sua vez, tambémapresentam possibilidade de exploração, já que sua inutilização não viola restriçõessintáticas da sentença, fato que torna complexo a criação de representação apropriadade um advérbio já desambiguado.

6.2.3 Inclusão em outros nichos de pesquisa

Sob a perspectiva experimental, a abordagem pode também ser validada sob cenáriosque realizam a substituição para todas as palavras da sentença (“all words”), ao invésde um único termo até então validado (modo “sample”). Entretanto, um problemainerente é o aumento de armazenamento e processamento crescente, já que utilizatodas as palavras relevantes 1. Por fim, conforme mencionado na Introdução (Seção 1),

1Já filtradas sem as stop words.

Page 126: Um Método para Desambiguação de Sentido e Substituição ...

100 Conclusões e Trabalhos Futuros

a desambiguação lexical de sentido está fortemente atrelada à substituição. Portanto, adesambiguação com inventários pré-definidos apresentam outro segmento passível deaplicação do nosso método. No entanto, funções extras são requeridas, como utilizaro ranking gerado até então de modo que a ordenação das palavras apresentadaspossibilitem a identificação da definição do termo a ser desambiguado, que é umaclasse, na sentença.

Page 127: Um Método para Desambiguação de Sentido e Substituição ...

Referências Bibliográficas

[1] S. Abualhaija, T. Miller, J. Eckle-Kohler, I. Gurevych, and K.-H. Zimmermann.Metaheuristic approaches to lexical substitution and simplification. In Proceedingsof the 15th Conference of the European Chapter of the Association for ComputationalLinguistics: Volume 1, Long Papers, pages 870–880, 2017.

[2] A. A. Acharya, L. W. Allen Jr, J. H. Jenkins, and A. Samuel. Deduplication byphrase substitution within chunks of substantially similar content, Feb. 9 2017.US Patent App. 14/817,296.

[3] H. K. Azad and A. Deepak. Query expansion techniques for information retrieval:a survey. arXiv preprint arXiv:1708.00247, 2017.

[4] S. Banerjee and T. Pedersen. An adapted lesk algorithm for word sense disambi-guation using wordnet. In International conference on intelligent text processing andcomputational linguistics, pages 136–145. Springer, 2002.

[5] S. Banerjee and T. Pedersen. Extended gloss overlaps as a measure of semanticrelatedness. In Proceedings of the 18th International Joint Conference on ArtificialIntelligence, IJCAI’03, pages 805–810, San Francisco, CA, USA, 2003. MorganKaufmann Publishers Inc.

[6] E. Barbu, M. T. Martín-Valdivia, E. Martínez-Cámara, and L. A. Ureña-López.Language technologies applied to document simplification for helping autisticpeople. Expert Systems with Applications, 42(12):5076–5086, 2015.

[7] P. Basile, A. Caputo, and G. Semeraro. An enhanced lesk word sense disambigua-tion algorithm through a distributional semantic model. In Proceedings of COLING2014, the 25th International Conference on Computational Linguistics: Technical Papers,pages 1591–1600, 2014.

[8] L. Bentivogli and E. Pianta. Extending wordnet with syntagmatic information. InProceedings of second global WordNet conference, pages 47–53, 2004.

101

Page 128: Um Método para Desambiguação de Sentido e Substituição ...

102 REFERÊNCIAS BIBLIOGRÁFICAS

[9] D. Bolinger. Aspects of language. 1968.

[10] T. Brants and A. Franz. Web 1t 5-gram version 1. 2006.

[11] L. J. Brinton. The structure of modern English: A linguistic introduction. JohnBenjamins Publishing, 2000.

[12] C. Brugman. Light verbs and polysemy. Language Sciences, 23(4):551 – 578, 2001.

[13] A. Budanitsky and G. Hirst. Evaluating wordnet-based measures of lexicalsemantic relatedness. Computational Linguistics, 32(1):13–47, 2006.

[14] C. Carpineto and G. Romano. A survey of automatic query expansion in informa-tion retrieval. ACM Comput. Surv., 44(1):1:1–1:50, Jan. 2012.

[15] K. W. Church and P. Hanks. Word association norms, mutual information, andlexicography. Computational linguistics, 16(1):22–29, 1990.

[16] D. Corney, D. Albakour, M. Martinez, and S. Moussa. What do a million newsarticles look like? In Proceedings of the First International Workshop on Recent Trendsin News Information Retrieval co-located with 38th European Conference on InformationRetrieval (ECIR 2016), Padua, Italy, March 20, 2016., pages 42–47, 2016.

[17] D. A. Cruse. Lexical semantics. Cambridge University Press, 1986.

[18] G. Dahl, A.-M. Frassica, and R. Wicentowski. Sw-ag: Local context matchingfor english lexical substitution. In Proceedings of the 4th International Workshop onSemantic Evaluations, pages 304–307. Association for Computational Linguistics,2007.

[19] M. Davies. The corpus of contemporary american english: 560 million words,1990-present. corpus. byu. edu/coca, 2017.

[20] W. I. de Souza and Á. R. Pereira Jr. A methodology for automatic generation ofvocabulary exercises. In Proceedings of the 23rd Brazillian Symposium on Multimediaand the Web, pages 209–212. ACM, 2017.

[21] O. DICTIONARIES. Oxford dictionaries. Oxford, Oxford University Press,http://oxforddictionaries. com, 2014.

[22] A. Dinu, L. P. Dinu, and A. S. Uban. Cross-lingual synonymy overlap. InProceedings of the International Conference Recent Advances in Natural LanguageProcessing, pages 147–152, 2015.

Page 129: Um Método para Desambiguação de Sentido e Substituição ...

REFERÊNCIAS BIBLIOGRÁFICAS 103

[23] H. Drenoyianni, I. Selwood, and R. Riding. Searching using ‘microsoft® en-carta™’. Education and Information Technologies, 7(4):333–342, 2002.

[24] P. Edmonds. Choosing the word most typical in context using a lexical co-occurrence network. In Proceedings of the eighth conference on European chapterof the Association for Computational Linguistics, pages 507–509. Association forComputational Linguistics, 1997.

[25] P. Edmonds and G. Hirst. Near-synonymy and lexical choice. Computationallinguistics, 28(2):105–144, 2002.

[26] P. Edmonds and G. Hirst. Near-synonymy and lexical choice. ComputationalLinguistics, 28(2):105–144, 2002.

[27] O. Etzioni, K. Reiter, S. Soderland, M. Sammer, and T. Center. Lexical translationwith application to image search on the web. Machine Translation Summit XI, 2007.

[28] J. R. Firth. A synopsis of linguistic theory, 1930-1955. Studies in linguistic analysis,1957.

[29] M. Franco-Salvador, P. Rosso, and M. Montes-y Gómez. A systematic study ofknowledge graph analysis for cross-language plagiarism detection. InformationProcessing & Management, 52(4):550–570, 2016.

[30] G. W. Furnas, T. K. Landauer, L. M. Gomez, and S. T. Dumais. The vocabu-lary problem in human-system communication. Communications of the ACM,30(11):964–971, 1987.

[31] M. Gardiner and M. Dras. Exploring approaches to discriminating among near-synonyms. In Proceedings of the Australasian Language Technology Workshop 2007,pages 31–39, 2007.

[32] C. Giuliano, A. Gliozzo, and C. Strapparava. Fbk-irst: Lexical substitution task ex-ploiting domain and syntagmatic coherence. In Proceedings of the 4th InternationalWorkshop on Semantic Evaluations, pages 145–148. Association for ComputationalLinguistics, 2007.

[33] D. Goldhahn, T. Eckart, and U. Quasthoff. Building large monolingual dictionariesat the leipzig corpora collection: From 100 to 200 languages. In LREC, volume 29,pages 31–43, 2012.

[34] S. Hassan, A. Csomai, C. Banea, R. Sinha, and R. Mihalcea. Unt: Subfinder:

Page 130: Um Método para Desambiguação de Sentido e Substituição ...

104 REFERÊNCIAS BIBLIOGRÁFICAS

Combining knowledge sources for automatic lexical substitution. In Proceedings ofthe 4th International Workshop on Semantic Evaluations, pages 410–413. Associationfor Computational Linguistics, 2007.

[35] S. Hassan and R. Mihalcea. Cross-lingual semantic relatedness using encyclo-pedic knowledge. In Proceedings of the 2009 Conference on Empirical Methods inNatural Language Processing: Volume 3-Volume 3, pages 1192–1201. Association forComputational Linguistics, 2009.

[36] T. Hawker. Usyd: Wsd and lexical substitution using the web1t corpus. InProceedings of the 4th International Workshop on Semantic Evaluations, SemEval’07, pages 446–453, Stroudsburg, PA, USA, 2007. Association for ComputationalLinguistics.

[37] H. Hjelm. Identifying cross language term equivalents using statistical machinetranslation and distributional association measures. In Proceedings of the 16thNordic Conference of Computational Linguistics (Nodalida 2007), pages 97–104, 2007.

[38] D. Inkpen. A statistical model for near-synonym choice. ACM Transactions onSpeech and Language Processing (TSLP), 4(1):2, 2007.

[39] D. Inkpen and G. Hirst. Building and using a lexical knowledge base of near-synonym differences. Computational linguistics, 32(2):223–262, 2006.

[40] A. Islam and D. Inkpen. Near-synonym choice using a 5-gram language model.Research in Computing Sciences, 46:41–52, 2010.

[41] M. Kusner, Y. Sun, N. Kolkin, and K. Weinberger. From word embeddings todocument distances. In International Conference on Machine Learning, pages 957–966, 2015.

[42] T. K. Landauer, P. W. Foltz, and D. Laham. An introduction to latent semanticanalysis. Discourse processes, 25(2-3):259–284, 1998.

[43] M. Lesk. Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annualinternational conference on Systems documentation, pages 24–26. ACM, 1986.

[44] O. Levy and Y. Goldberg. Linguistic regularities in sparse and explicit wordrepresentations. In Proceedings of the eighteenth conference on computational naturallanguage learning, pages 171–180, 2014.

Page 131: Um Método para Desambiguação de Sentido e Substituição ...

REFERÊNCIAS BIBLIOGRÁFICAS 105

[45] D. Lin et al. An information-theoretic definition of similarity. In Icml, volume 98,pages 296–304. Citeseer, 1998.

[46] C. D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval.Cambridge University Press, New York, NY, USA, 2008.

[47] J. R. Martin and D. Rose. Working with discourse: Meaning beyond the clause.Bloomsbury Publishing, 2003.

[48] D. Martinez, S. N. Kim, and T. Baldwin. Melb-mkb: Lexical substitution systembased on relatives in context. In Proceedings of the 4th International Workshop onSemantic Evaluations, pages 237–240. Association for Computational Linguistics,2007.

[49] D. McCarthy and R. Navigli. Semeval-2007 task 10: English lexical substitutiontask. In Proceedings of the 4th International Workshop on Semantic Evaluations, pages48–53. Association for Computational Linguistics, 2007.

[50] D. McCarthy and R. Navigli. The english lexical substitution task. Languageresources and evaluation, 43(2):139–159, 2009.

[51] O. Melamud, I. Dagan, and J. Goldberger. Modeling word meaning in contextwith substitute vectors. In Proceedings of the 2015 Conference of the North AmericanChapter of the Association for Computational Linguistics: Human Language Technologies,pages 472–482, 2015.

[52] O. Melamud, O. Levy, and I. Dagan. A simple word embedding model for lexicalsubstitution. In Proceedings of the 1st Workshop on Vector Space Modeling for NaturalLanguage Processing, pages 1–7, 2015.

[53] R. Meneghini and A. L. Packer. Is there science beyond english?: Initiatives toincrease the quality and visibility of non-english publications might help to breakdown language barriers in scientific communication. EMBO reports, 8(2):112–116,2007.

[54] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of wordrepresentations in vector space. arXiv preprint arXiv:1301.3781, 2013.

[55] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. Distributed repre-sentations of words and phrases and their compositionality. In Advances in neuralinformation processing systems, pages 3111–3119, 2013.

Page 132: Um Método para Desambiguação de Sentido e Substituição ...

106 REFERÊNCIAS BIBLIOGRÁFICAS

[56] G. A. Miller. Wordnet: a lexical database for english. Communications of the ACM,38(11):39–41, 1995.

[57] G. A. Miller. Wordnet: A lexical database for english. Commun. ACM, 38(11):39–41,Nov. 1995.

[58] B. Min, S. Shi, R. Grishman, and C.-Y. Lin. Ensemble semantics for large-scaleunsupervised relation extraction. In Proceedings of the 2012 Joint Conference on Em-pirical Methods in Natural Language Processing and Computational Natural LanguageLearning, pages 1027–1037. Association for Computational Linguistics, 2012.

[59] S. Mohammad, G. Hirst, and P. Resnik. Tor, tormd: Distributional profiles ofconcepts for unsupervised word sense disambiguation. In Proceedings of the 4thInternational Workshop on Semantic Evaluations, pages 326–333. Association forComputational Linguistics, 2007.

[60] S. M. Mohammad, B. J. Dorr, G. Hirst, and P. D. Turney. Computing lexicalcontrast. Computational Linguistics, 39(3):555–590, 2013.

[61] R. Navigli. Word sense disambiguation: A survey. ACM Computing Surveys(CSUR), 41(2):10, 2009.

[62] R. Navigli and S. P. Ponzetto. Babelnet: Building a very large multilingualsemantic network. In Proceedings of the 48th Annual Meeting of the Association forComputational Linguistics, ACL ’10, pages 216–225, Stroudsburg, PA, USA, 2010.Association for Computational Linguistics.

[63] S. Padó and M. Lapata. Constructing semantic space models from parsed corpora.In Proceedings of the 41st Annual Meeting of the Association for Computational Lin-guistics, pages 128–135, Sapporo, Japan, July 2003. Association for ComputationalLinguistics.

[64] R. Paolo, D. Ricca, et al. Prototypical adverbs: On the scalarity/radiality of thenotion of adverb. 1994.

[65] G. Persson. Meanings, models, and metaphors: a study in lexical semantics in English,volume 92. Coronet Books Inc, 1990.

[66] T. Petrolito and F. Bond. A survey of wordnet annotated corpora. In Proceedingsof the Seventh Global Wordnet Conference, pages 236–245, 2014.

[67] L. Rello, R. Baeza-Yates, L. Dempere-Marco, and H. Saggion. Frequent words

Page 133: Um Método para Desambiguação de Sentido e Substituição ...

REFERÊNCIAS BIBLIOGRÁFICAS 107

improve readability and short words improve understandability for people withdyslexia. In IFIP Conference on Human-Computer Interaction, pages 203–219. Sprin-ger, 2013.

[68] M. Sahlgren. The distributional hypothesis. Italian Journal of Disability Studies,20:33–53, 2008.

[69] M. Shardlow. A survey of automated text simplification. International Journal ofAdvanced Computer Science and Applications, 4(1):58–70, 2014.

[70] A. Siddharthan. A survey of research on text simplification. ITL-InternationalJournal of Applied Linguistics, 165(2):259–298, 2014.

[71] R. Sinha and R. Mihalcea. Combining lexical resources for contextual synonymexpansion. In Proceedings of the International Conference RANLP-2009, pages 404–410, 2009.

[72] R. S. Sinha and R. F. Mihalcea. Using centrality algorithms on directed graphs forsynonym expansion. In FLAIRS Conference, pages 311–316, 2011.

[73] K. Toutanova, D. Klein, C. D. Manning, and Y. Singer. Feature-rich part-of-speechtagging with a cyclic dependency network. In Proceedings of the 2003 conferenceof the North American chapter of the association for computational linguistics on hu-man language technology-volume 1, pages 173–180. Association for ComputationalLinguistics, 2003.

[74] A. S. Uban. Hard synonymy and applications in automatic detection of synonymsand machine translation. In Ninth Workshop on Building and Using ComparableCorpora, page 34, 2016.

[75] T. Wang, P. Chen, J. Rochford, and J. Qiang. Text simplification using neuralmachine translation. In AAAI, pages 4270–4271, 2016.

[76] T. Wang and G. Hirst. Near-synonym lexical choice in latent semantic space. InProceedings of the 23rd International Conference on Computational Linguistics, pages1182–1190. Association for Computational Linguistics, 2010.

[77] D. Yuret. Ku: Word sense disambiguation by substitution. In Proceedings of the4th International Workshop on Semantic Evaluations, pages 207–213. Association forComputational Linguistics, 2007.

[78] S. Zhao, L. Zhao, Y. Zhang, T. Liu, and S. Li. Hit: Web based scoring method

Page 134: Um Método para Desambiguação de Sentido e Substituição ...

108 REFERÊNCIAS BIBLIOGRÁFICAS

for english lexical substitution. In Proceedings of the 4th International Workshop onSemantic Evaluations, pages 173–176. Association for Computational Linguistics,2007.