Classi cação de Relações Semânticas Abertas Baseada em · 2018. 5. 7. · Classi cação de...

Classicação de Relações Semânticas Abertas Baseada emSimilaridade de Estruturas Gramaticais na Língua Portuguesa

Erick Nilsen Pereira de Souza

Dissertação apresentadaao

Programa de Pós-graduação em Ciência da Computaçãoda

Universidade Federal da Bahiapara

obtenção do títulode

Mestre em Ciência da Computação

Programa: Mestrado Multi-institucional em Ciência da Computação -

UFBA/UEFS

Orientador: Profa. Dra. Daniela Barreiro Claro

Durante o desenvolvimento deste trabalho o autor recebeu parcialmente auxílio nanceiro da

FAPESB

Salvador, julho de 2014

Classicação de Relações Semânticas Abertas Baseada emSimilaridade de Estruturas Gramaticais na Língua Portuguesa

Esta versão da dissertação contém as correções e alterações sugeridas

pela Comissão Julgadora durante a defesa da versão original do trabalho,

realizada em 22 de julho de 2014.

Comissão Julgadora:

• Profa. Dra. Daniela Barreiro Claro (orientadora) - UFBA

• Profa. Dra. Laís do Nascimento Salvador - UFBA

• Prof. Dr. Frederico Luiz Gonçalves de Freitas - UFPE

Como regra geral, o homem mais bem-sucedido é aquele que dispõe das melhores informações.

(Benjamin Disraeli).

Nenhuma grande descoberta foi feita jamais sem um palpite ousado.

(Isaac Newton)

i

Agradecimentos

Apoiar-se em ombros de gigantes é considerada por muitos uma das premissas losócas mais

importantes da ciência. Portanto, agradeço a todos os que compartilharam seus conhecimentos e

descobertas através de livros, artigos cientícos e ferramentas computacionais que tratam das áreas

de Processamento de Linguagem Natural, Extração da Informação e Teoria dos Grafos, contribuições

valiosas e indispensáveis à realização deste trabalho.

Agradeço à professora, orientadora e amiga Daniela Claro, não apenas pela conança e oportu-

nidade de trabalhar ao seu lado, mas também pelo seu imenso entusiasmo, exemplo de comprome-

timento e excelência, que tanto me motivaram ao longo desta jornada.

À FAPESB pelo auxílio nanceiro durante o primeiro ano desta pesquisa.

A todos os que ajudaram a construir o presente trabalho com enriquecedoras discussões, tanto

nos congressos, quanto nas reuniões do grupo FORMAS. Em especial, agradeço aos membros da

banca de qualicação do MMCC, professoras Vaninha Vieira e Christina von Flach, pelas valiosas

críticas e sugestões.

Aos professores do MMCC, Roberto Bittencourt e Aline Andrade, por proporcionarem em suas

disciplinas um ambiente de construção de conhecimento que permitiu abrir minha mente a novas

ideias.

Aos professores da graduação em Ciência da Computação da UFBA, Cláudia Gama e Flávio

Assis, que contribuíram muito para a minha formação acadêmica básica.

Por m, mas nunca menos importante, agradeço aos amigos e familiares, principalmente a minha

mãe Silene e minha avó Maria, que sempre apoiaram meus projetos de forma incondicional.

ii

Resumo

SOUZA, E. N. P. de Classicação de Relações Semânticas Abertas Baseada em Simila-

ridade de Estruturas Gramaticais na Língua Portuguesa. Dissertação - Departamento de

Ciência da Computação, Instituto de Matemática, Universidade Federal da Bahia, Salvador, 2014.

A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela

descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a

extração não é limitada por um conjunto predenido de relações, a ER é dita Aberta (Open Re-

lation Extraction), cujo principal desao consiste em reduzir a proporção de extrações inválidas

geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre

um conjunto de features linguísticas especícas, embora consigam eliminar grande parte das ex-

trações inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência

decorre da diculdade inerente à determinação do conjunto de features mais representativo para o

problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases

de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especia-

lizado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo

de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto

um método para classicação de relações baseado em similaridade de estruturas gramaticais, que

constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de

identicar padrões de similaridade que permitam distinguir relações válidas e inválidas, através da

aplicação de algoritmos de detecção de isomorsmo em subgrafos. Os resultados obtidos neste tra-

balho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode

ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com

número reduzido de instâncias. Com isso, o esforço de classicação pode ser minimizado através

da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com

custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e

validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste

tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não

limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classicação de relações

abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é

possível comparar a qualidade de classicação do método proposto com as principais abordagens

baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi-

cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE

[WW10].

Palavras-chave: extração da informação, isomorsmo em subgrafos, extração de relações abertas.

iii

Abstract

SOUZA, E. N. P. de Classication of Open Relation Extraction Using Similarity of Gram-

matical Structures in Portuguese. Dissertation - Department of Computer Science, Institute

of Mathematics, Federal University of Bahia, Salvador, 2014.

Relation Extraction (RE) is a task of Information Extraction (IE) responsible for the discovery of

semantic relationships between concepts in unstructured text. When the extraction is not limited to

a predened set of relations, the task is called Open Relation Extraction, whose main challenge is

to reduce the proportion of invalid extractions generated by methods that handle this task. Current

methods based on a set of specic machine learning features eliminate much of the inconsistent and

incomplete extractions. However, these solutions have the disadvantage of being highly language-

dependent. This dependence arises from the diculty in nding the most representative set of

features to the Open RE problem, considering the peculiarities of each language. These solutions

require extensive training bases, usually produced with the aid of specialized linguistic knowledge.

Furthermore, although the linguistic knowledge resources are common in English, they are scarce

in most languages. In order to facilitate the implementation of the Open RE task in texts written

in other languages, we propose a method for classifying relationships based on similarity of gram-

matical structures, which builds models from morphological structures contained in the extraction,

with the purpose of identify patterns of similarity that can be used to distinguish valid and invalid

relationships, through the application of algorithms for detection of isomorphism in subgraphs. The

results of this study support the hypothesis that the similarity between the grammatical structures

of relations can be used to reduce the amount of invalid extractions from labeled example sets with

a small number of instances. Thus, the eort of classication can be minimized by replacing feature

training sets by sample sets with lower building cost. In particular, the Portuguese of Brazil was

chosen for the implementation and validation of the proposed approach, since it is one of several

languages that lack this type of resource, being the precursor approach in extracting open semantic

relationships of this language. Thereby, a extraction and classication model of open relationships

based on grammatical patterns adapted to Portuguese was developed, from which it is possible

to compare the quality of the proposed classication method with the main approaches based on

features. Experimental results show an increase in the quality of classication in relation to the

state of the art methods in this category, such as ReVerb [FSE11] e o WOE [WW10].

Keywords: information extraction, subgraph-isomorsm, open relation extraction.

iv

Sumário

Lista de Abreviaturas vii

Lista de Termos viii

Lista de Símbolos ix

Lista de Figuras x

Lista de Tabelas xii

Lista de Algoritmos xiii

1 Introdução 1

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3.1 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

I Fundamentação Teórica 6

2 Mineração de Textos 7

2.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Tarefas de Pré-procesamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1 Recuperação da Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.2 Extração da Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Extração de Relações 15

3.1 Classicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.1 Classicação por Técnica Aplicada . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.2 Classicação por Tipo de Relação Extraída . . . . . . . . . . . . . . . . . . . 17

3.2 Extração de Relações Abertas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.1 O Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.2 O Problema de Classicação de Relações Abertas . . . . . . . . . . . . . . . . 21

3.3 Trabalhos em Língua Portuguesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

v

SUMÁRIO vi

4 Similaridade em Grafos 25

4.1 Isomorsmo em Subgrafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.1 O Problema do Subgrafo Comum Máximo (MCS) . . . . . . . . . . . . . . . . 25

4.1.2 Algoritmos Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2 Similaridade entre Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.3 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

II Contribuições da Dissertação 33

5 Solução Proposta 34

5.1 Modelo de Extração e Classicação de Relações Abertas . . . . . . . . . . . . . . . . 34

5.2 Extração de Relações Abertas em Português . . . . . . . . . . . . . . . . . . . . . . . 35

5.2.1 Avaliação de Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.3 Modelo de Estruturas Gramaticais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3.1 Modelagem em Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.4 Similaridade de Estruturas Gramaticais (SEG) . . . . . . . . . . . . . . . . . . . . . 41

5.4.1 Similaridade Estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.4.2 Similaridade de Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.4.3 Cálculo de Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.5 Classicação por Similaridade de Estruturas Gramaticais (SEG) . . . . . . . . . . . . 44

6 Validação da Proposta 47

6.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.2 Ferramentas e Recursos Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.3 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.3.1 Experimento 1: representatividade das features . . . . . . . . . . . . . . . . . 51

6.3.2 Experimento 2: limiar ξs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.3.3 Experimento 3: avaliação de classicação . . . . . . . . . . . . . . . . . . . . . 55

6.3.4 Experimento 4: avaliação de tempo . . . . . . . . . . . . . . . . . . . . . . . . 58

6.4 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7 Conclusões 62

7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A Algoritmos Auxiliares 64

B Complexidade Assintótica dos Algoritmos Propostos 66

Referências Bibliográcas 69

Lista de Abreviaturas

AUC Area Under Curve

CETENFolha Corpus de Extratos de Textos Eletrônicos NILC/Folha de S. Paulo

CRF Conditional Random Field

DLS Desambiguação Lexical de Sentido

EI Extração da Informação

ER Extração de Relações

FN Frase Nominal

HMM Hidden Markov Model (Modelo Oculto de Markov)

LCS Least Common Superconcept

LSI Latent Semantic Indexing

MCS Maximum Common Subgraph-isomorsm

MCCES Maximum Common Connected Edge Subgraph

MCCIS Maximum Common Connected Induced Subgraph

MCES Maximum Common Edge Subgraph

MCIS Maximum Common Induced Subgraph

MT Mineração de Textos

Open IE Open Information Extraction

Open RE Open Relation Extraction (Extração de Relações Abertas)

PLN Processamento de Linguagem Natural

POS Part-Of-Speech

REM Reconhecimento de Entidades Mencionadas

ROC Receiver Operating Characteristic (Característica de Operação do Receptor)

SEG Similaridade de Estruturas Gramaticais

SVD Singular Value Decomposition (Decomposição em Valores Singulares)

SVM Support Vector Machines (Máquinas de Vetores de Suporte)

VSM Vector Space Model

XML eXtensible Markup Language (Linguagem de Marcação Extensível)

vii

Lista de Termos

Cobertura Neste trabalho, corresponde à fração de relações classicadas

dentre todas as relações existentes no corpus.

Corpus Conjunto de textos escritos em uma determinada língua

que serve como base de análise.

CRF Modelo probabilístico usado para predição de sequências.

Curva ROC Gráco de sensibilidade (ou taxa de verdadeiros positivos)

versus taxa de falsos positivos.

Feature Qualquer característica associada a uma palavra

ou grupo de palavras, direta ou indiretamente.

Frase Nominal Grupo de vocábulos que expressam uma ideia, sem a

presença de verbos implícitos ou explícitos.

Léxico Computacional Acervo de palavras de um determinado idioma agrupadas

semanticamente e acessíveis eletronicamente.

Medida-F Medida harmônica entre precisão e cobertura.

Precisão Neste trabalho, corresponde à fração de classicações

corretas dentre todas as relações classicadas.

Token Menor unidade textual tratável.

viii

Lista de Símbolos

ξs Limiar de similaridade

kp Fator de ponderação na matriz de correlação entre classes morfológicas

M Matriz de correlação entre classes morfológicas

ψ Função que retorna o rótulo de um vértice contido no clique máximo

D Profundidade de um conceito em uma taxonomia

H Profundidade de uma taxonomia

ix

Lista de Figuras

2.1 Arquitetura de um sistema genérico de MT (modicado de [FS07]). . . . . . . . . . . 7

2.2 Pré-processamento na MT (modicado de [FS07]). . . . . . . . . . . . . . . . . . . . 9

2.3 Representação textual no VSM [TP10]. . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Decomposição de matrizes com SVD [LPD12]. . . . . . . . . . . . . . . . . . . . . . . 12

2.5 Representação geométrica de um modelo SVD [DDF+90]. . . . . . . . . . . . . . . . 12

2.6 Representação de informações extraídas de um texto não estruturado [DC11]. . . . . 14

2.7 Exemplo de REM [DC11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Classicação por tipo de método. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Classicação por tipo de relação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3 Restrição sintática no Reverb [FSE11]. . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Diferenças entre MCES, MCIS, MCCES e MCCIS [RW02]. . . . . . . . . . . . . . . . 26

4.2 Produto modular [BM93]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 Exemplo de matriz gerada pelo algoritmo de Wagner-Fisher [BK73]. . . . . . . . . . 28

4.4 Hierarquia de classicação dos seres vivos [Fel98]. . . . . . . . . . . . . . . . . . . . . 29

4.5 Exemplo de MCES entre estruturas moleculares [BM96]. . . . . . . . . . . . . . . . . 31

4.6 Detecção de subcircuitos [EZ83] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.7 Representação em Netlist (b) e em grafo (c) de uma célula RAM (a) [Lin98b]. . . . . 32

5.1 Modelo de Extração e Classicação de Relações Abertas. . . . . . . . . . . . . . . . . 35

5.2 Restrição sintática adaptada para a Língua Portuguesa. . . . . . . . . . . . . . . . . 36

5.3 Estruturas gramaticais das relações válidas (Tabela 5.2) após aplicação do Algoritmo

5.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.4 Estruturas gramaticais das relações inválidas (Tabela 5.3) após aplicação do Algo-

ritmo 5.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.1 Interface para ajuste manual das bases de treinamento e de exemplos . . . . . . . . . 48

6.2 Arquitetura do protótipo para a realização dos experimentos . . . . . . . . . . . . . . 49

6.3 Representatividade das features no conjunto de dados . . . . . . . . . . . . . . . . . 52

6.4 Avaliação dos conjuntos de features . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.5 Variação da Medida-F e Área ROC em função da variação do limiar ξs . . . . . . . . 54

6.6 Variação da ponderação entre Medida-F e Área ROC em função da variação do limiar

ξs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.7 Avaliação da medida-F em função da quantidade de relações classicadas. . . . . . . 56

6.8 Curvas ROC da classicação baseada em features . . . . . . . . . . . . . . . . . . . . 57

x

LISTA DE FIGURAS xi

6.9 Análise ROC do método SEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.10 Comparativo entre as áreas médias das curvas ROC dos classicadores . . . . . . . . 58

6.11 Tempo de construção dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.12 Tempo total de experimentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Lista de Tabelas

2.1 Descrições de serviços duplicados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1 Exemplos de relações especícas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Exemplos de extrações inválidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.1 Exemplos de padrões morfológicos possíveis a partir da expressão regular da Figura

5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2 Relações válidas obtidas a partir da restrição sintática da Figura 5.2 . . . . . . . . . 39

5.3 Relações inválidas obtidas a partir da restrição sintática da Figura 5.2 . . . . . . . . 40

5.4 Matriz de correlação entre classes morfológicas . . . . . . . . . . . . . . . . . . . . . 42

5.5 Similaridade de estruturas gramaticais com todas as combinações entre G1, G2, G3

e G4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.1 Features utilizadas para a base de treinamento em Língua Portuguesa . . . . . . . . 49

6.2 Conjuntos de features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3 Resultados médios obtidos por validação cruzada com 10 folds . . . . . . . . . . . . . 55

6.4 Avaliação de tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

B.1 Complexidade dos métodos auxiliares do Algoritmo 5.1 . . . . . . . . . . . . . . . . . 66

B.2 Complexidade detalhada do Algoritmo 5.1 . . . . . . . . . . . . . . . . . . . . . . . . 66

B.3 Complexidade dos métodos auxiliares do Algoritmo A.1 . . . . . . . . . . . . . . . . 67

B.4 Complexidade detalhada do Algoritmo A.1 . . . . . . . . . . . . . . . . . . . . . . . . 67





xii

Lista de Algoritmos

4.1 Retorna um conjunto R que representa o clique máximo em um grafo G . . . . . . . 27

5.1 Constrói um grafo de estruturas morfológicas a partir do conjunto de classes de uma

sentença . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2 Gera uma matriz de correlações entre classes morfológicas a partir do dicionário

construído no Algoritmo A.1 (Apêndice A) . . . . . . . . . . . . . . . . . . . . . . . . 43

5.3 Classica uma extração com base em similaridade de estruturas gramaticais . . . . . 45

A.1 Constrói um dicionário de palavras associadas a classes morfológicas a partir de uma

lista de sentenças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

A.2 Exemplo de algoritmo necessário para extrair uma feature especíca (F11, denida

na Tabela 6.1) a partir de uma lista de sentenças, com a nalidade de compor o

conjunto de treinamento utilizado nos algoritmos de aprendizado para classicação

de relações abertas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

xiii

Capítulo 1

Introdução

A crescente disponibilização de dados na Web tem possibilitado um intenso intercâmbio de in-formações a nível global. Estima-se que mais de 2,4 bilhões de pessoas acessaram a Internet em2013 e cerca de 140 mil novos sites surgem a cada dia [Val13]. Segundo [FSE11], mais de 80% dosdados gerados em redes sociais, portais corporativos, trocas de emails, blogs e sites de notícias sãocompostos por textos. Inevitavelmente, a maior parte deste grande volume de informações é irrele-vante aos interesses especícos de cada usuário, o que torna a ltragem de conteúdos um requisitocada vez mais necessário. Entretanto, a seleção de conteúdo relevante pressupõe um certo nível deconhecimento semântico sobre a totalidade ou grande parte da informação disponível, análise quese congura impossível para um ser humano, dada a quantidade e dispersão da informação. Porconta disso, a interpretação automática deste grande volume de dados tornou-se foco de pesquisasem áreas importantes da Ciência da Computação, tais como a Web Semântica e a Mineração deTextos.

A Mineração de Textos (MT), área que trata da descoberta de conhecimento em dados nãoestruturados, tem o objetivo de identicar determinados padrões, que permitem obter informaçõesúteis contidas em conjuntos de documentos [FS07]. Como a MT não pressupõe a existência deinformações sobre os dados (metadados), o texto original precisa ser segmentado e etiquetado naetapa de pré-processamento, isto é, transformado para um formato canônico estruturado. Estaetapa possibilita que a informação estruturada sirva como entrada das operações de mineração,responsáveis pela identicação de padrões relevantes nos dados.

Nesse cenário, a qualidade das anotações semânticas realizadas na etapa de pré-processamentoé determinante para a ecácia do processo de descoberta do conhecimento na MT, já que per-mite identicar os conceitos e relacionamentos mais importantes contidos nos documentos. Comoos recursos humanos disponíveis são caros e insucientes para produzir manualmente as anotaçõesnecessárias, a Extração da Informação (EI) [MRS08] tem sido cada vez mais estudada e aplicada nocontexto do processamento linguístico, pois reúne um conjunto de tarefas dedicadas à etiquetaçãoautomática de informação estruturada especíca a partir de dados não estruturados. As principaistarefas da EI são o Reconhecimento de Entidades Mencionadas (REM) [EBP08] e a Extração deRelações (ER) [ZAR03]. O objetivo do REM é identicar e classicar os nomes das entidades, taiscomo pessoas, organizações, locais, marcos de tempo e valores, sendo a ER responsável pela iden-ticação de relações semânticas entre essas entidades. Porém, as principais soluções para extraçãode relações entre entidades são limitadas por um conjunto predenido de relações possíveis, o quereduz a aplicabilidade dos métodos a domínios e idiomas especícos.

Um exemplo de aplicação de EI onde a limitação de domínio e idioma constitui um fator proibi-tivo é no REM aplicado à computação forense. Autores em [DC11] armam que a identicação denomes de pessoas e organizações em mídias apreendidas pode reduzir em mais de 90% a quantidadede arquivos analisados manualmente por peritos criminais. Em aplicações deste tipo, é comum quea coleção de documentos contenha vocábulos de domínios e idiomas distintos, pois uma mesmainvestigação pode envolver organizações com atuações diferentes (como uma clínica médica e umórgão público) em diversos países. Pelo mesmo motivo, o requisito de independência do domínio e

1

1.2 MOTIVAÇÃO 2

idioma se mantém na extração de relações entre as entidades identicadas nesses documentos, jáque a natureza de uma relação depende da semântica que envolve as entidades. Por exemplo, é maisprovável encontrar um relacionamento entre médico e paciente em um prontuário hospitalar do queem documentos de um processo licitatório.

Os métodos tradicionais de ER não atendem aos novos requisitos oriundos da variedade lin-guística presente nesses dados, pois restringem as extrações a um conjunto nito de relações, comaplicabilidade limitada a determinados domínios e idiomas. Dessa maneira, expandir a coberturadesses métodos a domínios e idiomas diferentes implica na identicação manual de novas relaçõesespecícas, além de adaptações geralmente custosas, como adição de novos atributos em conjuntosde treinamento. Por conta disso, estudos recentes têm sido conduzidos com o intuito de extrair rela-ções semânticas com vocabulário não-limitado a partir de corpora em larga escala, caracterizando atarefa de Extração de Relações Abertas (do inglês, Open Relation Extraction [BE08]). Sendo assim,ao contrário dos métodos tradicionais, a ER Abertas pode revelar relacionamentos inesperados entreentidades contidas em texto não estruturado, já que a extração não é limitada por um conjuntopredenido de relações.

Um dos grandes desaos da ER Abertas consiste em mitigar a ambiguidade inerente à lingua-gem natural, responsável pelo excessivo número de extrações inválidas geradas pelos métodos atuaisque tratam desta tarefa. Uma extração é denida como inválida se for incoerente e/ou incompleta[MSB+12]. Quando a semântica do relacionamento entre as entidades, mesmo sendo completa, nãocondiz com a interpretação correta da sentença, a extração é dita incoerente. Já uma extração in-completa é caracterizada quando a interpretação da associação entre as entidades ca prejudicadapela ausência de termos que compõem a relação. De acordo com [ZAR03], a distinção automáticaentre sentenças válidas e inválidas pode ser modelada como um problema de classicação. Traba-lhos em [BE08], [WW10] e [FSE11] aplicam algoritmos de aprendizado de máquina sobre featureslinguísticas extraídas das sentenças para elevar a precisão de classicação das relações.

Uma das principais desvantagem dessas abordagens é a diculdade na seleção de features ade-quadas à tarefa. Além disso, o aprendizado baseado em features necessita de bases de treinamentorelativamente grandes para gerar resultados satisfatórios. Recursos deste tipo são comuns na LínguaInglesa, mas escassos ou inexistentes na maioria dos idiomas, incluindo o Português do Brasil. Como objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em idiomas que care-cem desses recursos linguísticos, é proposto um método para classicação de relações baseado emsimilaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicascontidas nas extrações, com a nalidade de identicar padrões de similaridade que permitam dis-tinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomorsmoem subgrafos. Dessa maneira, a principal vantagem obtida com o modelo proposto, em relação amodelos de classicação do estado da arte, consiste na redução do esforço de adaptação para extrairrelações abertas a partir de textos escritos em outros idiomas, através da substituição de conjuntosde treinamento baseados em features por conjuntos de exemplos com custo de construção inferior.

1.1 Motivação

A identicação de relacionamentos semânticos entre entidades tem aplicações em diversas áreas,tais como na construção automática de ontologias [AMS05] e sistemas de respostas a perguntas[HG01]. Em particular, extrair relações semânticas abertas é de fundamental importância para acomputação forense [EM11], já que permite encontrar automaticamente ligações entre entidadessuspeitas em grandes quantidades de documentos, de forma independente do domínio. Estas in-formações são de grande relevância, pois podem revelar, em um curto espaço de tempo, relaçõessuspeitas desconhecidas ou inesperadas dentro do contexto investigativo [EM11].

1.3 OBJETIVO 3

1.2 Objetivo

Uma das maiores diculdades da tarefa de ER Abertas consiste em diferenciar relações válidas einválidas, já que a ambiguidade inerente à linguagem natural compromete a qualidade dos métodosatuais. Diante disso, recursos linguísticos e abordagens cada vez mais sosticadas têm sido desen-volvidos para melhorar a classicação de relações abertas, tais como léxicos computacionais e basesde treinamento baseadas em features. Por outro lado, esses recursos e abordagens são construídoscom foco em idiomas especícos (sobretudo em Inglês), dicultando a aplicação da tarefa a textosescritos em outros idiomas, como por exemplo a Língua Portuguesa.

Nesse cenário, pretende-se minimizar uma limitação importante dos métodos de classicaçãobaseados em features, materializada no alto custo de geração de bases de treinamento adequadasà tarefa, ocasionada tanto pela necessidade de um número signicativo de instâncias, quanto peladiculdade na escolha de um conjunto representativo de atributos. Para tanto, é desenvolvido umalgoritmo de classicação de relações abertas baseado em similaridade de estruturas gramaticais,que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidadede identicar padrões de similaridade que permitam distinguir relações válidas e inválidas, atravésda aplicação de algoritmos de detecção de isomorsmo em subgrafos. Dessa maneira, pretende-seminimizar o esforço de classicação de relações abertas através da substituição de conjuntos detreinamento baseados em features por conjuntos de exemplos com custo de construção inferior, como objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas.

1.3 Contribuições

As principais contribuições obtidas com o presente trabalho são as seguintes:

• Analise experimental das diculdades inerentes à classicação baseada em features de treina-mento na tarefa de ER Abertas, com o objetivo de embasar novas soluções capazes de reduzira dependência do idioma nesta tarefa;

• Proposta de um modelo de extração e classicação de relações abertas voltado para o Portu-guês do Brasil, sendo a abordagem precursora na extração de relações semânticas de domínionão limitado da língua;

• Construção de uma abordagem de classicação de relações abertas capaz de reduzir o custo eelevar a taxa de acertos em relação às abordagens atuais baseadas em features. Esta abordagemde classicação engloba as seguintes propostas: a) modelagem das estruturas gramaticais dasrelações em grafos; b) desenvolvimento de algoritmos que permitem estimar a similaridadeentre os modelos gerados e c) desenvolvimento de um algoritmo de classicação baseado emsimilaridade de estruturas gramaticais.

• Validação da abordagem proposta em um corpus de textos jornalísticos escritos em Portuguêsdo Brasil. Embora tenha sido validada em um corpus redigido em uma língua especíca, asolução proposta pode ser incorporada mais facilmente a métodos de ER Abertas aplicadosa outros idiomas, uma vez que não utiliza léxicos ou outras bases de conhecimento de altocusto voltadas para idiomas especícos, apenas uma pequena base com exemplos de extraçõesmorfologicamente etiquetadas e classicadas;

• Análise experimental comparativa entre a abordagem proposta e os métodos de classicaçãoatuais baseados em features linguísticas;

• Disponibilização de um protótipo representativo do modelo de extração e classicação derelações abertas proposto, desenvolvido com o objetivo de possibilitar a realização dos expe-rimentos do presente trabalho. Esse protótipo contribuirá para a realização de futuros expe-rimentos, bem como poderá ser utilizado como linha de base para o desenvolvimento de um

1.3 CONTRIBUIÇÕES 4

framework de ER Abertas envolvendo outras tarefas de processamento linguístico associadasao problema, como a identicação de frases nominais e correferências.

1.3.1 Publicações

Algumas das principais contribuições desta dissertação, além de outros resultados intermediáriosou correlatos obtidos, foram publicados em workshops, simpósios e conferências da área. Estaspublicações são listadas a seguir:

• E. Souza and D. Claro. Evaluation of semantic similarity in wsd: An analysis to incorporateit into the association of terms. WebMedia'12, October 15-28, São Paulo/SP, Brazil, 2012[SC12]. Neste trabalho foi possível avaliar a aplicação da similaridade semântica em proble-mas de processamento linguístico, mais precisamente na desambiguação lexical de sentido(DLS). Este resultado parcial permitiu considerar uma possível incorporação da similaridadena extração de relações entre conceitos em documentos. Notou-se que a similaridade foi capazde exibilizar a tarefa de DLS, mas a dependência do idioma limitou a validação da propostaà Língua Inglesa, uma vez que a estrutura da WordNet1 [Fel98] serviu de base para estimara correlação entre conceitos.

• E. Souza e D. Claro. Detecção Multilíngue de Serviços Web Duplicados Baseada na Similari-dade Textual, SBSI'14, 27-30 de maio, Londrina/PR, Brasil, 2014 [SC14]. Diante da limitaçãoidenticada na solução do artigo anterior, estudos em métodos estatísticos foram conduzidospara viabilizar uma solução independente de idioma e domínio para o cálculo de similaridadeem textos. Os resultados obtidos neste trabalho viabilizaram a proposta de um modelo mul-tilíngue para agrupamento de serviços web similares, considerando apenas as descrições dosserviços em linguagem natural. O modelo foi testado com o método Latent Semantic Indexing(LSI), utilizando três medidas de similaridade em vetores de texto.

Adicionalmente, os trabalhos mais recentes desenvolvidos nesta pesquisa encontram-se em an-damento:

• E. Souza e D. Claro. Extração de Relações Semânticas utilizando Features Diferenciadas paraPortuguês do Brasil, submetido à 29a edição do Simpósio Brasileiro de Banco de Dados(SBBD), encontra-se em fase avaliação pelos revisores do evento. Este trabalho analisa asdiculdades da classicação baseada em features na extração de relações semânticas aber-tas em Português do Brasil, com o objetivo de embasar novas soluções capazes de reduzir adependência do idioma nesta tarefa.

• Diante da análise de técnicas de similaridade textual aplicadas a problemas de evolução desoftware, notou-se que os rankings gerados pelos métodos de processamento linguístico nadetecção de bug reports duplicados não eram avaliados de forma adequada pelos principaistrabalhos do estado da arte. Por conta disso, foi desenvolvido um estudo que resultou naescrita do artigo intitulado New Approach for the Evaluation of Techniques for the Detection ofDuplicate Bug Reports, que está em fase nal de revisão pelos autores e deverá ser submetidoao Journal of the American Society for Information Science and Technology. Neste artigoé proposta uma nova medida de avaliação para detecção de bug reports duplicados, quepoderá ser utilizada na avaliação de outros métodos de processamento linguístico geradoresde rankings.

• O último trabalho desenvolvido ao longo desta pesquisa de mestrado descreve os resultadosobtidos a partir da incorporação da similaridade de estruturas gramaticais na classicação

1A WordNet corresponde a uma taxonomia onde palavras na língua inglesa são relacionadas a um conjuntode sinônimos (synsets), classes gramaticais, sentidos possíveis e exemplos de utilização, que serve como base deconhecimento em diversas aplicações de processamento linguístico.

1.4 ORGANIZAÇÃO DO TRABALHO 5

de relações abertas, denominado Incorporation of Grammatical Structures Similarity in theOpen RE Classication Problem. Atualmente este artigo encontra-se em fase de revisão pelosautores e deverá ser submetido ao IEEE Transactions on Knowledge and Data Engineering.

1.4 Organização do Trabalho

O restante deste documento está estruturado como se segue.No Capítulo 2 é fornecida uma visão geral da Mineração de Textos, onde os principais conceitos

e componentes arquiteturais são descritos, com o objetivo de posicionar a tarefa de Extração deRelações nesta área de pesquisa.

O Capítulo 3 apresenta a tarefa de Extração de Relações e descreve dois tipos de categorizaçãocom base em diversos trabalhos pesquisados. Em seguida, uma categoria especíca desta tarefa,denominada Extração de Relações Abertas, é descrita com base nas principais soluções do estadoda arte. Por m, o problema de classicação de relações abertas, foco deste trabalho, é denido econtextualizado.

No Capítulo 4 são apresentados os conceitos e algoritmos relacionados ao cálculo de similaridadeem grafos, bem como suas principais características e limitações. Em seguida, são descritos algunstrabalhos que utilizam a similaridade em grafos como estimativa de correlação entre modelos naresolução de problemas em diversas áreas.

No Capítulo 5 é proposto um modelo para classicação de relações abertas baseado em similari-dade de estruturas gramaticais. Adicionalmente, são discutidos os principais problemas associadosao domínio da solução, tais como a natureza intratável dos algoritmos exatos de isomorsmo emsubgrafos e a inexistência de similaridade semântica entre strings de classes morfológicas da LínguaPortuguesa, necessárias para viabilizar o desenvolvimento das abordagens de similaridade propostas.

O Capítulo 6 trata da validação da proposta por meio de experimentos realizados em um con-junto representativo de dados. São delineados os métodos, ferramentas e recursos utilizados para aconstrução do protótipo que permite comparar o modelo proposto com abordagens de classicaçãode relações abertas do estado da arte, de acordo com a metodologia padrão descrita na literatura.

Por m, o Capítulo 7 apresenta as considerações nais deste trabalho, enfatizando os resultadosobtidos e as contribuições desta pesquisa para o cenário de EI brasileiro e internacional, além desugestões e apontamentos para trabalhos futuros.

Parte I

Fundamentação Teórica

6

Capítulo 2

Mineração de Textos

A evolução dos dispositivos de armazenamento e tráfego de dados digitais impulsionou a proli-feração de documentos disponíveis na Web, em redes corporativas, computadores pessoais, disposi-tivos móveis, dentre outros [WIZD05]. Entretanto, a despeito do crescimento no volume de textospublicados nos últimos anos, a capacidade humana de interpretar informações permanece cons-tante. Nesse sentido, tornar a linguagem natural intercambiável entre seres humanos e máquinasrepresenta um requisito cada vez mais necessário em aplicações de processamento linguístico. Emoutras palavras, ferramentas e métodos tem sido aplicados para extrair de textos não estruturadosinformações estruturadas com utilidades especícas.

O problema de fornecer informação interpretável a partir de dados não estruturados consisteem objeto de pesquisa da Mineração de Textos (MT). Em [FS07], a MT é denida como umprocesso intensivo de descoberta de conhecimento, no qual um usuário interage com uma coleçãode documentos através de um conjunto de ferramentas de análise. Assim, de forma semelhante àMineração de Dados (MD), a MT busca identicar informação útil a partir da exploração de padrõesrelevantes. A diferença básica entre a MT e a MD reside na natureza dos dados explorados. Enquantoa MD trabalha sobre dados estruturados, obtidos em formato canônico, geralmente em tabelas debancos de dados, a MT recebe como entrada coleções de documentos textuais não estruturados.

Por conta disso, os sistemas de MT necessitam preprocessar os documentos textuais e transformá-los para um formato estruturado intermediário. Para tanto, a MT explora técnicas e metodologiasem diversas áreas de linguística computacional, como Recuperação da Informação (RI), Processa-mento de Linguagem Natural (PLN) e Extração da Informação (EI).

A Extração de Relações (ER), foco principal deste trabalho, consiste em uma das tarefas de pré-processamento dependentes do problema, pertencentes à Extração da Informação (EI) [MRS08], cujoobjetivo é identicar relações semânticas entre conceitos em texto não estruturado. Este capítulotem como objetivo fornecer uma visão geral da MT, bem como posicionar a tarefa de ER nesta áreade pesquisa.

2.1 Arquitetura

A Figura 2.1 mostra a arquitetura de um sistema genérico de MT, dividido em quatro com-ponentes principais: (i) tarefas de pré-processamento, (ii) operações de mineração, (iii) técnicas derenamento e (iv) camada de apresentação.

Figura 2.1: Arquitetura de um sistema genérico de MT (modicado de [FS07]).

7

2.2 TAREFAS DE PRÉ-PROCESAMENTO 8

A etapa de pré-processamento inclui as rotinas que preparam os documentos para as tarefasde descoberta de conhecimento nos sistemas de MT, isto é, convertem os dados originais (textos nãoestruturados) em um formato canônico estruturado, através da identicação de conceitos (entidades)e seus relacionamentos. Em seguida, os dados transformados servem como entrada das operaçõesde mineração, responsáveis pela descoberta de padrões através dos algoritmos de aprendizadode máquina. Os padrões mais comuns obtidos na MT são as regras de associação, geradas a par-tir de limiares pré-denidos de suporte e conança, conforme a frequência de co-ocorrência entreos conceitos. Formalmente, o suporte de um conjunto X, representado por SUP (X), consiste nopercentual de documentos que incluem todos os elementos de X. Já a conança de uma regra dotipo X ⇒ Y é determinada pelo percentual dos documentos que satisfazem a regra no universo dosdocumentos que contêm X [FS07]:

CONF (X ⇒ Y ) =SUP (X ∪ Y )

SUP (X)(2.1)

Dessa forma, a descoberta de regras de associação consiste no problema de identicar todas asco-ocorrências que possuem suporte e conança superiores a limiares mínimos previamente estabe-lecidos. Como esses novos padrões podem conter informações redundantes, técnicas de rena-

mento, também conhecidas como pós-processamento, são utilizadas para ltrar os resultados, alémde ordenar e agrupar dados semelhantes, o que permite realizar otimizações na busca das informa-ções a partir de grandes repositórios de documentos. Por m, a camada de apresentação ofereceuma interface ao usuário, que inclui ferramentas de visualização e editores de consultas [WIZD05].

Para ilustrar as etapas da MT, supondo conjuntos de textos não estruturados relacionadosao domínio dos registros de ações terroristas, a etapa de pré-processamento pode ser utilizadapara identicar entidades mencionadas do tipo pessoa (PES) e organização (ORG). Em seguida,algoritmos de associação da etapa de mineração são aplicados para encontrar padrões, tais como:67% dos documentos que contém a entidade <PES>Osama Bin Laden</PES> também contém aentidade <ORG>Al Qaeda</ORG> e 12% de todos os documentos contém estas duas entidades.Diante disso, é gerada uma regra de associação do tipoOsama Bin Laden⇒ Al Qaeda, com conançade 67% e suporte de 12%. Em seguida, técnicas de renamento são utilizadas para eliminar regrasredundantes (como Bin Laden ⇒ Al Qaeda) e agrupar regras semelhantes (como Nassir Ali ⇒ AlQaeda), que podem ser visualizadas na camada de apresentação por meio de uma interface como usuário, permitindo a realização de consultas e modicação de parâmetros utilizados na geraçãodos padrões.

A seguir são descritas com mais detalhes as características do pré-procesamento da MT, etapaque contempla a tarefa de Extração de Relações (ER), objeto principal de estudo neste trabalho.

2.2 Tarefas de Pré-procesamento

O pré-processamento, que consiste na preparação do texto original para as operações de des-coberta de conhecimento, é tipicamente utilizado no agrupamento de documentos, segmentação desentenças, identicação de conceitos, relações e correferências em texto não estruturado. Na Figura2.2 é possível visualizar a taxonomia das tarefas de pré-processamento da MT, dividida em subtarefas que podem ser agrupadas em três classes: processamento preparatório, tarefas de PLN depropósito geral e tarefas dependentes do problema [LE11].


Figura 2.2: Pré-processamento na MT (modicado de [FS07]).

Devido à diversidade de formatos atualmente utilizados na publicação de documentos textuais,tais como pdf, doc, rtf e html, é necessário converter o documento-alvo do processamento para umformato inteligível às demais tarefas. Esta conversão é realizada no processamento preparatório,onde documentos em diferentes formatos são padronizados para um formato único mais aceito,como o xml. Em muitos casos, esse processo envolve a identicação de zonas textuais, como pará-grafos, colunas ou tabelas, além de campos que podem ser identicados através de sua posição nodocumento, como o título e autores do texto.

O Processamento de Linguagem Natural (PLN) de propósito geral inclui as tarefas de extraçãode tokens (tokenization), radicalização (stemming), etiquetação POS (Part-of-Speech), e análisesintática (syntactic parsing).

A extração de tokens transforma uma sentença em um vetor de termos, eliminando os sinais depontuação e caracteres especiais do texto. Apesar disso, existem termos obtidos nesse processo quesão comuns a qualquer contexto, ou seja, não são semanticamente signicativos, tais como artigos,preposições e verbos de ligação. Termos com pouca informação semântica agregada são denominadosstopwords e geralmente são eliminados do vetor, pois tendem a reduzir a capacidade dos métodosestatísticos de processamento linguístico em diferenciar contextos especícos, já que tais métodostrabalham com vetores de pesos baseados em frequência de palavras [EBP08].

Outra característica prejudicial aos métodos estatísticos decorre da derivação linguística refe-rente ao processo natural de formação das palavras. Um tratamento possível para este problemaconsiste em identicar um radical comum, dentre um conjunto de palavras derivadas, para a obten-ção da frequência adequada de determinado termo. Assim, supondo que as palavras casa, casarãoe casebre sejam encontradas em um documento, em certas aplicações é preferível que o peso doradical cas seja reforçado, ao invés de considerá-las como palavras distintas. A identicação deum radical comum em um conjunto de palavras é realizada pela tarefa de radicalização (stemming),cujas soluções mais populares são as baseadas em remoção de suxos, como o algoritmo de Porter[Por80]. Para tanto, é aplicada uma abordagem iterativa utilizando um pequeno número de suxose algumas regras sensíveis ao contexto.

A etiquetação POS realiza anotações morfológicas nas palavras com base no contexto em queelas aparecem no texto, provendo informações a respeito do conteúdo semântico de cada palavra.As anotações mais comuns realizadas pelos etiquetadores POS identicam artigos, substantivos,verbos, adjetivos, preposições, valores numéricos e nomes próprios. Já a análise sintática inclui aidenticação de dependências gramaticais nas sentenças, como as que existem entre o sujeito e oobjeto, ou entre o os adjetivos e os substantivos que eles modicam. As dependências são tipicamentemodeladas em um grafo acíclico dirigido (DAG - directed acyclic graph), com elementos sintáticos


representados por nós e suas dependências mapeados nas arestas [WF05].Essas tarefas de PLN são ditas de propósito geral porque suas saídas são úteis a vários problemas

de processamento linguístico. Por outro lado, existe um conjunto de tarefas que são dependentes doproblema, representadas pelas técnicas de Categorização de Textos (CT) e Extração da Informação(EI), ilustradas na subárvore mais à direita da Figura 2.2. A CT consiste em classicar documentosem um conjunto predenido de tópicos utilizando a informação semântica contida nesses docu-mentos. Considerando que a busca de documentos torna-se mais útil quando aplicada a grandescoleções, técnicas de indexação, armazenamento e recuperação dessas informações textuais são cadavez mais necessárias. Nesse cenário, sistemas de Recuperação da Informação (RI) correspondem aaplicações diretas da CT, já que são responsáveis pela construção de dicionários (indexação de tex-tos) e busca de documentos através das palavras-chave contidas nesses dicionários. Dessa maneira,quando as palavras-chave são vistas como categorias, a indexação de textos pode ser consideradauma instância do problema de CT.

Como os sistemas de RI apenas retornam os documentos com base em critérios de busca, aidenticação de informação relevante necessita de análise dos conteúdos presentes nesses documentospelos usuários. Esta análise pode ser realizada de forma automática através das tarefas de EI,responsáveis por identicar essa informação relevante e apresentá-la em um formato tabular.

A noção geral das áreas de RI e EI são descritas nos tópicos seguintes, bem como os métodosmais relevantes no contexto desta pesquisa.

2.2.1 Recuperação da Informação

A Recuperação da Informação (RI) reúne um conjunto de técnicas de armazenamento, indexaçãoe busca de documentos não estruturados contidos em repositórios de larga escala [MRS08]. Asprincipais técnicas de agrupamento de documentos em RI utilizam a hipótese estatística de quepalavras que aparecem juntas com frequência tendem a fazer parte de contextos semelhantes. Osprincipais métodos estatísticos utilizados no agrupamento de documentos similares são o VectorSpace Model (VSM) e o Latent Semantic Indexing (LSI).

O VSM dene um modelo de vetores de texto em um espaço multi-dimensional. Nesse modelo,cada dimensão do espaço corresponde a uma palavra e as posições dos vetores em relação às di-mensões dependem da frequência das palavras no texto [TP10]. Dessa forma, a similaridade entredois textos é medida pela distância entre os respectivos vetores no espaço. A Figura 2.3 mostra arepresentação gráca de vetores de texto em um espaço n-dimensional.

Figura 2.3: Representação textual no VSM [TP10].

A distribuição linear de frequências nas dimensões, dada pela simples contagem de ocorrências,


pode reetir uma atribuição de pesos inadequada às palavras. De fato, supondo que a palavraw1 apareça três vezes em um documento D e a palavra w2 apareça apenas uma vez, é provávelque w1 seja semanticamente mais importante que w2 em D, mas não será necessariamente trêsvezes mais importante. Portanto, realizar uma ponderação na frequência das palavras representaum requisito em certas aplicações de PLN. Uma abordagem de ponderação que vem apresentandobons resultados em diversos trabalhos é denominada TF-IDF (Term Frequency - Inverse DocumentFrequency) [LPD12]. A TF-IDF combina a frequência com a quantidade de documentos que contémo termo. Mais precisamente, o peso pi de uma palavra wi é dado por:

pi = tfi × idfi (2.2)

Na equação acima, tfi indica a quantidade de vezes que a palavra wi aparece em D e idfi =log(DT /Dwi), onde DT representa o número total de documentos e Dwi o número de documentosque contém wi. Dessa maneira, a ponderação TF-IDF denota que a importância de um termo éinversamente proporcional à quantidade de documentos que o contém, ou seja, palavras comunstendem a ter pouca relevância semântica.

Após a transformação de documentos em vetores, é necessário utilizar algum método paraestimar a similaridade entre eles. Uma medida de similaridade bastante difundida na literaturautiliza o cosseno do ângulo entre os vetores no espaço como medida de distância. Assim, sejam doisvetores de palavras v1 = (w11, w12, ..., w1n) e v2 = (w21, w22, ..., w2n) e seus respectivos vetores depesos P1 = (p11, p12, ..., p1n) e P2 = (p21, p22, ..., p2n), a similaridade entre v1 e v2 é dada por:

SIM(v1, v2) =

∑ni=1 p1,ip2,i√

(∑n

i=1 p1,i)2 × (

∑ni=1 p2,i)

2(2.3)

É possível perceber que a similaridade entre dois vetores no VSM será sempre zero quando ostextos não contiverem palavras comuns, pois v1 ∩ v2 = ∅ ⇒ v1 ⊥ v2. Esta característica faz comque o VSM ignore a similaridade entre documentos que não possuam termos idênticos em comum,mesmo que sejam semanticamente correlatos. Tal deciência é tratada no método LSI, a partir doqual o cálculo de similaridade entre documentos é exibilizado.

O LSI utiliza a estrutura semântica das associações entre termos e documentos, com o objetivode agrupar documentos relevantes a partir de termos contidos em consultas [DDF+90]. Para tanto,utiliza a técnica Singular Value Decomposition (SVD) para decompor a matriz de frequências dostermos nos documentos em um conjunto de fatores ortogonais, a partir dos quais a matriz originalpode ser aproximada por uma combinação linear.

O objetivo dessa abordagem é minimizar a deciência da busca de documentos por palavras-chave, tratando a ambiguidade da associação entre termos como um problema estatístico. Segundoautores em [Bak62], existe uma estrutura semântica latente nos dados, que permanece parcialmenteoculta na forma aleatória de disposição das palavras em um texto. Nesse sentido, o LSI utiliza téc-nicas estatísticas para estimar essa estrutura latente e reduzir os ruídos causados pela ambiguidadeconceitual.

Inicialmente, é construída uma matriz de frequência Am,n entre termos e documentos, ondecada coluna representa um documento e cada linha contém um termo existente em pelo menos doisdocumentos. Em seguida é aplicada uma decomposição linear na matriz original, resultando emtrês matrizes linearmente independentes: Am,n = Um,r ×Σr,r × V T

r,n, onde T representa a matriz determos, D a matriz de documentos e S a matriz diagonal de valores singulares (Figura 2.4).


Figura 2.4: Decomposição de matrizes com SVD [LPD12].

O SVD gera um modelo aproximado da matriz original contendo dimensões menores, onde assimilaridades termo a termo, documento a documento, e termo a documento são aproximadas pelosvalores das matrizes com número reduzido de dimensões. Esses valores podem ser representadosgeometricamente por uma conguração espacial, na qual o cosseno entre os vetores que representamdois objetos (como um termo e um documento) correspondem a sua similaridade estimada. A Figura2.5 mostra um exemplo de representação geométrica de um modelo com 12 termos e 9 documentosdivididos por assunto (ci e mj) retirado de [DDF+90]. Os termos são representados por círculospreenchidos e os documentos por retângulos vazados. Os termos pertencentes a um documento estãoentre parênteses. Assim, a representação indica que, por exemplo, o documento c4 possui os termos1, 5 e 8.

Figura 2.5: Representação geométrica de um modelo SVD [DDF+90].

Nesse estudo de caso é executada uma consulta para agrupar documentos que tratam de deter-minado assunto, representada no gráco como um pseudo-documento q contendo os termos 1 e 3.Além de agrupar os documentos pela semântica da consulta, o modelo gerado identica documentosrelacionados que não contém os termos pesquisados, tais como c3 e c5, mas que são semanticamentesignicativos para a consulta. Um exemplo de aplicação desta característica é encontrado em [SC14],onde serviços web duplicados são detectados na ausência de termos comuns com os respectivos ser-viços principais.


Conjunto Inglês Português

S1 calculate saudi shippingprices

calcula os preços sauditasde envio

D11 calculate arab travel va-lues

calcula valores árabes detransporte

D12 arab travel values valores árabes de trans-porte

... ... ...Sn sends an SMS message to a

mobile phoneenvia uma mensagem SMSpara um telefone móvel

Dn1 invite an SMS text to amobile cellphone

manda um texto SMS paraum celular móvel

Dn2 invite an SMS text to acellphone

manda um texto SMS paraum celular

Tabela 2.1: Descrições de serviços duplicados

Nos serviços WEB da Tabela 2.1, Di1 representa as descrições de duplicatas que contêm palavrassignicativas1 comuns com o serviço principal (Si). Já em Di2, encontram-se os serviços duplicadossem palavras signicativas comuns com o serviço principal. Assim, Ω(Si∩Di1) 6= ∅ e Ω(Si∩Di2) = ∅,sendo Ω(T ) uma função que retorna os termos signicativos de uma sentença T. Os resultados em[SC14] mostram que aproximadamente 20% dos serviços duplicados do conjunto Di2 são detectadospelo LSI, enquanto outros métodos estatísticos de RI são incapazes de identicá-los.

2.2.2 Extração da Informação

Um desao importante na área de linguística computacional consiste em tornar a linguagemhumana interpretável às máquinas, possibilitando análises de padrões e tendências de forma auto-mática. Como exemplo, se a análise de uma coleção de jornais e revistas europeias detectar constanteredução na quantidade de documentos que fazem referência às entidades Bahia e carnaval, issopode indicar uma redução do número de turistas europeus no carnaval da Bahia. Nesse contexto,técnicas de Extração da Informação (EI) são de fundamental importância, pois tratam da inferênciade etiquetas semânticas em documentos textuais originalmente desestruturados [And00].

Conforme ilustrado na Figura 2.2, a EI atua na etapa de pré-processamento da MT, mais especi-camente como representante de tarefas dependentes do problema, dedicadas a extrair informaçõesespecícas de textos não estruturados, como os nomes das entidades neles contidos e as possíveisrelações existentes entre esses nomes [MSB+12].

O objetivo principal dos sistemas de EI é a predição, isto é, dado um conjunto de treinamentoe um conjunto de teste, o objetivo é propor uma predição de rótulos de sequências textuais para oconjunto de teste com base no conjunto de treinamento, de forma a identicar e classicar automa-ticamente as informações especícas contidas nesse conjunto [Car08]. Desse modo, transforma-se otexto não estruturado em informação estruturada, que pode ser representada em formato tabular(Figura 2.6).

1Palavras signicativas são os termos obtidos a partir de uma sentença após a remoção de stopwords.


Figura 2.6: Representação de informações extraídas de um texto não estruturado [DC11].

No exemplo da Figura 2.6, um conjunto de informações é extraído a partir de um texto, taiscomo nomes de pessoas e relações de parentesco (liação) entre elas. Embora estejam agrupadasna planilha do exemplo, as informações são obtidas por tarefas distintas de EI. Mais precisamente,as relações de liação entre as pessoas no texto são identicadas na tarefa de Extração de Relações(ER). Por outro lado, as demais informações da planilha (nome, telefone, endereço, prossão esalário) são obtidas pela tarefa de Reconhecimento de Entidades Mencionadas (REM).

O objetivo do REM é identicar e classicar os nomes das entidades mencionadas (EM) contidasem documentos [SS04]. Dentre os tipos de EM possíveis, existem as genéricas e as especícas. Asentidades genéricas podem ser encontradas em qualquer domínio, como pessoa <PES>, organização<ORG>, local <LOC>, tempo <TPO> e valor monetário <VAL>. Já as entidades especícasdependem do domínio em que estão inseridas, como por exemplo suspeito e crime na computaçãoforense. A Figura 2.7 ilustra a identicação de entidades genéricas em um segmento de texto.

Figura 2.7: Exemplo de REM [DC11].

Uma das principais diculdades no REM consiste em tratar a ambiguidade lexical das entidades[Vap98]. No exemplo anterior, é possível notar que a entidade São Paulo representa um local, masem outros contextos pode signicar um clube de futebol ou uma pessoa. Nesse sentido, a tarefa deREM é caracterizada como um problema de classicação, cujo objetivo é atribuir para cada termoda sentença uma classe, identicada por um nome de entidade mencionada.

Outra tarefa de EI que vem sendo cada vez mais estudada e aplicada é a Extração de Relações(ER) entre entidades mencionadas. Em [LSST+02], uma relação é denida a partir de uma tuplana forma t = (e1, r1, e2, r2, e3, r3, ..., en−1, rn−1, en), onde r1, r2, ..., rn−1 constituem relações entreas entidades (e1, e2), (e2, e3), ..., (en−1, en), respectivamente. A maioria das soluções tem foco naextração de relações binárias do tipo t = (e1, r, e2), como por exemplo (João, estuda em, UFBA),que indica a relação semântica entre uma pessoa e uma organização.

Assim como no REM, a ER também pode ser tratada como um problema de classicação, ondea uma relação especíca são atribuídos valores de pertinência, que indicam se a relação existe ounão entre as entidades de uma dada sentença. Considerando a importância da ER no contexto destadissertação, o próximo capítulo é dedicado a uma análise mais detalhada desta tarefa.

Capítulo 3

Extração de Relações

A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) que pode ser denidacomo a descoberta de relações de signicado, normalmente binárias, explícitas ou implícitas, entreentidades mencionadas contidas em documentos não estruturados [FS07]. A ER tem aplicaçõesem diversas áreas, tais como na construção automática de ontologias e léxicos computacionais, emsistemas de respostas a perguntas e na computação forense.

As ontologias representam o conhecimento em um domínio especíco através de conjuntos deconceitos e seus relacionamentos [AMS05]. Para que este modelo seja minimamente representa-tivo, é necessário populá-lo com um grande número de instâncias obtidas em diversas fontes dedados, inclusive em documentos textuais. Por conta disso, popular ontologias manualmente é con-siderada uma tarefa altamente dispendiosa, o que torna necessária a extração automática dessasinformações. Quando as fontes de dados são textos não estruturados, a identicação automáticados relacionamentos entre os conceitos pode ser realizada através da ER.

Outra aplicação do conhecimento gerado na tarefa de ER é exemplicada nos sistemas de res-postas a perguntas [HG01]. Perguntas especícas têm sido cada vez mais frequentes nas stringspesquisadas nos motores de busca da Internet, tais como Onde nasceu Nelson Mandela?, quepode ser respondida através da relação (Nelson Mandela, nascido em, ?). Em síntese, as questõessão feitas em linguagem natural e o sistema busca automaticamente a resposta mais provável, quecorresponde a um dos argumentos de uma relação extraída.

O objetivo deste capítulo é conceituar, apresentar uma categorização e analisar os principaistrabalhos referentes à tarefa de ER. Adicionalmente, uma classe mais especíca desta tarefa, deno-minada Extração de Relações Abertas, que contém o problema alvo desta dissertação, é denida eposicionada no estado da arte.

3.1 Classicações

Embora não exista uma categorização clara dos métodos de ER, é possível agrupá-los a partirdos principais trabalhos apresentados na literatura. Neste seção são descritas duas classicações nãomutualmente exclusivas na tarefa de ER: i) Por técnica aplicada; ii) Por tipo de relação extraída.

3.1.1 Classicação por Técnica Aplicada

A classicação mais genérica dos métodos de ER distingue as abordagens baseadas em padrõestextuais das que utilizam aprendizado de máquina [TC12]. A seguir é feita uma breve descrição dasprincipais características de cada tipo de método.

i. Padrões Textuais

Os métodos de padrões textuais extraem relações utilizando regras formadas por expressõesregulares contendo termos especícos. Um exemplo deste tipo de regra, que pode ser encontrado

15

3.1 CLASSIFICAÇÕES 16

em [Hea92], é dado por:

NP1, especially NP2, NP3... or|and NPn (3.1)

Sendo NPk as frases nominais identicadas nas sentenças.Com este padrão é possível extrair relações de hiponímia do tipo is-a(NPi, NP1), com i ∈

2, 3, ..., n. Tomando como exemplo a frase most countries, especially France, England and Spain(a maioria dos países, especialmente Franca, Inglaterra e Espanha), a aplicação da regra permiteextrair as seguintes relações: is-a(France, country), is-a(England, country) e is-a(Spain, country).

É possível elencar uma série de deciências e limitações nos métodos baseados em padrõestextuais. Primeiro, a especicidade das regras resulta em alta precisão, mas baixa cobertura [YB09],dada a diculdade inerente ao mapeamento de todas as construções linguísticas possíveis de umidioma, considerando inclusive suas variações ao longo do tempo. Segundo, devido à ambiguidadecaracterística da linguagem natural, certos padrões podem ser associados a diversos tipos de relações,tornando inviável a identicação de todas as possibilidades [GBR+10]. Por conta disso, a criaçãode uma base representativa de regras para esse tipo de método consiste em uma tarefa altamentedispendiosa, já que cada regra necessita de um tratamento especíco.

Trabalhos posteriores apresentaram resultados mais efetivos em termos de precisão e cobertura,através de técnicas de aprendizado de máquina.

ii. Aprendizado de Máquina

As abordagens baseadas em aprendizado de máquina selecionam atributos (features1) a partirde um conjunto de treinamento, a m de determinar se existe uma relação entre as entidades de umanova instância [Kam04]. Mais precisamente, dada uma sentença S = w1, w2, ..., e1, ..., wj , ..., e2, ...wn,onde e1 e e2 são entidades, uma função de mapeamento f é denida por:

fR(Θ(S)) =

+1, se existe R entre e1 e e2,

−1, caso contrário(3.2)

Onde Θ(S) constitui o conjunto de features extraídas de S e R representa a relação semânticaavaliada. Assim, a Equação 3.2 decide se existe uma relação semântica R entre as entidades e1 e e2.

Além das soluções baseadas em features, existem trabalhos que utilizam uma generalização dasimilaridade de subsequências de strings (string-kernels [ZAR03]) para a realização de treinamentos.Considerando duas strings x e y, a similaridade K(x, y) em string-kernels é calculada em funçãodo número de subsequências que são comuns a ambas. Ou seja, quanto maior a quantidade desubsequências comuns entre x e y, maior a similaridade entre elas.

Partindo deste princípio, sendo A e B exemplos de sentenças com relação positiva e negativaentre duas entidades, respectivamente, no conjunto de treinamento, a função de similaridade queindica a classe de uma instância de teste T é calculada com base na seguinte equação:

fR(K) =

+1, se K(SA

+, ST ) > K(SB−, ST ),

−1, caso contrário(3.3)

Onde SA+, SB− e ST representam os respectivos conjuntos constituídos pelos termos que cercamas entidades nas sentenças A, B e T. Como exemplo, considerando a sentença O campus da UFBAestá situado em Ondina, as palavras campus e situado indicam uma relação do tipo localidade entreas entidades UFBA e Ondina, cujas similaridades com os termos que cercam entidades em outrassentenças podem ser utilizadas para extrair delas o mesmo tipo de relação. Em geral, a Equação 3.3é utilizada como função de similaridade em classicadores discriminativos nesta tarefa, tais comoPerceptron [NR13] e Support Vector Machines (SVM) [Vap98]. A classicação dos métodos de ERconsiderando a técnica aplicada é ilustrada na Figura 3.1.

1As features representam propriedades léxicas, sintáticas ou semânticas dos termos de uma sentença. Exemplosde features são as classes morfológicas dos termos e o número de palavras entre as entidades de uma frase.

3.1 CLASSIFICAÇÕES 17

Figura 3.1: Classicação por tipo de método.

Quanto ao treinamento nas técnicas de aprendizado de máquina aplicadas à tarefa de ER, é pos-sível distinguir três tipos de métodos: supervisionados, semi-supervisionados e auto-supervisionados(self-supervised) [BM05b]. Os métodos supervisionados operam sobre um conjunto de treinamentopreviamente etiquetado. Já os semi-supervisionados geram um conjunto de treinamento, de formaautomática, a partir de um número reduzido de instâncias etiquetadas manualmente. Por m, nosmétodos auto-supervisionados todo o conjunto de treinamento é construído de forma automática.

Uma avaliação do estado da arte permite distinguir os métodos de ER não apenas pela aborda-gem aplicada, mas também pelo tipo de relação extraída.

3.1.2 Classicação por Tipo de Relação Extraída

A semântica das relações extraídas varia bastante nos trabalhos de ER. Entretanto, é possívelidenticar dois tipos de métodos: os que extraem relações especícas e os que extraem relaçõesabertas. Um esquema que ilustra esta classicação é mostrado na Figura 3.2.

Figura 3.2: Classicação por tipo de relação.

i. Relações Especícas

Na extração de relações especícas, um domínio nito de relações semânticas é denido para atarefa de ER. Assim, todos os relacionamentos possíveis são predenidos (Tabela 3.1).

3.2 EXTRAÇÃO DE RELAÇÕES ABERTAS 18

Relação Exemplo de Sentença Extraçãolocation-of(algo/alguém,local)

Um aluno pode ser en-contrado na escola

location-of(aluno,escola)

is-a(subclasse, su-perclasse)

Salvador é uma cidade is-a(Salvador, ci-dade)

part-of(todo,parte)

Roda é parte de umcarro

part-of(roda,carro)

Tabela 3.1: Exemplos de relações especícas

A principal desvantagem dessa abordagem consiste na limitação da extração a um universo espe-cíco. Dessa forma, muitas relações semânticas importantes presentes no texto não são identicadaspor não pertencerem ao domínio denido.

ii. Relações Abertas

A descoberta de relações sem restrição de domínio representa um requisito essencial em diversasaplicações de EI. Por conta disso, pesquisas têm sido conduzidas no sentido de identicar relações devocabulário não-limitado, caracterizando a Extração de Relações Abertas (do inglês, Open RelationExtraction) [BE08].

Como a categorização apresentada não é mutualmente exclusiva, os métodos de ER se enqua-dram em ambos os tipos de classicação, sendo possível identicar certas associações entre eles. Porexemplo, todas as abordagens de padrões textuais necessariamente extraem relações especícas.Por outro lado, existem abordagens de aprendizado de máquina utilizadas tanto na extração derelações especícas, quanto na extração de relações abertas. Nos métodos de extração de relaçõesabertas investigados neste trabalho, as extrações são identicadas através de padrões morfológicose classicadas utilizando aprendizado supervisionado.

Na próxima seção são descritos os conceitos e trabalhos referentes à tarefa de ER Abertas, apartir da qual é denido o problema de classicação tratado no presente trabalho.

3.2 Extração de Relações Abertas

A limitação de escopo das relações especícas diculta a aplicação da tarefa de ER a áreas quedependem do processamento linguístico multidomínio, como a análise de documentos na computaçãoforense [EM11]. Segundo [DC11], a inclusão digital associada à popularização da Internet resultouem crescimento da prática de crimes praticados por computador ou com o auxílio deste. Além disso,o aumento da capacidade de armazenamento e a diminuição do custo de aquisição de mídias digitaisresultou em crescimento do volume de textos forenses, isto é, textos de arquivos contidos em mídiasapreendidas em operações policiais.

Os textos forenses podem se enquadrar em diferentes gêneros textuais, desde um contrato formalde licitação pública contendo diversos termos jurídicos, até uma conversa informal por aplicativode bate-papo, composta por neologismos e regionalismos encontrados na linguagem falada, sendo,portanto, caracterizados como textos de domínio irrestrito [EM11]. Por conta disso, o escopo dasrelações extraídas em textos forenses não deve ser limitado, pois acarretaria perdas signicativasde informação.

Estudos recentes tem sido desenvolvidos com o intuito de contornar as limitações dos métodostradicionais de ER, que restringem as extrações a um conjunto nito de relações, com aplicabilidadeespecíca a determinados domínios. Nesse contexto, a extração de relações abertas, derivada daOpen Information Extraction (Open IE) [BE08], consiste na tarefa de extrair relações semânticascom vocabulário não-limitado a partir de corpora em larga escala. Entretanto, a quantidade de


extrações inválidas ainda é muito grande nos métodos atuais que tratam desta tarefa. A Tabela 3.2mostra exemplos de extrações inválidas geradas por esses métodos.

Sentença Extração InválidaDepois de a defesa doCriciúma rebater, Maurinhochutou e marcou.

(Defesa do Criciúma, rebater,Maurinho)

A estrela símbolo do PTvai emoldurar com destaqueo cenário dos programas docandidato Luiz Inácio Lula daSilva.

(PT, vai emoldurar com, LuizInácio Lula da Silva)

Tabela 3.2: Exemplos de extrações inválidas

Uma extração é dita inválida quando é incoerente e/ou incompleta. Intuitivamente, uma extraçãoincoerente ocorre quando a semântica do relacionamento entre as entidades, mesmo sendo completa,não condiz com a interpretação correta da sentença. A primeira linha da Tabela 3.2 mostra umexemplo de extração incoerente, já que a entidade Defesa do Criciúma rebate um objeto que estáoculto na frase (a bola), e não a entidade Maurinho. Já na segunda linha, vai emoldurar com nãodenota uma relação com sentido completo entre as entidades PT e Luiz Inácio Lula da Silva.

As abordagens precursoras de ER Abertas obtém extratos na forma (e1, frase relacional, e2)em três etapas [FSE11]:

1. Etiquetação: As sentenças são etiquetadas automaticamente através de heurísticas ou apartir de supervisão distante (treinamento semi-supervisionado);

2. Aprendizado: Um extrator de frases relacionais é treinado utilizando um modelo de etique-tação sequencial de aprendizado estatístico (e.g. CRF);

3. Extração: Um conjunto de argumentos (e1, e2) é identicado na sentença de teste. Emseguida, o extrator treinado na etapa 2 é utilizado para etiquetar as palavras contidas entreos argumentos e compor a frase relacional (caso ela exista), extraindo a relação no formato(e1, frase relacional, e2).

Uma das desvantagens dessas abordagens reside no fato de que a etiquetação precisa ser realizadaem uma quantidade muito grande de sentenças (na ordem de centenas de milhares) para que a etapade aprendizado seja efetiva. Isto implica em alto custo de construção dos conjuntos de treinamento,além da demanda de recursos linguísticos sosticados para viabilizar a etiquetação automática,dicilmente encontrados na maioria dos idiomas. Além disso, o método de extração por etiquetaçãosequencial é pouco ecaz em sentenças maiores, pois há um aumento da incerteza na associação decada etiqueta a uma palavra à medida que a sequência cresce.

Abordagens mais recentes tem sido desenvolvidas para contornar algumas dessas limitações, pormeio de modicações na metodologia e, consequentemente, nas estratégias adotadas nas etapas deextração, conforme procedimento descrito abaixo:

1. Extração: Inicialmente, um extrator baseados em padrões linguísticos (e.g. padrões morfoló-gicos) seleciona uma sequência de palavras que representa a relação semântica entre e1 e e2,identicando frases relacionais que casam com esses padrões. Em seguida, se um conjunto deargumentos (e1, e2) for identicado na sentença de teste, então é gerada a relação na forma(e1, frase relacional, e2);

2. Aprendizado: Um classicador de extrações é treinado por meio de um conjunto de featureslinguísticas;


3. Classicação: O classicador treinado na etapa 2 é utilizado para distinguir as relaçõesválidas das inválidas geradas na etapa 1.

Essas novas abordagens substituem o aprendizado na etapa de extração pelo processamento deregras baseadas em padrões morfológicos. Em seguida, um classicador é utilizado na remoção dasrelações inválidas do conjunto que contém todas as relações extraídas. Esta metodologia permiteuma redução signicativa na cardinalidade do conjunto de treinamento, já que a complexidade doaprendizado para classicação das relações é inferior à do aprendizado para a identicação dasrelações. Por outro lado, a construção de conjuntos de treinamento a partir de features linguísticaseleva o custo de classicação, pois a identicação de features representativas requer uma análisemais aprofundada das características da língua no contexto do problema.

A seguir são descritas em mais detalhes as características dos principais métodos de ER Abertasdo estado da arte.

3.2.1 O Estado da Arte

Na abordagem precursora de ER Abertas, denominada TextRunner [BJCS+01], a extração érealizada com auxílio de um classicador Bayesiano, treinado a partir de features obtidas por eti-quetação POS (Part-Of-Speech Tagger2) e identicação de frases nominais (NP-Chunk3).

Autores em [BE08] observaram melhorias na etapa de extração ao substituírem os classicado-res Bayesianos pelos modelos probabilísticos de etiquetação sequencial Conditional Random Field(CRF) [LMP01] e Markov Logic Networks [ZNL+09]. Entretanto, a incerteza inerente à associaçãode cada palavra da sentença à determinada etiqueta eleva a probabilidade de identicar relaçõesinválidas, característica que prejudicou a qualidade das extrações em sentenças maiores nesta solu-ção.

Em seguida, resultados obtidos em [WW10] com a ferramenta WOE mostram que featuresbaseadas em dependência sintática aumentam a precisão e cobertura da extração em relação àsobtidas com etiquetação POS. No entanto, a identicação das dependências sintáticas nas sentençaseleva consideravelmente o custo do algoritmo de extração, tornando proibitiva a aplicação destaabordagem a corpora em larga escala.

Os trabalhos mais recentes extraem relações abertas a partir de padrões morfológicos ([SFN04],[SM06] e [EN08]), sendo o Reverb [FSE11] a abordagem que apresenta os melhores resultados dacategoria. Nesta técnica, os autores utilizam a observação descrita em [BE08] de que um conjuntopequeno de etiquetas POS é suciente para representar muitos tipos de relações em Inglês. Dessaforma, ao invés de identicar todas as dependências sintáticas da sentença, aplicam apenas etique-tação POS para tornar o algoritmo de extração mais eciente.

A extração no Reverb utiliza dois tipos de restrição: sintática e léxica. Na restrição sintática,o método verica se a sequência de classes morfológicas da sentença segue um padrão denidopor uma expressão regular. A Figura 3.3 mostra a expressão utilizada na identicação de padrõesmorfológicos no Reverb.

Figura 3.3: Restrição sintática no Reverb [FSE11].

O padrão permite extrair relações constituídas apenas por um verbo (e.g., made/construiu),um verbo seguido por uma preposição (e.g., located on/localizado em), ou um verbo seguido por

2Etiquetadores POS são ferramentas que realizam a etiquetação morfossintática das palavras de uma sentença.3Noun Phrase Chunk envolve o reconhecimento de segmentos de texto que correspondem a frases nominais.


substantivos, adjetivos, advérbios, pronomes ou determinantes, terminando com uma preposição(e.g., conducted raids in/realizou incursões em). Com isso, é possível reduzir o número de extra-ções incompletas em relação a abordagens predecessoras. Por exemplo, na frase PT made a dealwith Marcos Valério (O PT fez um acordo com Marcos Valério), as soluções anteriores (como oTextRunner) tendem a extrair a relação (PT, made, a deal). Já o Reverb consegue identicar arelação semântica completa made a deal with por meio da restrição sintática, gerando o extrato(PT, made a deal with, Marcos Valério).

Por outro lado, a restrição sintática não evita extrações muito especícas e, portanto, poucorepresentativas. De fato, dada a sentença President Dilma Rousse has been spied three months agoby the U.S. Secret Service (A presidente Dilma Rousse vem sendo espionada há três meses peloServiço Secreto Americano), a frase relacional extraída (has been spied three months ago by/vemsendo espionada há três meses pelo) é considerada prolixa. Relações deste tipo são eliminadasatravés da restrição léxica.

A restrição léxica é baseada na intuição de que uma relação válida deve ser encontrada em váriasinstâncias de um corpus extenso. Assim, quando uma relação não é identicada no corpus, ela éconsiderada muito especíca para compor uma extração.

Dessa maneira, o algoritmo de extração do Reverb recebe como entrada uma sentença s etique-tada morfologicamente e retorna a tripla (x, r, y) em duas etapas:

1. Extração de Relações: Para cada verbo v em s, encontre a sequência mais longa de palavrasrv, tal que (i) rv comece em v, (ii) rv satisfaça a restrição sintática, e (iii) rv satisfaça a restriçãoléxica.

2. Extração de Argumentos: Para cada relação r identicada no passo 1, encontre a frasenominal x mais próxima de r à esquerda e a frase nominal y mais próxima de r à direita. Seo par (x, y) for encontrado, retorne a extração (x, r, y).

Segundo [FSE11], é possível identicar grande parte das relações binárias em Inglês a partir dasrestrições sintática e léxica, resultando em uma cobertura de aproximadamente 85%. Exemplos desituações nas quais a relação semântica não é identicada a partir das restrições do Reverb são:

• Frases com estruturas não-contíguas: phrasal verbs, como em X turned Y o (X desligouY);

• Sentenças com relações que não estão entre os argumentos: frases introdutórias, tais comoDiscovered by X and Y (Descoberto por X e Y);

• Estruturas com padrões morfológicos não-mapeados: innitivos do tipo X to atack Y (Xatacar Y).

Após a aplicação do algoritmo de extração, um conjunto de relações abertas entre entidadescontidas em frases nominais são encontradas em documentos não estruturados. Entretanto, a am-biguidade inerente à linguagem natural faz com que grande parte desse conjunto seja composto porextrações incoerentes e incompletas, tornando necessária a classicação das relações abertas.

3.2.2 O Problema de Classicação de Relações Abertas

Apesar de apresentar alta cobertura, a extração com base em padrões morfológicos possui baixaprecisão, ou seja, grande parte das extrações é constituída por relações inválidas. Por conta disso,todas as abordagens predecessoras de ER Abertas pesquisadas utilizam técnicas de aprendizado demáquina baseado em features para melhorar a precisão das extrações. Em geral, classicadores deregressão logística são utilizados para associar um valor de conança a cada extração, viabilizandoa distinção entre relações válidas e inválidas.

É possível elencar uma série de desaos relativos à classicação de relações abertas nos métodosatuais. Primeiro, a escolha do conjunto de features na fase de treinamento varia bastante entre os

3.3 TRABALHOS EM LÍNGUA PORTUGUESA 22

trabalhos. Esta variação é consequência da diculdade inerente à identicação de features adequadasa determinado conjunto de documentos em problemas especícos de EI [FS07]. Além disso, a fasede treinamento requer um número considerável de sentenças etiquetadas, geralmente produzidascom auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, masinexistentes na maioria dos idiomas. Dessa maneira, o custo associado à identicação das featuresmais representativas para a construção de bases de treinamento tem dicultado a aplicação da tarefade ER Abertas a textos redigidos em outros idiomas, incluindo a Língua Portuguesa.

3.3 Trabalhos em Língua Portuguesa

Os trabalhos descritos nas seções anteriores extraem relações utilizando o Inglês como idioma-alvo. Nesta seção são expostas as principais características dos poucos trabalhos desenvolvidos emLíngua Portuguesa. Considerando o Português do Brasil, as pesquisas na tarefa de Extração deRelações são ainda mais raras, sendo que todas as abordagens encontradas tem foco na extração derelações especícas.

Em [FQ07], é proposta uma adaptação dos padrões de Hearst [Hea92] para o Português do Brasil,por meio da tradução dos padrões existentes e inclusão de novos. Exemplos de padrões adaptadossão such as (traduzido para tais como) e (and/or) others (e outros). Além desses, novos padrõesforam incluídos a partir da análise de um corpus composto por textos sobre saúde pública, etiquetadomorfologicamente pelo parser PALAVRAS [Bic00], conforme as expressões regulares abaixo:

• tipos de NP1 : NP2, NP3... e|ou NPn

• NP1 chamad (o|a|os|as) de NP2

Nesta solução, tratamentos especícos são realizados nas expressões regulares para reduzir algunsproblemas ocasionados pela ambiguidade das palavras contidas nas expressões adaptadas para aLíngua Portuguesa. Por exemplo, o padrão tais como é comumente reduzido à palavra denotativacomo em textos escritos em Português, que pode pertencer às seguintes classes morfológicas:conjunção, pronome relativo, substantivo, advérbio interrogativo, advérbio de modo, interjeição epreposição. A despeito disso, o único sentido da palavra como que deve ser reconhecido peloreferido padrão é o equivalente a por exemplo (pronome relativo).

Os autores reportaram um índice de 73,4% de relações corretas dentre as 436 selecionadas paraavaliação manual. Entretanto, não foi medida a precisão e cobertura do método em relação a todasas relações contidas no corpus, dicultando a comparação com outras abordagens.

Em 2008, o evento para Avaliação de Reconhecedores de Entidades Mencionadas (HAREM)4

contou com a tarefa de Reconhecimento de Relações entre Entidades Mencionadas (ReRelEM), ondeforam avaliados três sistemas: REMBRANDT [Car08], SEI-Geo [Cha08] e SeRELeP [BSVR08]. OReRelEM engloba as relações de identidade, inclusão, localização e outras. As relações do tipoidentidade incluem sinonímia, denições, acrônimos e relações anafóricas, ocorrendo quando duasentidades possuem o mesmo referente. Relações de inclusão são identicadas quando uma entidadeengloba outra, caracterizando a hiponímia e a meronímia. Já a localização denota um evento queocorre em um local. Por m, as relações do tipo outras correspondem a todas as relações conside-radas relevantes, mas que não se enquadram nas categorias anteriores.

O REMBRANDT é um sistema de REM baseado em regras gramaticais, que utiliza a Wikipediacomo base de conhecimento para a classicação das entidades mencionadas. O detector de relaçõesdo REMBRANDT realiza estimativas de similaridade entre as entidades para encontrar relaçõesde identidade, além da distância entre as entidades do tipo acontecimento e local para identicarrelações do tipo localidade.

4O HAREM corresponde uma iniciativa para avaliar soluções de processamento linguístico em Português, seme-lhante ao MUC (Message Understanding Conferences [GS96]) e o ACE (Automatic Content Extraction [DMP+04]),voltados para a Língua Inglesa.


O SEI-Geo integra um sistema para gestão de conhecimento geográco (Geograc KnowledgeBase (GKB)), responsável por gerar uma representação estruturada desse conhecimento. No con-texto do ReRelEM, o SEI-Geo foi utilizado para identicar relações do tipo inclusão entre entidadesmencionadas que representam locais. A identicação das entidades é realizada por meio de uma heu-rística que combina o conhecimento obtido a partir de uma ontologia de dados geográcos e padrõestextuais semelhantes aos de Hearst. Já as relações são extraídas a partir da projeção das entida-des sobre geo-ontologias. Dessa maneira, um novo relacionamento é identicado sempre que duasentidades são mapeadas em conceitos adjacentes da ontologia.

O SeRELeP extrai relações dos tipos identidade, inclusão e localização, por meio de heurísticasespecícas para cada tipo de relação, utilizando informações das etiquetas morfológicas produzidaspelo parser PALAVRAS. As relações de identidade são obtidas através de estratégias rudimentaresde similaridade textual, como comparações entre subsequências de caracteres para determinar se asentidades são equivalentes. Por este critério, a entidade Luiz Inácio é equivalente a Inácio, masnão a Lula. As demais relações são obtidas por estratégias diferentes, porém de inecácia similar.Como exemplo, uma delas simplesmente utiliza preposições que denotam inclusão, tais como em,no e na, para encontrar relações do tipo inclui.

Na avaliação conjunta, o sistema que apresentou o melhor desempenho foi o REMBRANDT,com uma medida-F de 45%, seguido pelo SeRELeP (36,6%) e pelo SEI-Geo (27,5%).

Em seguida, autores em [OSG10] apresentaram o PAPEL5 (Palavras Associadas Porto Editora -Linguateca), um léxico computacional semelhante à WordNet [Fel98], mas voltado para o PortuguêsLusitano. As relações semânticas no PAPEL foram extraídas a partir de padrões textuais aplicadosàs denições do Dicionário PRO da Língua Portuguesa6. Dentre as cerca de 190 mil relações extraí-das, é possível identicar os seguintes tipos: sinonímia, hiperonímia, meronímia (dividida entre asrelações parte de, membro de e contido em), antonímia, causalidade, produto-produtor, nalidade,estado (e.g. doença tem o estado doente), qualidade (e.g. bonita tem a qualidade beleza),localidade, maneira (a maneira como algo é realizado, e.g. rapidamente é realizado de maneirarápida), material (e.g. livro é feito de papel) e referente (e.g. cardíaco se refere a coração).

A padronização do vocabulário constitui uma das grandes vantagens na extração de relaçõesutilizando verbetes de dicionário se comparada à extração realizada em textos livres, que possuemuma variação linguística muito maior. Por outro lado, os textos livres são muito mais abrangentesque as denições de dicionário, possibilitando a extração de um número maior de tipos de relações.

O trabalho mais recente de ER em Língua Portuguesa que se tem conhecimento é descrito em[TC12], onde é feita uma comparação entre as abordagens de padrões textuais e aprendizado de má-quina, com o objetivo de representar conhecimento de senso comum no projeto Open Mind CommonSense no Brasil (OMCS-Br)7. Nesse estudo foram utilizados dois corpora com textos em Portuguêsdo Brasil, anotados morfossintaticamente pelo parser PALAVRAS, de onde se extraíram features detreinamento aplicadas a dois algoritmos de aprendizado de máquina: C4.5 [Qui93] e SVM [Vap98].Já a abordagem de padrões textuais foi implementada utilizando as regras denidas em [FQ07]. Asabordagens foram comparadas por meio da extração das seguintes relações especícas: propriedadede, é um, parte de, localizado em, efeito de, feito de e usado para. Os resultados mostraram superi-oridade da abordagem de aprendizado de máquina, ainda não aplicada em trabalhos voltados paraa Língua Portuguesa.

A partir desta análise do estado da arte, percebe-se que a maioria dos trabalhos em LínguaPortuguesa utiliza técnicas rudimentares baseadas em padrões textuais na ER, sendo que as abor-dagem de aprendizado de máquina ainda são pouco exploradas. Isto se deve, possivelmente, à faltade recursos linguísticos em Português, dicultando a construção de bases de treinamento de formaautomática e semi-automática para a tarefa, que necessita de features representativas obtidas apartir de conhecimento especializado na língua. Dentre o universo de relações especícas extraídasem Português, as mais frequentes são as relações de hiponímia, meronímia e localidade. Por outro

5http://www.linguateca.pt/PAPEL/6http://www.portoeditora.pt/7http://www.sensocomum.ufscar.br/


lado, não foi identicada nenhuma pesquisa voltada para a Extração de Relações Abertas.A seguir são descritas abordagens de similaridade estrutural entre modelos, fundamentadas

na teoria dos grafos, que podem ser adaptadas para modelar estruturas gramaticais contidas emrelações abertas, permitindo a distinção entre extrações válidas e inválidas sem a necessidade deconstrução de conjuntos de treinamento baseados em features linguísticas.

Capítulo 4

Similaridade em Grafos

A teoria dos grafos estuda as estruturas matemáticas utilizadas para modelar relações entreobjetos ou conceitos. Um grafo consiste em uma estrutura de dados composta por um conjuntonito e não vazio de vértices, unidos aos pares por um conjunto nito e possivelmente vazio dearestas ou arcos [Val02].

De acordo com [NWH03], determinar a similaridade entre dois grafos equivale a determinar asimilaridade entre os objetos estruturados, conceitos ou modelos que os grafos representam. Ummétodo clássico para estimar a similaridade entre grafos consiste em identicar o maior padrãoexistente entre eles. A identicação deste padrão comum tem sido tratado em diversos estudoscomo um problema de isomorsmo em subgrafos.

A detecção de similaridade entre objetos representados por grafos tem sido aplicada em diversasáreas, tais como no reconhecimento de padrões [LV02], na bioinformática [RW02] (incluindo estu-dos comparativos entre estruturas de proteínas [KLW96] e equivalência entre compostos químicos[NTJN87]) e extração de subcircuitos [EZ83, NWH03].

Este capítulo trata dos conceitos, problemas e algoritmos relativos à detecção de similaridadeem grafos. Adicionalmente, é feito um estudo dos principais trabalhos que utilizam algoritmos deisomorsmo para estimar a similaridade estrutural entre modelos. Esta análise permite identicarcomo e em que medida é possível modelar estruturas gramaticais através de grafos, com o objetivode denir uma abordagem de similaridade que permita classicar relações abertas no presentetrabalho.

4.1 Isomorsmo em Subgrafos

Muitas estimativas de similaridade estrutural entre modelos são obtidas a partir de técnicasde matching ou isomorsmo entre grafos [BM93]. Formalmente, dois grafos G1 = (V1, E1) e G2 =(V2, E2) são isomórcos se existe uma bijeção f : V1 → V2, onde u e v são adjacentes em G1 se, esomente se, f(u) e f(v) são adjacentes em G2, ∀u, v ∈ V1.

Quando dois grafos possuem subgrafos que são isomórcos, então esses subgrafos são ditoscomuns. Nesse contexto, o subgrafo comum máximo (MCS) é considerado um importante indicativode similaridade entre os grafos de uma coleção, pois representa o maior padrão existente entre eles.

4.1.1 O Problema do Subgrafo Comum Máximo (MCS)

Os principais trabalhos em teoria dos grafos fornecem duas denições para o MCS: a primeiraleva em conta o número máximo de arestas (MCES) e a segunda considera o número máximo devértices do subgrafo induzido comum (MCIS). Dados dois grafos G1 e G2, o MCES (MaximumCommon Edge Subgraph) representa o subgrafo que possui maior número de arestas comuns a G1

e G2. Já o MCIS (Maximum Common Induced Subgraph) consiste no subgrafo induzido1 isomórco

1Um subgrafo G′(V ′, E′) é dito induzido de G(V,E) quando V ′ ⊂ V e todos os vértices de G′ são interligadospelas mesmas arestas que os interliga em G.

25

4.1 ISOMORFISMO EM SUBGRAFOS 26

entre G1 e G2 que possui o maior número de vértices.No exemplo da Figura 4.1, os vértices x3 e y3 não pertencem ao MCIS entre G1 e G2, pois a

aresta (x1, x3) em G1 não possui uma aresta correspondente em G2. Por conta disso, não é possívelmapear x3 em y3 nos subgrafos induzidos, já que todos os vértices de G′1 devem ser interligadospelas mesmas arestas que os interliga em G′2. Por outro lado, os vértices x3 e y3 pertencem aoMCES, uma vez que as arestas (x2, x3) e (x3, x8) de G1 podem ser mapeadas nas arestas (y2, y3) e(y3, y8) de G2.

Variações do MCS restringem o MCES e o MCIS a grafos conectados. Um grafo G é ditoconectado quando existe pelo menos um caminho interligando dois vértices quaisquer de G. AFigura 4.1 ilustra as variações conectadas do MCS (MCCES e MCCIS).

Figura 4.1: Diferenças entre MCES, MCIS, MCCES e MCCIS [RW02].

O problema de encontrar o MCS entre dois grafos é classicado como NP-Completo, isto é, nãose conhece um algoritmo com complexidade de tempo polinomial para o caso geral. Por conta disso,versões aproximadas do algoritmo foram desenvolvidas, bem como soluções exatas para determina-dos tipos de grafos com tamanho moderado.

Algoritmos aproximados possuem complexidade de tempo aceitável, mas não garantem solu-ções ótimas globais. As principais heurísticas aproximadas aplicadas ao MCS utilizam algoritmosgenéticos [GRHS06] e otimização combinatória [BM05a].

Embora os algoritmos exatos executem em complexidade de tempo exponencial no pior caso,são considerados adequados aos tipos de grafos gerados por certas aplicações. Autores em [RW02]armam que as soluções exatas são ecientes quando aplicadas à detecção de similaridade emestruturas de compostos químicos, já que os grafos gerados neste modelo são de tamanho moderado.De forma semelhante, o presente trabalho mostra no Capítulo 5 que esta propriedade também éválida para grafos gerados com base em estruturas gramaticais.

4.1.2 Algoritmos Exatos

As soluções exatas mais ecientes reduzem o MCS ao problema do clique máximo entre doisgrafos [BK73]. Um grafo Gc representa um clique em G se Gc ⊂ G e Gc é completo. O cliquemáximo corresponde ao Gc com maior número de vértices em G. Levi [Lev72] demonstra que oMCIS equivale a encontrar o clique máximo entre dois grafos a partir da construção de um grafode compatibilidade correspondente. Um grafo de compatibilidade que fornece a equivalência entreo MCIS e o clique máximo é obtido pelo produto modular entre os grafos.

O produto modular entreG1(V1, E1) eG2(V2, E2), com V1 = x1, x2, ..., xm e V2 = y1, y2, ..., yn,corresponde ao grafo G(V,E), onde V = V1 × V2 = (x1y1), ... , (x1yn), ... , (xmy1), ... , (xmyn)e os elementos de E são constituídos com base nas ligações em G1 e G2. Mais precisamente, doisvértices quaisquer xiyi e xjyj de V são adjacentes se:

4.2 ISOMORFISMO EM SUBGRAFOS 27

• (xi, xj) ∈ E1 e (yi, yj) ∈ E2 ou

• (xi, xj) /∈ E1 e (yi, yj) /∈ E2

A Figura 4.2 mostra um exemplo de produto modular entre dois grafos. É possível perceber quea aresta (x1y1, x2y2) existe no grafo resultante, pois x1 e x2 são adjacentes em G1, assim como y1 ey2 em G2. Por outro lado, não existe aresta interligando os vértices x2y1 e x3y3 em G1 G2, já quex2 é adjacente a x3 em G1, mas não há ligação entre y1 e y3 em G2.

Figura 4.2: Produto modular [BM93].

Os dois cliques máximos em G1 G2 com os vértices x1y1, x2y2, x3y3 e x3y1, x2y2, x1y3 cor-respondem ao MCIS entre G1 e G2. A transformação do MCS no problema do clique máximo,embora ambos sejam NP-Completos, permite reduzir o espaço de busca antes da aplicação de umalgoritmo mais rigoroso. Esta redução no número de soluções possíveis caracteriza os algoritmos dotipo branch-and-bound.

Uma das soluções branch-and-bound mais conhecidas para encontrar o MCIS a partir do cliquemáximo é o algoritmo de Bron-Kerbosch (Algoritmo 4.1) [BK73].

Algoritmo 4.1 Retorna um conjunto R que representa o clique máximo em um grafo G1: function BronKerbosch(R,P,X)

2: if P = ∅ and X = ∅ then3: return R4: end if

5: for each v in P do

6: BronKerbosch(R ∪ v, P ∩N(v), X ∩N(v))7: P ← P − v8: X ← X ∪ v9: end for

10: end function

A versão clássica do algoritmo de Bron-Kerbosch recebe como entrada dois conjuntos vazios Re X, onde R representa o resultado temporário e X os vértices excluídos. O conjunto P contém ospossíveis candidatos do clique máximo, que inicialmente são todos os vértices do grafo. O algoritmocomeça a partir da expansão de um vértice v, adicionando-o a R e removendo todos os vértices quenão são seus vizinhos (representados pelo conjunto N(v)). Assim, cada vizinho de v é expandidoaté que P se torne vazio. Se X também for vazio, R representa um novo clique máximo. Casocontrário, R contém o subconjunto de um clique máximo já encontrado. A redução no espaço debusca ocorre nas linhas 7 e 8, onde os vértices que não pertencem ao clique máximo são removidosde P e adicionados em X. Dessa maneira, a busca continua recursivamente no nível superior sempreque não existem mais vértices em P.

Embora outras versões do MCS baseadas em clique máximo tenham sido desenvolvidas (comoem [KLW96] e [LV02]), todas seguem a ideia geral do algoritmo de Bron-Kerbosch.

4.2 SIMILARIDADE ENTRE RÓTULOS 28

4.2 Similaridade entre Rótulos

A similaridade entre modelos de grafos é calculada não apenas a partir da estrutura isomórca,mas também através da correlação entre os rótulos dessa estrutura comum. Em geral, a similaridadeentre os rótulos de um grafo é estimada pela distância de edição entre as strings contidas nos rótu-los, denida como o número mínimo de operações necessárias para transformar uma sequência decaracteres em outra. Uma das variantes mais aplicadas neste problema é a distância de Levensthein[Lev66], que transforma uma string em outra por meio de três operações com custo unitário: in-serção de um novo caracter, remoção de um caracter e substituição de um caracter por outro.Formalmente, sejam duas strings α = α1, .., αm e β = β1, ..., βn geradas a partir de um alfabetoΣ, a distância dα,β é calculada a partir da construção de uma matriz de ordem (m+ 1)× (n+ 1),conforme as operações denidas no algoritmo de Wagner-Fisher [WF74]:

ai,0 = i,∀i ∈ [0, ...,m]

a0,j = j,∀j ∈ [0, ..., n]

ai,j =

ai−1,j−1, se αj = βi,

min(ai−1,j , ai,j−1, ai−1,j−1) + 1, caso contrário

A intuição por trás deste algoritmo reside no fato de que a distância entre as strings pode sercalculada recursivamente a partir do armazenamento das distâncias entre todos os prexos de cadastring. Dessa forma, a distância entre α e β é dada pelo elemento que ocupa a última linha e últimacoluna da matriz, ou seja, dα,β = am,n.

Figura 4.3: Exemplo de matriz gerada pelo algoritmo de Wagner-Fisher [BK73].

No exemplo da Figura 4.3, sendo α = Sunday e β = Saturday, o elemento a6,8 = 3 fornece onúmero de operações necessárias para transformar α em β:

1. Sunday → Saturday (remoção do caracter a);

2. Sunday → Sturday (remoção do caracter t);

3. Sunday → Surday (substituição do caracter r por n).

A distância de Levensthein corresponde à generalização da distância de Hamming [Ham50], queé aplicada na detecção de erros em strings de mesmo tamanho. Em termos de similaridade entredois rótulos de um grafo, quanto menor a quantidade de operações para transformar uma sequênciade caracteres em outra, maior a similaridade entre os rótulos.

Entretanto, quando os rótulos do grafo representam conceitos semanticamente mapeados, outrasestratégias devem ser utilizadas no cálculo de similaridade. As abordagens de similaridade semân-tica têm aplicabilidade em diversos problemas que envolvem processamento linguístico, como nadescoberta e composição de serviços web descritos em linguagem natural [PKPS02], na detecçãode bug reports duplicados [RAN07] e na desambiguação lexical de sentido [BP02, PBP03, SC12],

4.2 SIMILARIDADE ENTRE RÓTULOS 29

permitindo identicar correlações que vão além da simples comparação literal entre sequências destrings.

Nesse cenário, o uso de taxonomias ou léxicos computacionais como aWordNet [Fel98] em tarefasde processamento linguístico tem sido o foco de estudo em diversos trabalhos, tais como em [MM89],[LC98] e [SC12]. Os métodos de similaridade aplicados a léxicos, também denominados métodosbaseados em conhecimento, estimam a similaridade entre os conceitos através de dois tipos demedidas: contagem de arestas (edge-based) e conteúdo da informação (information content-based),conforme descritos a seguir.

i. Contagem de Arestas

Intuitivamente, conceitos próximos são mais similares que conceitos afastados em uma taxo-nomia. Portanto, o menor caminho entre dois conceitos representa uma medida importante desimilaridade entre eles. Essa distância conceitual é denida por Rada [MM89] como:

dist(c1, c2) = número mínimo de arestas separando c1 e c2,

onde c1 e c2 representam conceitos (nós) na taxonomia. Partindo deste princípio, Wu e Pal-mer [WP94] deniram uma medida de similaridade levando em conta a profundidade dos conceitosna hierarquia:

simWUP (c1, c2) =2×D(LCS(c1, c2))

D(c1) +D(c2) + 2×D(LCS(c1, c2)), (4.1)

onde D(ci) denota a profundidade do conceito ci e LCS(ci, cj) consiste no pai comum maisespecíco entre os conceitos ci e cj (Least Common Superconcept).

Em seguida, Leacock e Chodorow [LC98] introduziram uma medida baseada na menor distânciaentre os conceitos e na profundidade (H) da taxonomia:

simLCH(c1, c2) = −log dist(c1, c2)

2×H(4.2)

Considerar que as ligações entre os conceitos possuem distância uniforme representa uma de-ciência das medidas baseadas em arestas, pois esta suposição não reete a realidade dos relaciona-mentos semânticos entre conceitos do mundo real [Res95]. Esta deciência é ilustrada na hierarquiada Figura 4.4.

Figura 4.4: Hierarquia de classicação dos seres vivos [Fel98].

4.3 APLICAÇÕES 30

A classicação mostra que a quantidade de arestas que separa um gato doméstico (F. Catus) deum cão doméstico (C. Familiaris) é maior que a quantidade de arestas que separa um gato domésticode um urso selvagem (U. Horribilis). Entretanto, do ponto de vista semântico, um gato está muitomais próximo de um cão que de um urso. As medidas baseadas em Conteúdo da Informação,descritas no tópico seguinte, buscam minimizar este problema.

ii. Conteúdo da Informação (IC)

Nas medidas baseadas em Conteúdo da Informação, a frequência com a qual um conceito apareceassociado a outro indica o grau de similaridade entre eles. Segundo Resnik [Res95], a associaçãode probabilidades aos conceitos da taxonomia captura a mesma ideia da similaridade baseada emarestas, mas sem a deciência da uniformidade de distâncias.

Mais precisamente, seja p : C → [0, 1] uma função probabilística aplicada à taxonomia. Paratodo c ∈ C, p(c) representa a probabilidade de encontrar uma instância do conceito c. Ou seja,a probabilidade decresce em função da especicidade do conceito. Esta função de descrescimentoé formalizada pela Teoria da Informação através da equação IC(c) = −log[p(c)]. Intuitivamente,isso signica que quanto mais abstrato for um conceito, menor a sua informação agregada. Noexemplo da Figura 4.4, IC(U.Horribilis) < IC(C.Familiaris), pois U. Horribilis é um conceitomais genérico que C. Familiaris na hierarquia.

Em [Res95], Resnik dene a similaridade entre dois conceitos como:

simRES(c1, c2) = maxc∈S(c1,c2)

IC(c), (4.3)

onde S(c1, c2) representa o conjunto de todos os pais comuns entre os conceitos c1 e c2. Estamedida foi reformulada por Lin [Lin98a] utilizando características da Equação 4.1:

simLIN (c1, c2) =2× IC(LCS(c1, c2))

IC(c1) + IC(c2), (4.4)

Em seguida, Jiang e Conrath [JC97] deniram uma medida de similaridade que combina con-ceitos de medidas baseadas em arestas e conteúdo da informação:

simJCN (c1, c2) =1

IC(c1) + IC(c2)− 2× IC(LCS(c1, c2))(4.5)

As medidas de similaridade baseadas em léxicos apresentam como desvantagem a dependênciado idioma, já que o mapeamento dos conceitos é viabilizado apenas na língua especíca para a quala taxonomia foi construída.

A próxima seção descreve as principais aplicações que utilizam os conceitos de similaridadeestrutural e de rótulos para a solução de problemas modelados em grafos.

4.3 Aplicações

A similaridade em grafos serve de base para a estimativa de correlação entre modelos em diversostrabalhos. Uma das aplicações mais comuns consiste na busca por pares de moléculas que possuemsemelhança estrutural nas pesquisas para descoberta de medicamentos [NTJN87]. Por exemplo,dada uma molécula que possui propriedades biológicas úteis (como o controle da pressão sanguíneaou redução de tumores em mamíferos), outros compostos químicos similares podem ser selecionadospara teste, com o objetivo de minimizar os efeitos colaterais gerados pelo composto original [BM96].Nesse cenário, soluções baseadas em isomorsmo têm se tornado recorrentes em problemas queenvolvem a modelagem de estruturas químicas em grafos.

A Figura 4.5 mostra um exemplo de MCES entre duas moléculas, onde cada átomo representaum vértice e as respectivas ligações químicas são modeladas como arestas do grafo.

4.3 APLICAÇÕES 31

Figura 4.5: Exemplo de MCES entre estruturas moleculares [BM96].

Considerando o esforço computacional no cálculo do MCS e a grande quantidade de átomos eligações em certos compostos químicos, alguns trabalhos propuseram simplicações na modelagemoriginal. Dessa maneira, grupos funcionais e cadeias de carbono comuns, como o anel benzênico(C6H6), podem ser representados como um único vértice, reduzindo o tamanho dos grafos pro-cessados no algoritmo. Autores em [PCF+96] introduziram o conceito de `superátomos' para adeterminação do MCS, que são grupos de átomos que correspondem a um único vértice do grafo,interligados por arestas sempre que um par de superátomos são adjacentes na estrutura molecular.Em seguida, Rarey e Dixon [RD98] estenderam esta ideia através de um modelo mais sosticado,denominado árvores de características. Nesta solução, o grafo de estruturas moleculares é reduzidoa uma árvore, a partir da qual a similaridade é obtida pela subárvore comum máxima.

Outra aplicação do MCS é denida no problema de Extração de Subcircuitos [EZ83], utilizada naprodução de circuitos digitais projetados a partir de Desenho Assistido por Computador (do Inglês,Computer-Aided-Design (CAD)). Segundo [NWH03], a identicação de falhas e redundâncias éindispensável à fase de desenho de circuitos digitais, sendo responsável pela prevenção de erros eeconomia de recursos na etapa de fabricação. A Figura 4.6 (a) mostra o exemplo de um circuitoequivalente a uma porta NAND2, cuja cópia isomórca é identicada em um circuito maior (b).Dessa maneira, a identicação de subcircuitos pode ser utilizada na substituição de interconexõesde transistores (mais complexas) por portas lógicas padronizadas.

Figura 4.6: Detecção de subcircuitos [EZ83]

As estimativas de similaridade realizadas por algoritmos de isomorsmo em subgrafos são pos-síveis devido à modelagem ilustrada na Figura 4.7, onde uma célula RAM com 6 componentes (a) érepresentado em um grafo com 6 vértices e 26 arestas (b), sendo que cada vértice corresponde a umcomponente (A, B, C, D, E e F ) do circuito. Uma das soluções precursoras na utilização do MCSpara identicação de subcircuitos é implementada na ferramenta SubGemini [OEGS93], que propõeuma técnica independente da tecnologia, mas apresenta problemas de eciência quando aplicado acircuitos com muitos componentes que possuem grandes estruturas simétricas.

2A porta NAND corresponde ao complemento da porta AND, que produz uma saída falsa sempre que todas asentradas são verdadeiras.

4.3 APLICAÇÕES 32

Em [Lin98b], é proposta uma representação denominada netlist, capaz de reduzir o número dearestas do modelo (Figura 4.7 (b)). As netlist são baseadas no conceito de hipergrafos de circuitos,onde não apenas os componentes, mas também suas interligações (x, y, z e k), são mapeados nosvértices do grafo, permitindo um processamento mais eciente dos algoritmos para detecção deisomorsmo em subcircuitos.

Figura 4.7: Representação em Netlist (b) e em grafo (c) de uma célula RAM (a) [Lin98b].

Percebe-se que a modelagem em grafos tem se mostrado uma solução recorrente em problemasrelacionados a reconhecimento de padrões em diferentes áreas. A detecção de subgrafos isomórcos éparticularmente útil na avaliação e comparação da similaridade nesses padrões. Partindo dessa ideia,o capítulo seguinte descreve uma abordagem para classicação de extrações a partir de similaridadede estruturas gramaticais modeladas em grafos, capaz de distinguir extrações válidas e inválidassem a necessidade de features linguísticas. Com isso, é proposto um método que pode ser aplicadode forma mais independente do idioma-alvo e incorporado diretamente a outras abordagens deExtração de Relações Abertas.

Parte II

Contribuições da Dissertação

33

Capítulo 5

Solução Proposta

Distinguir extrações válidas e inválidas é crucial à qualidade da tarefa de ER Abertas. Dadasas limitações de abordagens anteriores, decorrentes da diculdade em determinar o conjunto defeatures mais representativo para o problema, atrelado ao alto custo de construção de bases detreinamento extensas em diversos idiomas, é proposto um método que incorpora a similaridade dasestruturas gramaticais das sentenças na classicação de novas extrações. Em particular, o Portuguêsdo Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constituium dos vários idiomas que carecem deste tipo de recurso.

Conforme descrito no capítulo anterior, o cálculo de isomorsmo em subgrafos é utilizado naidenticação de similaridade estrutural entre modelos em problemas distintos, como na extração desubcircuitos [EZ83, NWH03] e equivalência entre compostos químicos [RW02, KLW96, NTJN87].No presente trabalho, o mesmo princípio é utilizado na modelagem em grafos das estruturas morfo-lógicas que compõem as sentenças, com a nalidade de identicar padrões que permitam distinguirrelações válidas e inválidas extraídas de texto não estruturado. Considerando a natureza peculiar decada problema, certos aspectos de modelos predecessores não podem ser aplicados diretamente aomodelo de estruturas gramaticais, já que as estruturas de sentenças descritas em linguagem naturaltendem a ser muito menos formais e padronizadas.

Neste capítulo é apresentado o modelo de extração e classicação de relações abertas proposto,fornecendo um detalhamento da abordagem que viabiliza a aplicação desta tarefa a textos redigidosem Português, que contempla a modelagem das extrações em grafos de estruturas gramaticais eas adaptações realizadas a partir dos conceitos de similaridade estrutural e de rótulos descritos noCapítulo 4 para a classicação dessas relações.

5.1 Modelo de Extração e Classicação de Relações Abertas

Os conceitos de similaridade descritos no Capítulo 4 fundamentam o modelo de extração eclassicação de relações abertas proposto no presente trabalho (Figura 5.1).

34

5.2 EXTRAÇÃO DE RELAÇÕES ABERTAS EM PORTUGUÊS 35

Figura 5.1: Modelo de Extração e Classicação de Relações Abertas.

Neste modelo, um conjunto de documentos não estruturados obtidos a partir de diversas fontes épadronizado para o formato xml, através de técnicas de processamento preparatório (Seção 2.2). Estapadronização permite a seleção das sentenças contidas nos documentos, além do armazenamentointermediário das sentenças selecionadas em uma base de dados. Em seguida, um etiquetador POSdene as classes morfológicas dos termos de cada sentença, que são utilizadas na extração de relaçõesabertas a partir das restrições sintática e léxica adaptadas para a Língua Portuguesa, conformedescrito na Seção 5.2 deste capítulo. Após a etapa de extração, um modelo de estruturas gramaticaisé gerado utilizando as classes morfológicas obtidas das relações candidatas (Seção 5.3). Este modeloserve de base para a denição dos algoritmos que compõem a abordagem de similaridade proposta(Seção 5.4), que utiliza uma pequena base contendo exemplos de relações válidas e inválidas paraclassicar novas relações (Seção 5.5).

Os detalhes dos algoritmos propostos e as adaptações realizadas em cada etapa do modelo sãodescritos nas seções seguintes.

5.2 Extração de Relações Abertas em Português

Conforme descrito no Capítulo 3, os trabalhos do estado da arte que extraem relações semânticasabertas utilizam como idioma-alvo a Língua Inglesa. Como o presente trabalho objetiva aplicar eavaliar a incorporação da similaridade de estruturas gramaticais na classicação de relações abertasem Português, algumas adaptações foram realizadas a partir dos principais métodos de extraçãobaseados em padrões morfológicos, uma vez que estes apresentam os melhores resultados da cate-goria.

A primeira adaptação é realizada na restrição sintática da Figura 3.3 (Seção 3.2.1), onde a ex-pressão regular é modicada para identicar padrões morfológicos na Língua Portuguesa. A Figura5.2 mostra a restrição sintática utilizada na extração de relações semânticas abertas em Português,de onde é possível extrair relações constituídas por pelo menos um verbo, ou pelo menos um verbo


e uma preposição, ou pelo menos um verbo e um substantivo, advérbio, pronome ou determinanteseguido de uma preposição.

Figura 5.2: Restrição sintática adaptada para a Língua Portuguesa.

Um conjunto de padrões possíveis gerados pela expressão regular da Figura 5.2 é mostrado naTabela 5.1, onde a segunda e a terceira coluna fornecem exemplos de sentenças a partir das quaisé possível extrair relações válidas e inválidas, respectivamente, através de cada padrão.

Padrão Sentenças com relações válidas Sentenças com relações inválidasV X matou Y. X o matou enquanto Y

assistia.VV X, após o trabalho,

veio buscar Y.X veio buscar os documentosantes de Y retornar.

VVV X correu, masnegou ter roubado Y.

X negou ter roubado, mas Yconfessou o crime.

VP No dia seguinte, Xnegociou com Y sobre a vendada empresa.

X apresentou o seu sócio,que negociou com Y.

VVP X ainda deve contar com Y. X deve contar com um novojogador na partida contra Y.

VVVP X, embora afirmeo contrário,continua sendo acusado porY.

X está sendo acusado por umatestemunha, embora Y afirmeo contrário.

VWP X é amigo de Y. -“X é amigo de quem?”,perguntou Y.

VVWP X tem falado muito com Y. X tem falado muito com todosos jogadores, exceto Y.

VVVWP X afirmou ter atirado ontemem Y.

X afirmou ter atirado ontemem direção ao teto, apósdiscussão com Y.

Tabela 5.1: Exemplos de padrões morfológicos possíveis a partir da expressão regular da Figura 5.2

Outra adaptação é realizada para evitar extrações muito especícas e, portanto, pouco repre-sentativas geradas pela restrição sintática. Conforme descrito na Seção 3.2.1, em trabalhos pre-decessores este tratamento é realizado através da restrição léxica, que é baseada na intuição deque uma relação válida deve ser encontrada em várias instâncias de um corpus extenso. Assim,quando uma relação não é identicada no corpus, ela é considerada muito especíca para comporuma extração. A restrição léxica neste trabalho foi realizada utilizando o subconjunto de textos daWikipedia escritos em Português do Brasil que, segundo estatísticas da Wikimedia1, possui uma

1http://stats.wikimedia.org


quantidade de artigos 5,5 vezes menor que na Língua Inglesa. Esta diferença implica em um nú-mero maior de relações descartadas pela restrição léxica em Português, já que a probabilidade deencontrar uma sequência textual em um corpus é proporcional ao seu tamanho. Diante dessa limi-tação e, considerando que relações pouco representativas tendem a conter uma quantidade maiorde palavras, uma estratégia adicional foi utilizada para evitar o descarte de relações potencialmenteimportantes. Nessa estratégia, apenas as relações que possuem mais de cinco classes morfológicassão processadas pela restrição léxica. Dessa maneira, construções menores, como as da Tabela 5.1,nunca são descartadas.

A partir dessas adaptações, estima-se que cerca de 3/4 das relações semânticas abertas baseadasem verbos são identicadas em Português (cerca de 10% a menos que o percentual obtido pelaabordagem correspondente em Inglês), o que pode ser vericado na avaliação de cobertura descritaa seguir.

5.2.1 Avaliação de Cobertura

Levando em conta que o modelo de extração de relações em Português denido neste trabalhonão é capaz de identicar todos os tipos de relações possíveis da língua, foi realizada uma análisepara estimar o percentual de cobertura perdida após a aplicação das restrições sintática (Figura 5.2)e léxica, considerando as adaptações realizadas para viabilizar as extrações. Nesta análise, adotou-sea metodologia denida em [FSE11], onde são identicadas manualmente todas as relações válidasentre frases nominais em segmentos aleatórios de textos. A partir de 160 sentenças, realizou-sea etiquetação manual de 177 relações, dentre as quais 76,3% foram reconhecidas pelo método deextração automática. O restante das relações, isto é, as que não foram reconhecidas pelo método,correspondem às construções linguísticas não contempladas pelas restrições, que são descritas eexemplicadas a seguir:

• Estruturas com padrões morfológicos longos não mapeados (14,7%):

- Padrão VWWPWP (e.g., X fez uma tentativa de acordo com Y ).

• Frases com estruturas não-contíguas (6,2%):

- Períodos compostos por coordenação (e.g., X foi construído e mantido por Y );- Complementos de verbos transitivos diretos e indiretos (e.g., X agradeceu o presente a Y );- Orações explicativas (e.g., X, que comandou a greve, foi preso por Y ).

• Sentenças com relações que não estão entre os argumentos (2,3%):

- Frases introdutórias (e.g., Sequestrado por X e Y );- Orações relativas (e.g., A empresa X que Y fundou).

• Relações excluídas pela restrição léxica (0,5%):

- Padrão VVVVWP (e.g. X alegou estar sendo procurado continuamente por Y)

É importante ressaltar que as estruturas linguísticas não contempladas pela restrição sintáticada Figura 5.2 não estão restritas às identicadas acima, já que a análise da cobertura do modelofoi realizada em um conjunto limitado de dados textuais. Além disso, esta análise não considerao impacto dos erros gerados pelo etiquetador morfológico quando o modelo de classicação é, defato, aplicado. A despeito disso, esta análise permite estimar os principais tipos de relações nãoreconhecidas pelo método.

Do ponto de vista da precisão de extração, vericou-se que, para cada relação válida, cercade três relações inválidas são identicada pela restrição sintática. Dessa maneira, assim como nasabordagens voltadas para a Língua Inglesa, grande parte das extrações em Português são compostaspor relações inválidas, o que demanda a aplicação de estratégias de classicação dessas relações paramelhorar a qualidade do método de extração.

5.3 MODELO DE ESTRUTURAS GRAMATICAIS 38

5.3 Modelo de Estruturas Gramaticais

As abordagens de ER Abertas pesquisadas utilizam técnicas de aprendizado de máquina base-adas em features para classicar novas extrações em Inglês, o que permite eliminar grande partedas relações inválidas geradas após o processamento das restrições sintática e léxica. Entretanto, aaplicação dos métodos atuais em textos redigidos em idiomas como o Português requer um grandeesforço, tanto para identicar o conjunto de features mais representativo para o problema, quantopara etiquetar as relações, já que trabalhos anteriores sugerem bases de treinamento com centenasde milhares de instâncias.

Diante dessa diculdade, é proposto um método que utiliza as classes morfológicas das pala-vras contidas entre as frases nominais para estimar o grau de similaridade que permite distinguiras relações válidas das inválidas, utilizando conjuntos de exemplos reduzidos, construídos sem anecessidade de análises linguísticas e estatísticas para a identicação de features relevantes. Nessesentido, uma modelagem em grafos é denida para representar essa estrutura de classes, com oobjetivo de permitir o cálculo de similaridade entre as respectivas relações.

5.3.1 Modelagem em Grafos

Abordagens de similaridade tem sido cada vez mais aplicadas em tarefas de processamentolinguístico. Um exemplo é encontrado no problema de Desambiguação Lexical de Sentido (DLS)[SC12], onde o sentido eleito para uma palavra ambígua w é aquele que possui maior similaridadeem relação aos signicados das palavras na vizinhança de w, em contextos onde o sentido de w éconhecido. Partindo deste princípio, pretende-se vericar se as sequências de classes morfológicasque cercam as relações abertas contidas entre frases nominais podem ser utilizadas para diferenciarrelações válidas e inválidas. Mais precisamente, se uma nova relação pode ser classicada de acordocom as semelhanças estruturais entre as sequências de classes morfológicas que possui com instânciasde relações válidas e inválidas previamente conhecidas. Dessa maneira, uma relação é classicadacomo válida se sua estrutura gramatical for mais semelhante às estruturas dos exemplos válidos quedos inválidos. Caso contrário, a relação é classicada como inválida.

A vericação desta hipótese necessita da criação de um modelo que represente as sequênciasde classes morfológicas presentes em cada extração e, em análise posterior, permita estimar a simi-laridade entre essas sequências. Na presente proposta, o modelo é gerado pelo Algoritmo 5.1, queconstrói um grafo para cada sentença, por meio das classes morfológicas dos tokens compreendidosentre as frases nominais contendo entidade mencionadas. Dessa maneira, cada classe morfológica émapeada em um vértice do grafo e as ligações entre as classes são construídas com base na ordemdos tokens.


Algoritmo 5.1 Constrói um grafo de estruturas morfológicas a partir do conjunto de classes deuma sentença

1: function ConstroiGrafo(listaClasses)2: . listaClasses corresponde a uma lista que contém todas as classes morfológicas utilizadas na

construção do grafo;

. CriaNo(classe) retorna um nó cujo rótulo é uma classe morfológica;

. BuscaNoPorRotulo(grafo,classe) retorna um nó do grafo que possui como rótulo uma

determinada classe morfológica;

. AdicionaNo(grafo,no) adiciona um nó no grafo;

. CriaAresta(noAnterior, noAux) cria uma aresta entre dois nós não nulos do grafo.

3: grafo← ∅;4: noAnterior ← null;5: for each classe in listaClasses do6: noAux← BuscaNoPorRotulo(grafo, classe);7: if noAux 6= null then8: CriaAresta(noAnterior, noAux);9: noAnterior ← noAux;10: else

11: no← CriaNo(classe);12: AdicionaNo(grafo, no);13: if noAnterior 6= null then14: CriaAresta(noAnterior, no);15: end if

16: noAnterior ← no;17: end if

18: end for

19: return grafo20: end function

A Figura 5.3 mostra as estruturas obtidas dos exemplos de sentenças com as relações válidasda Tabela 5.2, geradas pela aplicação da restrição sintática da Figura 5.2, onde os grafos G1 e G2,criados pelo processamento das sentenças no Algoritmo 5.1, possuem semelhanças estruturais. Ouseja, existe um subgrafo G′ comum a G1 e G2, formado pelos vértices interligados através das arestasdestacadas na Figura 5.3. Mais precisamente, dados G1 = (V1, E1) e G2 = (V2, E2), os subgrafosG′1 = (V ′1 , E

′1) e G

′2 = (V ′2 , E

′2), onde E

′1 ⊆ E1 e E′2 ⊆ E2 (com |E′1| = |E′2| > 0), são isomorfos. Isto

é, existe uma bijeção f : V ′1 → V ′2 , onde u e v são adjacentes em G′1 se, e somente se, f(u) e f(v)são adjacentes em G′2, ∀u, v ∈ V ′1 .

ID Exemplo de Sentença Relação Válida1 A decisão final sobre a

UFM <adv>novamente</adv><v>caberá</v> <prep>ao</prep>prefeito Paulo Maluf.

(A decisão nal sobre a UFM,caberá ao, prefeito Paulo Ma-luf)

2 As colinas de Golã<v>foram</v> <v>tomadas</v><prep>por</prep> Israel em1967.

(As colinas de Golã, foram to-madas por, Israel)

Tabela 5.2: Relações válidas obtidas a partir da restrição sintática da Figura 5.2


Figura 5.3: Estruturas gramaticais das relações válidas (Tabela 5.2) após aplicação do Algoritmo 5.1.

É possível observar que tais semelhanças também podem ser encontradas nas estruturas geradasa partir da sequência de classes morfológicas das sentenças que produzem relações inválidas. Noexemplo da Figura 5.4, G3 corresponde a um subgrafo de G4, indicando que os grafos obtidosa partir das sentenças inválidas da Tabela 5.4 possuem alto grau de similaridade, pois conformedescrito no Capítulo 4, quanto maiores os subgrafos isomorfos entre dois grafos, maior a similaridadeentre eles.

ID Exemplo de Sentença Relação Inválida1 A Alemanha <v>ficou</v>

<prep>em</prep><sub>ruínas</sub><conj>mas</conj> os EUAviraram uma potência após aSegunda Guerra

(a Alemanha, cou em, osEUA)

2 O Bahia <v>gosta</v><prep>de</prep><sub>jogo</sub><adj>aéreo<adj><conj>enquanto</conj><prep>do</prep> Grêmioespera-se mais perigo pelochão.

(o Bahia, gosta de, o Grêmio)

Tabela 5.3: Relações inválidas obtidas a partir da restrição sintática da Figura 5.2

Figura 5.4: Estruturas gramaticais das relações inválidas (Tabela 5.3) após aplicação do Algoritmo 5.1.

5.4 SIMILARIDADE DE ESTRUTURAS GRAMATICAIS (SEG) 41

Nesta solução, os grafos de estruturas gramaticais construídos pelo Algoritmo 5.1 são conectadose possuem, no máximo, 10 vértices, que correspondem às classes morfológicas possíveis na LínguaPortuguesa2. Como o modelo proposto gera grafos com pequeno número de vértices, é possível obtero MCS utilizando soluções exatas, em tempo de processamento aceitável, a partir de estruturasgramaticais. A aplicabilidade do modelo a bases com grandes volumes de documentos é discutidanos experimentos apresentados no Capítulo 6.

A partir da identicação do MCS entre os modelos de estruturas gramaticais, é preciso deniras estratégias que permitam inferir um valor numérico que indique a similaridade entre eles. Aseguir são descritas as abordagens de similaridade em grafos adaptadas ao modelo de estruturasgramaticais proposto neste trabalho.

5.4 Similaridade de Estruturas Gramaticais (SEG)

A similaridade é denida como uma medida de proximidade entre objetos [NWH03]. Conformedescrito no Capítulo 4, a similaridade entre dois grafos equivale à distância entre os objetos es-truturados, conceitos ou modelos que os grafos representam. Partindo desse princípio, o cálculo desimilaridade entre os grafos de estruturas gramaticais permite identicar propriedades que indicamsemelhanças entre as extrações de relações abertas que compõem essas estruturas. Tais propriedadespodem ser úteis em estratégias de classicação de relações abertas, uma vez que as semelhançaspodem ser utilizadas para agrupar instâncias de uma mesma classe. Sendo assim, relações perten-centes à classe de relações válidas tendem a ser mais próximas de outras relações válidas, assim comoas relações inválidas tendem a possuir características estruturais que as assemelham. Um métodoclássico para estimar a similaridade entre grafos consiste em identicar o maior padrão existenteentre eles. A identicação deste padrão comum, que em diversos estudos tem sido tratada como umproblema de isomorsmo em subgrafos, deve ser sucedida por uma estratégia que permita inferirum valor que denote a similaridade entre os modelos que os grafos representam.

Em grafos de estruturas gramaticais, é possível identicar dois componentes no cálculo de simi-laridade: a estrutura e os rótulos do subgrafo isomórco comum.

5.4.1 Similaridade Estrutural

Intuitivamente, a similaridade estrutural é diretamente proporcional ao tamanho do clique má-ximo entre dois grafos, isto é, quanto maior o número de nós do subgrafo isomórco, maior asimilaridade entre eles. Entretanto, a similaridade não é obtida com base no tamanho absoluto doclique máximo, mas sim por meio da sua proporção em relação aos grafos comparados. Esta esti-mativa proporcional é realizada para evitar que os valores de similaridade em grafos maiores sejamelevados de forma indevida. Por exemplo, supondo que a similaridade seja calculada entre doispares de grafos P1 = G1(V1, E1), G2(V2, E2) e P2 = G3(V3, E3), G4(V4, E4), onde |V1| = 100e |V2| = |V3| = |V4| = 10, se os cliques máximos entre esses pares de grafos forem formados pelomesmo número de vértices, não será correto armar que ambos os pares possuem similaridades idên-ticas. De fato, caso os cliques máximos contenham 10 vértices, signica que G3 e G4 são isomorfose, portanto, possuem similaridade estrutural máxima. Por outro lado, G1 e G2 não podem ser iso-morfos, já que possuem número distinto de vértices, e não devem ser considerados tão semelhantesquanto G3 e G4. Dessa maneira, a similaridade é obtida a partir de uma normalização em relaçãoaos grafos comparados. Mais precisamente, sendo Gc(Vc, Ec) o clique máximo entre G1(V2, E2) eG2(V2, E2), a similaridade estrutural neste trabalho é calculada conforme equação abaixo:

SIMe(G1, G2) =|Vc|D

(5.1)

Onde D corresponde a uma função entre os vértices de G1 e G2, que pode utilizar diversas

2As classes morfológicas encontradas na língua portuguesa são: substantivo, artigo, adjetivo, numeral, pronome,verbo, advérbio, preposição, conjunção e interjeição.


abordagens de normalização, tais como a redução da similaridade proporcionalmente ao vérticecom maior (max(|V1|, |V2|)) ou menor (min(|V1|, |V2|)) número de nós entre os grafos comparados.Neste trabalho, utilizou-se a média entre os vértices, ou seja, D = |V1|+|V2|

2 . Como Vc ⊆ V1, Vc ⊆ V2e |Vc| ≥ 1, então 0 < SIMe(G1, G2) ≤ 1. Assim, a similaridade estrutural é máxima quando G1 eG2 são isomorfos, ou seja, V1 = V2 = Vc. Por outro lado, quando o clique máximo é composto porum único vértice, a similaridade estrutural é mínima.

5.4.2 Similaridade de Rótulos

Além do componente estrutural, é preciso levar em conta as diferenças entre os rótulos dosvértices do MCS obtido de cada para de grafos comparados. A partir da Figura 5.3, percebe-seque os subgrafos isomórcos possuem rótulos idênticos, indicando uma similaridade maior. Já naFigura 5.4, o mapeamento entre os subgrafos isomórcos possuem vértices com rótulos distintos(CONJ → ADJ).

Em geral, a similaridade entre os rótulos é estimada pela distância de Levensthein [Lev66]denida no Capítulo 4, como medida de distância entre as sequências de caracteres contidas nosrótulos:

SIMr(G1, G2) =

∑|Vc|i=1 Levensthein[ψ(V1, vi), ψ(V2, vi)]

−1

D(5.2)

Sendo ψ(V1, vi) e ψ(V2, vi) as funções que retornam os rótulos dos respectivos vértices em V1 eV2 que correspondem ao vértice vi contido no clique máximo entre G1 e G2.

Entretanto, as strings dos rótulos são compostas por classes morfológicas no modelo de estruturasgramaticais, o que torna a distância de Levensthein uma medida de similaridade pouco represen-tativa neste modelo, já que a similaridade entre os caracteres das classes morfológicas não implicanecessariamente em dependência semântica entre elas. Por conta disso, a distância de Levenstheiné substituída nesta proposta por uma matriz de correlação entre classes morfológicas:

SIMr(G1, G2) =

∑|Vc|i=1M [ψ(V1, vi)][ψ(V2, vi)]

D(5.3)

Os elementos da matriz M , cujos valores podem ser vistos na Tabela 5.4, fornecem a correlaçãoentre cada par de classes morfológicas possíveis. Dessa forma, a Equação 5.3 utiliza um subconjuntodos elementos de M obtidos a partir de ψ.

sub art adj num pro ver adv pre con intsub 1 0.037 0.998 0.027 0 0.073 0 0.018 0 0art 0.037 1 0.027 0.009 0 0 0.064 0.009 0 0adj 0.998 0.027 1 0 0 0.037 0.082 0 0 0num 0.027 0.009 0 1 0 0 0 0 0 0pro 0 0 0 0 1 0 0 0 0 0ver 0.073 0 0.037 0 0 1 0 0 0 0adv 0 0.064 0.082 0 0 0 1 0.045 0 0pre 0.018 0.009 0 0 0 0 0.045 1 0 0con 0 0 0 0 0 0 0 0 1 0int 0 0 0 0 0 0 0 0 0 1

Tabela 5.4: Matriz de correlação entre classes morfológicas

A construção de M é realizada com base na proporção de palavras com a mesma graa perten-centes a classes morfológicas distintas, caracterizando a ambiguidade morfológica, conforme descritono Algoritmo 5.2. Intuitivamente, quanto maior a quantidade de conjuntos com palavras idênticaspertencentes a classes distintas, maior a correlação entre as classes. Um exemplo de ambiguidade


morfológica é encontrado na palavra casa, que pode ser classicada tanto como um verbo (casar),quanto por substantivo (moradia). Assim, a palavra casa contribui para o aumento da correlaçãoentre substantivo e verbo na Língua Portuguesa.

Algoritmo 5.2 Gera uma matriz de correlações entre classes morfológicas a partir do dicionárioconstruído no Algoritmo A.1 (Apêndice A)

1: function GeraCorrelacoes(listaSentencas)2: . listaSentencas contém as sentenças utilizadas no cálculo de correlações entre classes

morfológicas;

. UltimoElemento(listaClasses) retorna o último elemento de uma lista;

. Normaliza(M) retorna o resultado da Equação 5.4.

3: dicionario← ConstroiDicionario(listaSentencas)4: for each palavra in dicionario do5: listaClasses← BuscaV alor(palavra, dicionario);6: if listaClasses.size() > 1 then

7: listaClassesAux← listaClasses;8: listaClasses← listaClasses− UltimoElemento(listaClasses);9: for each c1 in listaClasses do10: listaClassesAux← listaClassesAux− c1;11: for each c2 in listaClassesAux do12: M [c1, c2]←M [c2, c1]←M [c1, c2] + 1;13: end for

14: end for

15: end if

16: end for

17: return Normaliza(M)18: end function

Neste trabalho, os valores de M (Tabela 5.4) foram estimados pelo Algoritmo 5.2, que recebeucomo entrada 1000 sentenças etiquetadas morfologicamente. As sentenças foram obtidas aleatoria-mente a partir de textos jornalísticos escritos em Português do Brasil e as etiquetas morfológicasforam geradas automaticamente, conforme procedimento descrito no Capítulo 6.

Como o algoritmo não limita o acúmulo de similaridade entre as classes morfológicas, é necessáriorealizar uma normalização dos valores de M através da Equação 5.4:

Normaliza(ai,j) =ai,j

argmax(M) + kp(5.4)

Onde argmax(M) representa a frequência máxima obtida entre todos os elementos de M e kpconstitui um fator de ponderação, que limita os elementos de M não pertencentes à diagonal prin-cipal a valores inferiores a 1. Dessa forma, apenas os elementos da diagonal principal de M possuemcorrelação máxima, o que corresponde ao caso em que os rótulos comparados são constituídos pelamesma classe gramatical. Embora não exista um limite para kp, os valores para os quais se obteveos melhores resultados neste trabalho estão no intervalo [0.2, 0.5]. Os valores da Tabela 5.4 foramgerados assumindo kp = 0.2.

5.4.3 Cálculo de Similaridade

A similaridade entre dois grafos neste trabalho é estimada a partir da combinação entre assimilaridades estrutural e de rótulos previamente denidas. Formalmente, sejam dois grafos deestruturas gramaticais G1(V1, E1) e G2(V2, E2), a similaridade entre eles é dada por:

SIM(G1, G2) = we × SIMe(G1, G2) + wr × SIMr(G1, G2) (5.5)

5.5 CLASSIFICAÇÃO POR SIMILARIDADE DE ESTRUTURAS GRAMATICAIS (SEG) 44

Na Equação 5.5, we e wr representam, respectivamente, os pesos da similaridade da estrutura edos rótulos obtidos de G1 e G2, onde we + wr = 1.

Como exemplo, aplicando a Equação 5.5 aos grafos das Figuras 5.3 e 5.4 para we = 0.7 ewr = 0.3, é possível obter as similaridades abaixo:

SIM(G1, G2) = 0.7×(

2

2.5

)+ 0.3×

(1 + 1

2.5

)= 0.80

SIM(G3, G4) = 0.7×(

4

4.5

)+ 0.3×

(1 + 1 + 1 + 0

4.5

)= 0.82

Os valores de similaridade de estruturas gramaticais com todas as combinações entre G1, G2,G3 e G4 são mostrados na Tabela 5.5. É possível perceber que a maior similaridade ocorre entre G3

e G4, que são grafos obtidos de extrações inválidas, seguida da similaridade entre os grafos G1 e G2,obtidos de extrações válidas. Intuitivamente, uma forma de classicar a extração que gerou o grafoG2, dadas as classes das extrações que geraram G1, G3 e G4, consiste em atribuir a mesma classeda extração que gerou o grafo mais similar a G2 (neste exemplo, a classe da extração geradora deG1).

Combinação SimilaridadeG3, G4 0.82

G1, G2 0.80

G2, G3 0.67G1, G3 0.65G1, G4 0.61G2, G4 0.57

Tabela 5.5: Similaridade de estruturas gramaticais com todas as combinações entre G1, G2, G3 e G4

Percebe-se que a similaridade entre grafos apresenta diversas peculiaridades quando aplicadasa elementos morfológicos. A próxima seção descreve o algoritmo proposto neste trabalho para clas-sicação de relações abertas.

5.5 Classicação por Similaridade de Estruturas Gramaticais (SEG)

A classicação das relações abertas utilizando similaridade de estruturas gramaticais é reali-zada conforme procedimento mostrado no Algoritmo 5.3, que recebe como entrada um conjuntocom exemplos de relações válidas e inválidas, a instância de teste a ser classicada e um valor parao limiar de similaridade ξs. Em seguida, é construído o modelo correspondente à instância de teste,que é comparado aos modelos gerados a partir de cada instância do conjunto de exemplos, utili-zando as abordagens de similaridade descritas na seção anterior. Por m, os valores de similaridadesão comparados na classicação da extração testada sempre que o módulo da diferença entre assimilaridades acumuladas em relação aos modelos das relações válidas e inválidas supera o limiarξs.


Algoritmo 5.3 Classica uma extração com base em similaridade de estruturas gramaticais1: function SEG(listaExemplos, extracaoTeste, ξs)2: . listaExemplos define uma lista que contém todas as extrações classificadas como válidas ou

inválidas da base de exemplos;

. extracaoTeste corresponde à extração a ser classificada;

. ξs denota o limiar de similaridade, que representa o valor de corte que o

algoritmo utiliza para decidir se uma nova instância deve ou não ser classificada;

. EtiquetaPOS(extracao) obtém as classes morfológicas das palavras da extração.

3: acumSimV alida← 0;4: acumSimInvalida← 0;5: Gteste ← ConstroiGrafo(EtiquetaPOS(extracaoTeste));6: for each extracaoExemplo in listaExemplos do7: Gexemplo ← ConstroiGrafo(EtiquetaPOS(extracaoExemplo));8: sim← we × SIMe(Gexemplo, Gteste) + wr × SIMr(Gexemplo, Gteste)9: if extracaoExemplo.classe = V ALIDA then

10: acumSimV alida← acumSimV alida+ sim;11: else

12: acumSimInvalida← acumSimInvalida+ sim;13: end if

14: diferenca← |acumSimV alida− acumSimInvalida|;15: if diferenca > ξs then16: if acumSimV alida > acumSimInvalida then17: extracaoTeste.classe← V ALIDA;18: else

19: extracaoTeste.classe← INV ALIDA;20: end if

21: else

22: extracaoTeste.classe← null;23: end if

24: end for

25: end function

A principal vantagem obtida com essa abordagem, em relação às abordagens de classicaçãobaseadas em features, consiste na redução do esforço de adaptação para classicar relações abertasa partir de textos escritos em outros idiomas. Conforme discutido no Capítulo 3, existe uma di-culdade relacionada à identicação de features adequadas a determinado conjunto de documentosem problemas especícos de IR. Em particular, a identicação de features na tarefa de Extraçãode Relações Abertas é realizada nos métodos atuais para a geração de conjuntos de treinamento,utilizados por algoritmos de aprendizado na etapa de classicação das relações extraídas. Por suavez, esses conjuntos de treinamento são construídos através dos seguintes passos:

1. Análise linguística para identicação das features candidatas à classicação de relações abertasno idioma-alvo;

2. Desenvolvimento de um algoritmo para extração dos valores de cada feature a partir de textosnão estruturados, conforme exemplo mostrado no Algoritmo A.2 (Apêndice A), que extrai afeature F11, denida na Tabela 6.1;

3. Agrupamento dos valores obtidos por cada algoritmo do passo 2 no conjunto de treinamento;

4. Identicação do valor do atributo de saída para cada instância do conjunto de treinamento;


5. Determinação do mérito de cada atributo do conjunto de treinamento, com o objetivo deeliminar as features que possuem baixa capacidade preditiva (conforme descrito no grupo deexperimentos da Seção 6.3.1 do próximo capítulo).

Dessa maneira, nota-se que a construção de um conjunto de treinamento baseado em featuresconstitui uma tarefa de alto custo, dicultando a classicação de relações abertas em idiomas quenão possuem esse recurso. Por meio da aplicação dos algoritmos denidos nesta proposta, é possívelreduzir este esforço através da substituição de conjuntos de treinamento baseados em features porconjuntos de exemplos com custo de construção inferior. Os dois passos necessários para a construçãodos conjuntos de exemplos utilizados na classicação por similaridade de estruturas gramaticais sãoelencados a seguir:

1. Determinação das classes morfológicas dos tokens das extrações selecionadas para compor oconjunto de exemplos (já realizado de forma automática na etapa de extração das relações);

2. Identicação do valor do atributo de saída para cada extração do conjunto de exemplos.

Outra vantagem da abordagem proposta reside na observação de que uma base de exemploscom número reduzido de instâncias é suciente para classicar corretamente mais relações quea abordagem baseada em features, quando esta utiliza um conjunto de treinamento de mesmacardinalidade, conforme mostrado nos experimentos descritos no Capítulo 6.

A despeito disso, outros aspectos importantes precisam ser avaliados para demonstrar a validadee a aplicabilidade da abordagem proposta, tais como a proporção de classicações corretas em funçãodas relações testadas e o tempo de execução, já que o componente de similaridade estrutural dométodo utiliza um algoritmo com complexidade de tempo exponencial.

No próximo capítulo são descritos os experimentos realizados para validar a incorporação dasimilaridade de estruturas gramaticais na classicação de relações semânticas abertas.

Capítulo 6

Validação da Proposta

Neste capítulo são descritos os experimentos realizados para avaliar a incorporação da similari-dade de estruturas gramaticais na classicação de relações semânticas abertas. Nas seções seguintes,a metodologia de avaliação dos modelos de classicação testados é denida, as ferramentas utili-zadas e desenvolvidas para realização dos experimentos são descritas e os resultados obtidos sãointerpretados.

6.1 Metodologia

A validação do modelo de similaridade de estruturas gramaticais (SEG) é realizada através dacomparação com métodos de classicação atuais baseados em features, utilizando medidas padro-nizadas de avaliação em EI, tais como precisão, cobertura e medida-F.

No problema de classicação de relações abertas, a precisão é denida como a razão entre o nú-mero de relações corretamente classicadas e o número de relações que receberam uma classicação.Mais precisamente:

Precisão =#(relações corretamente classificadas)

#(relações classificadas)(6.1)

Já a cobertura é dada pela fração das relações que receberam uma classicação e o total derelações testadas:

Cobertura =#(relações classificadas)

#(relações testadas)(6.2)

No método SEG, uma relação não recebe uma classicação quando a diferença entre as simila-ridades médias entre o grafo da relação testada e os grafos gerado através dos exemplos de relaçõesválidas e inválidas não supera o limiar ξs, conforme denido no Algoritmo 5.3.

A média harmônica entre precisão e cobertura é dada pela medida-F:

Medida-F = 2× Precisão × Cobertura

Precisão + Cobertura(6.3)

Como a medida-F não leva em conta a taxa de verdadeiros negativos, outra ferramenta útil paraavaliação de classicadores binários utilizada neste trabalho corresponde à análise ROC [MRS08],que é particularmente importante em conjuntos de dados nos quais existe uma grande desproporçãoentre as classes. Esta desproporção se enquadra no problema de classicação de relações abertas,onde a quantidade de relações inválidas tende a ser sensivelmente superior à quantidade de relaçõesválidas. Assim como as medidas de precisão e cobertura, a curva ROC de um modelo é obtida a partirda sua matriz de contingência. Mais precisamente, o gráco é construído a partir da representaçãodos falsos positivos no eixo das abscissas e dos verdadeiros positivos no eixo das ordenadas. Alémdas avaliações qualitativas dos modelos de classicação obtidas a partir da curva ROC, é possívelconsolidar a interpretação dos valores da matriz de contingência calculando a área sob a curva

47

6.2 FERRAMENTAS E RECURSOS UTILIZADOS 48

(Area Under Curve (AUC)), que é numericamente igual à probabilidade de, dados dois exemplosde classes distintas, o exemplo positivo ser ordenado antes do exemplo negativo. Dessa maneira,as curvas ROC de bons classicadores possuem AUC tendendo a 1. Por outro lado, valores para aAUC próximos de 0.5 são obtidos por classicadores randômicos.

6.2 Ferramentas e Recursos Utilizados

Os experimentos foram realizados utilizado o corpus CETENFolha1 (Corpus de Extratos deTextos Eletrônicos NILC/Folha de S. Paulo), que contém cerca de 24 milhões de palavras emPortuguês do Brasil, extraídas de textos do jornal Folha de São Paulo.

Foram selecionadas aleatoriamente 500 sentenças do corpus envolvendo diferentes temas, taiscomo política, economia, esportes e ciência. As classes morfológicas das palavras contidas nas senten-ças selecionadas foram obtidas automaticamente pelo etiquetador morfossintático do Cogroo2, umcorretor gramatical acoplável a um editor de texto de código aberto. Embora o parser PALAVRAS[Bic00] seja o mais utilizado em trabalhos que realizam etiquetação morfológica em Português, suaescolha foi preterida nesta pesquisa por ter foco em Português de Portugal e exigir pagamento delicença para utilização de todos os seus recursos. Já o Cogroo possui um módulo desenvolvido parao Português do Brasil e possui licença pública (LGPL).

Após a etiquetação morfológica, foram extraídas 582 relações do tipo (fn1, rel, fn2), onde fn1e fn2 representam as frases nominais contendo entidades mencionadas, encontradas antes e depoisda relação, e rel denota a frase relacional da extração. As frases relacionais foram obtidas conformeas restrições sintática e léxica descritas na Seção 5.2, sendo as entidades inicialmente identicadasaquelas classicadas como nome próprio pelo Cogroo. O ajuste das frases nominais contendo en-tidades mencionadas foi realizada manualmente através da interface mostrada na Figura 6.1. Porm, cada extração foi classicada como válida ou inválida para compor o conjunto de treinamento(nos métodos baseados em features) e o conjunto de exemplos (no método SEG).

Figura 6.1: Interface para ajuste manual das bases de treinamento e de exemplos

Para efeito de comparação da abordagem de similaridade de estruturas gramaticais (SEG) pro-posta com os métodos atuais baseados em features, foram selecionadas 12 features de treinamentoadaptadas para a Língua Portuguesa (Tabela 6.1). Os valores das features foram extraídos auto-maticamente das sentenças selecionadas do corpus e aplicados a quatro classicadores utilizando aferramenta de mineração de dados WEKA3.

1http://www.linguateca.pt/cetenfolha/2http://cogroo.sourceforge.net/3http://www.cd.waikato.ac.nz/ml/weka

6.2 FERRAMENTAS E RECURSOS UTILIZADOS 49

F1 tamanho(sentença) - tamanho(fn1 +rel+fn2) < 30 caracteres?

F2 A última preposição em rel é de?F3 A última preposição em rel é com?F4 A última preposição em rel é por?F5 A última preposição em rel é pela?F6 A última preposição em rel é pelo?F7 A última preposição em rel é para?F8 A última preposição em rel é em?F9 A string fn1 + rel está contida na sen-

tença?F10 A string rel + fn2 está contida na sen-

tença?F11 A string fn1 + rel + fn2 está contida na

sentença?F12 Há menos de 30 palavras na sentença?

Tabela 6.1: Features utilizadas para a base de treinamento em Língua Portuguesa

A Figura 6.2 ilustra a arquitetura do protótipo para classicação de relações abertas utilizado nosexperimentos. Nesta arquitetura, um parser XML identica as sentenças do corpus CETENFolha,permitindo o armazenamento intermediário das sentenças em um banco de dados relacional. Emseguida, o Cogroo dene as classes morfológicas dos termos de cada sentença, que são utilizadasna extração de relações abertas a partir das restrições sintática e léxica implementadas no extratorde relações. Por m, as relações abertas são classicadas através do particionamento das relaçõesetiquetadas nos conjuntos de treinamento e de exemplos em conjuntos de teste, utilizando o métodode validação cruzada com 10 folds.

Figura 6.2: Arquitetura do protótipo para a realização dos experimentos

É possível notar que o protótipo corresponde a uma instanciação do modelo de classicaçãomostrado na Figura 5.1 (Seção 5.1), acrescido de um extrator de features utilizado na geração das

6.3 EXPERIMENTOS 50

bases de treinamento e de teste para aplicação nos algoritmos de classicação do WEKA. A base detreinamento é composta por um conjunto de atributos discretos (features) e um atributo de saída,que corresponde à classe da relação, cujas instâncias são agrupados em um arquivo no formato deentrada nos algoritmos de aprendizado4. Por outro lado, a base de exemplos é composta apenaspor referências às extrações etiquetadas morfologicamente pelo Cogroo e os respectivos valores doatributo de saída.

6.3 Experimentos

Nesta seção são descritos quatro grupos de experimentos, que permitem comparar o modelo declassicação de relações abertas baseado em similaridade de estruturas gramaticais (SEG), propostoneste trabalho, com os modelos de classicação do estado da arte baseados em features:

1. Os experimentos do grupo 1 medem a representatividade (mérito) do conjunto de featuresadaptados para a Língua Portuguesa da Tabela 6.1. A partir dos resultados obtidos para esteconjunto, é possível selecionar o subconjunto mais adequado dentre as features testadas paraclassicar novas instâncias.

2. Nos experimentos do grupo 2 é avaliado o comportamento do método SEG para diferentesvalores do limiar ξs, com o objetivo de selecionar o melhor intervalo no conjunto de dadostestado.

3. No grupo 3 os experimentos realizados permitem comparar os modelos de classicação combase nos melhores parâmetros obtidos nos grupos 1 e 2.

4. Por m, os experimentos do grupo 4 têm a nalidade de avaliar os tempos de execução de cadamétodo, permitindo vericar a viabilidade de aplicação do método SEG a bases de documentosem aplicações reais.

Dessa maneira, os grupos de experimentos 1 e 2 visam a calibração dos parâmetros utilizadosem cada abordagem, de modo que elas possam ser comparadas em termos de precisão, cobertura eanálise ROC no grupo 3 e avaliadas quanto ao tempo de execução no grupo 4.

Em particular, a classicação baseada em features foi comparada à abordagem de similaridade deestruturas gramaticais (SEG) por meio de quatro algoritmos de aprendizado de máquina utilizadosde forma recorrente em trabalhos correlatos do estado da arte: J48, Lib SVM, Multilayer Perceptrone Naive Bayes.

O J48 corresponde à implementação do algoritmo C4.5 [Qui93], que utiliza os conceitos deentropia e ganho de informação para construir uma árvore de classicação a partir de atributosreais ou discretos. Neste algoritmo, cada nó da árvore representa um atributo de decisão e as folhascontém as classes possíveis do atributo de saída. A árvore de classicação é construída de formatop-down, onde os nós que possuem maior ganho de informação são posicionados nos primeirosníveis. Dessa maneira, uma nova instância é classicada conforme o percurso obtido da raiz atéuma folha da árvore, a partir dos valores dos seus atributos.

A biblioteca Lib SVM implementa as Máquinas de Vetores de Suporte (do inglês, SupportVector Machines (SVM)) [Vap98]. O SVM consiste em um algoritmo de aprendizado supervisionado,embasado na Teoria do Aprendizado Estatístico (TAE), que representa os exemplos de treinamentocomo pontos em um espaço n-dimensional, buscando gerar modelos que maximizem a margem deseparação entre dados de classes distintas. Com isso, novas instâncias podem ser classicadas quandorepresentadas no mesmo espaço, a depender das suas posições em relação ao modelo separador.

O Multilayer Perceptron é denido como uma rede neural articial do tipo progressiva (feed-forward5), formada por uma camada de entrada da rede, uma ou mais camadas escondidas e uma

4Como se utilizou os algoritmos de classicação do WEKA, os dados foram agrupados em arquivos no formatoar.

5Em redes neurais do tipo feedforward, cada camada n se conecta exclusivamente à camada n+1, sem a presençade laços de realimentação. Consequentemente, os sinais se propagam de forma progressiva na rede.

6.3 EXPERIMENTOS 51

camada de saída [NR13]. A camada de entrada, constituída por um conjunto de nós fonte, é respon-sável pela recepção dos sinais, sendo a única da rede que não possui neurônios. Na outra extremidadeestão os neurônios da camada de saída, que fornecem os resultados a partir da propagação de umsinal na rede. O treinamento ocorre por meio da atualização dos pesos que interligam os neurô-nios entre as camadas, através do processamento do conjunto de dados, até que seja atingida umacondição de parada. Em problemas de classicação, um sinal representa uma instância de teste e ainferência de sua classe é realizada quando o sinal atinge a camada de saída.

O teorema de Bayes arma que, se uma hipótese H é independente de uma evidência E, então aprobabilidade de H ser verdadeira, dado que E ocorreu, é calculada por: P [H|E] = P [E|H]×P [H][MRS08]. Em aprendizado de máquina, a classicação Bayesiana é realizada pelo mapeamento dosatributos de decisão na evidência e pelo mapeamento do atributo de classe na hipótese. Dessamaneira, a classicação de uma nova instância é determinada em função da probabilidade de cadaclasse possível, considerando os valores dos atributos de decisão da instância. Como as evidênciaspodem ser divididas em partes independentes no teorema de Bayes, a probabilidade condicional écalculada a partir dos valores P [E|H] e P [H] obtidos no conjunto de treinamento.

6.3.1 Experimento 1: representatividade das features

Neste grupo foram realizados experimentos para determinar os atributos (features) mais sig-nicativos no conjunto de dados testado. A efetividade ou mérito dos atributos é estimada peloalgoritmo Correlation-based Feature Selection (CFS) [Hal99], que utiliza uma heurística baseadaem correlação para avaliar a capacidade de cada atributo em predizer a classe de uma instância deteste, dado um conjunto de treinamento. A hipótese que embasa este algoritmo arma que bonssubconjuntos de atributos devem possuir alta correlação com a classe de predição e baixa correlaçãoentre si, já que atributos que possuem alta correlação entre si são considerados redundantes e nãocontribuem para elevar a capacidade preditiva do subconjunto.

Formalmente, seja S um subconjunto contendo k atributos, o mérito de S é calculado pelaEquação 6.4:

Ms =krcf√

k + k(k − 1)rff(6.4)

Onde rcf representa a correlação média entre cada atributo de S e o atributo de classe, erff denota a correlação média entre todas as combinações de atributos em S. A correlação entreos atributos pode ser estimada por diversas heurísticas, como o coeciente de incerteza simétrica(baseado nos conceitos de entropia e ganho de informação)[KB91] e o algoritmo Relief [Kon94] (queutiliza uma abordagem baseada em instâncias para associar pesos às iterações entre os atributos).

A Figura 6.3 mostra o mérito das features descritas na Tabela 6.1, considerando todo o conjuntode dados (582 extrações obtidas de 500 sentenças). É possível notar que as features F9, F10 e F11 sãoas que possuem as maiores capacidades de predição. Por outro lado, a feature F1 pode ser eliminadado conjunto de atributos sem prejuízo à qualidade de classicação, já que possui mérito nulo.

6.3 EXPERIMENTOS 52

Figura 6.3: Representatividade das features no conjunto de dados

Os resultados mostrados na Figura 6.3 foram obtidos a partir da execução do algoritmo CFSimplementado no Weka, usando a estratégia de busca BestFirst com parâmetros D = 1 (forwardsearch) e N = 5 (número de nós do critério de parada), com seleção de atributos usando todoo conjunto de treinamento. Diante desses resultados, foram selecionados quatro subconjuntos defeatures (Tabela 6.2) para avaliação nos algoritmos de aprendizado de máquina supracitados. Ogrupo CF1 é composto por todas as features que possuem mérito não nulo e os grupos CF2, CF3 eCF4 correspondem aos subconjuntos obtidos a partir das melhores features avaliadas pelo algoritmoCFS.

Subconjunto Feature avaliada Elementos do melhor subconjuntoCF1 - F2, F3, F4, F5, F6, F7, F8, F9, F10, F11, F12

CF2 F11 F9, F10, F11, F12

CF3 F10 F2, F6, F8, F10, F11

CF4 F9 F4, F9, F11

Tabela 6.2: Conjuntos de features

É possível notar que nem sempre as features que possuem os maiores méritos formam o melhorsubconjunto, já que pode haver alta correlação entre elas, redundância que não contribui para elevara capacidade preditiva do subconjunto como um todo. Dessa maneira, as features F2, F9, F10 e F11

não formam um subconjunto com alta capacidade preditiva, devido à alta correlação entre F2 e F9.

6.3 EXPERIMENTOS 53

Figura 6.4: Avaliação dos conjuntos de features

Na Figura 6.4 são mostrados os valores médios da medida-F e da área sob a curva ROC dosquatro algoritmos de classicação avaliados em cada conjunto de features, utilizando o método devalidação cruzada com 10 folds. Os resultados mostram valores aproximadamente iguais para ostrês grupos CF1, CF2 e CF3, sendo a maior diferença equivalente a 0,7% para a medida-F e 1,4%para a AUC entre os grupos CF1 e CF3, indicando que a dimensionalidade dos atributos pode serreduzida de 11 para 4 (CF2) ou 5 (CF3) features, com perdas mínimas na qualidade de classicação.Por outro lado, o grupo CF4 apresentou valores médios 9,5% inferiores para a medida-F e 13,8%para a AUC, sendo portanto o menos representativo dentre os conjuntos avaliados.

6.3.2 Experimento 2: limiar ξs

O limiar de similaridade ξs corresponde ao parâmetro que o Algoritmo 5.3 (Seção 5.5) utilizapara decidir se uma nova instância deve ou não ser classicada, considerando a diferença dos va-lores de similaridade acumulados entre a instância e os exemplos de relações válidas e inválidas.Assim como os experimentos do grupo 1 são utilizados para selecionar o conjunto de features maisrepresentativo para classicação com os algoritmos de aprendizado de máquina, é necessário obter omelhor intervalo de valores do limiar ξs na classicação por similaridade de estruturas gramaticais.

Neste grupo de experimentos foi avaliada a variação da qualidade de classicação em função dolimiar de similaridade ξs no método SEG. Uma análise do Algoritmo 5.3 permite identicar queo aumento do limiar ξs implica em redução da cobertura de classicação, já que as instâncias deteste que apresentam baixa diferença de similaridade não são classicadas. A Figura 6.5 mostra ocomportamento da Medida-F e da área sob a curva ROC do método SEG em função da variaçãodo limiar ξs, utilizando o método de validação cruzada com 10 folds.

6.3 EXPERIMENTOS 54

Figura 6.5: Variação da Medida-F e Área ROC em função da variação do limiar ξs

Os resultados foram obtidos a partir da variação de ξs no intervalo [0; 0, 019]. No limite inferiordo intervalo (ξs = 0) a cobertura torna-se máxima, isto é, todas as instâncias são classicadas. Poroutro lado, um limiar a partir de 0,019 torna a cobertura inferior a 80%, prejudicando a capacidadepreditiva do modelo. Consequentemente, percebe-se uma redução de 3,5% na medida-F entre oslimites inferior e superior do intervalo, a despeito de um leve aumento da precisão e da área ROC(cerca de 1%).

A Figura 6.6 mostra uma ponderação entre Medida-F e Área ROC, a partir da qual é possívelobter o melhor intervalo de variação do limiar ξs no conjunto de dados testado. Nota-se que osmelhores valores são obtidos para ξs ∈ [0; 0, 007].

Figura 6.6: Variação da ponderação entre Medida-F e Área ROC em função da variação do limiar ξs

A partir da identicação do intervalo ideal de valores do limiar de similaridade, atrelada aosresultados dos experimentos do grupo 1, é possível comparar o método SEG com as abordagens deaprendizado de máquina baseadas em features, cujos experimentos são descritos a seguir.

6.3 EXPERIMENTOS 55

6.3.3 Experimento 3: avaliação de classicação

O objetivo deste grupo de experimentos consiste em comparar o método de classicação baseadoem similaridade de estruturas gramaticais (SEG) proposto com a abordagem baseada em featuresutilizada nos métodos atuais e adaptada para a Língua Portuguesa. A partir dos resultados obtidosnos experimentos do grupo 1, foi selecionado o conjunto de features CF1 para processamento nosalgoritmos de aprendizado de máquina utilizados. De forma análoga, os experimentos do grupo 2fornecem o intervalo de valores do limiar de similaridade mais adequados ao método SEG, a partirdo qual se utilizou ξs = 0, 005.

Método Precisão Cobertura Medida-F

SEG 0,781 ± 0,016 0,973 ± 0,010 0,860 ± 0,022J48 0,848 ± 0,014 0,841 ± 0,018 0,841 ± 0,018Lib SVM 0,848 ± 0,019 0,840 ± 0,018 0,839 ± 0,018Perceptron 0,823 ± 0,038 0,820 ± 0,041 0,820 ± 0,040Naive Bayes 0,800 ± 0,037 0,799 ± 0,039 0,799 ± 0,039

Tabela 6.3: Resultados médios obtidos por validação cruzada com 10 folds

Os valores na Tabela 6.3 mostram os métodos testados em ordem decrescente de desempenho.Adicionalmente, as curvas no gráco da Figura 6.7 ilustram as variações de precisão, cobertura emedida-F com o aumento do conjunto de relações testadas em cada algoritmo. Os valores médiose desvios padrões correspondentes são obtidos pelo processamento de 10 conjuntos de sentençascom tamanhos distintos, que variam de 57 a 582 extrações. É possível perceber nesses resultadosque a classicação com base em similaridade de estruturas gramaticais (SEG) superou em cerca de2% o algoritmo J48, classicador com o melhor desempenho dentre os baseados em features queforam avaliados. Em relação ao classicador Bayesiano, que obteve o menor valor para a medida-F,a diferença chegou a 6%.

6.3 EXPERIMENTOS 56

Figura 6.7: Avaliação da medida-F em função da quantidade de relações classicadas.

O gráco da Figura 6.7 mostra que o método SEG passa a ser superior aos demais a partir de 173relações, o que equivale a um conjunto de exemplos com 156 instâncias na validação cruzada. A partirdesse valor, não é notada uma variação signicativa no desempenho de classicação, indicando queuma base de exemplos pequena é suciente para obter resultados satisfatórios no método proposto.

O comportamento das curvas ROC dos classicadores baseados em features são mostrados naFigura 6.8. As curvas foram obtidas a partir da classicação de todas as 582 extrações do conjuntode dados na validação cruzada. Como no espaço ROC as curvas que se aproximam do ponto (0,1)indicam bons classicadores, já que apresentam altas taxas de verdadeiros positivos e baixas taxasde falsos positivos, o algoritmo que apresentou os melhores resultados foi o Multilayer Perceptron(AUC = 0,898), seguido pelo classicador Bayesiano (AUC = 0,882), J48 (AUC = 0,867) e LibSVM (AUC = 0,846).

6.3 EXPERIMENTOS 57

Figura 6.8: Curvas ROC da classicação baseada em features

A curva ROC do método SEG, que pode ser vista na Figura 6.9, foi obtida através da ferramentaJroct6. Em comparação com as curvas obtidas a partir dos classicadores baseados em features,percebe-se uma redução de 5,4% na AUC em relação ao classicador com a melhor curva (MultilayerPerceptron) e equivalência em relação ao classicador com a pior curva (Lib SVM ). Por outro lado,considerando as AUC médias dos 10 conjuntos com tamanhos distintos avaliados, essa diferença caipara 3%, sendo a AUC média do método SEG superior à do algoritmo J48 e inferior à dos demaisalgoritmos de aprendizado de máquina avaliados (Figura 6.10).

Figura 6.9: Análise ROC do método SEG

6www.jroct.org

6.3 EXPERIMENTOS 58

Figura 6.10: Comparativo entre as áreas médias das curvas ROC dos classicadores

É possível notar, através da análise do gráco da Figura 6.7, que o método SEG possui o melhordesempenho na qualidade de classicação dentre todos os métodos avaliados utilizando a medida-F.Por outro lado, quando a avaliação é realizada por meio da área ROC (Figura 6.10), o métodoproposto supera apenas um dos classicadores baseados em features testados. Esta diferença sedeve ao fato de que, ao contrário da área ROC, a medida-F não considera a taxa de verdadeirosnegativos (i.e. relações inválidas que são efetivamente classicadas como inválidas), característicaque impacta nos resultados da avaliação de classicadores, sobretudo os binários (nos quais seenquadram os tratados neste trabalho). Esses resultados indicam que os métodos de features sãocapazes de identicar mais verdadeiros negativos que o método SEG. Por outro lado, no contextoda classicação de relações abertas, onde o descarte de uma relação válida é muito mais prejudicialque a classicação incorreta de uma relação inválida, a medida-F é considerada adequada para aavaliação dos métodos que tratam deste problema.

6.3.4 Experimento 4: avaliação de tempo

Além da medida harmônica entre precisão e cobertura, o tempo de execução constitui outroaspecto importante a ser avaliado para demonstrar a validade do método proposto, já que seu com-ponente de similaridade estrutural utiliza um algoritmo com complexidade de tempo exponencial,conforme análise assintótica descrita no Apêndice B. A Tabela 6.4 mostra os valores de tempoutilizados para construir o modelo, para processar cada fold na validação cruzada e para realizartodo o experimento, considerando 10 conjuntos de sentenças com tamanhos distintos e as relaçõesdelas extraídas. A construção do modelo no método SEG contempla a etiquetação morfológica dassentenças e a construção dos grafos de estruturas gramaticais do conjunto de exemplos. Os ex-perimentos foram realizados utilizando um computador com processador Intel Core i5 de 64 bits,frequência de 3.2 GHz e 8Gb de memória RAM.

6.3 EXPERIMENTOS 59

Sentenças Relações Tempo (s)Modelo Por fold Total

50 57 0,02 1,01 10,13100 117 0,05 5,71 57,06150 173 0,07 12,02 120,23200 231 0,11 25,98 259,79250 291 0,14 41,11 411,07300 350 0,17 58,51 585,13350 404 0,17 67,09 670,93400 466 0,20 95,30 953,01450 523 0,21 110,87 1108,71500 582 0,24 141,78 1417,75

Tabela 6.4: Avaliação de tempo

A comparação do tempo de construção do modelo em função da quantidade de relações pro-cessadas nos experimentos em todos os métodos avaliados é mostrada na Figura 6.11. Percebe-seque o método proposto é o segundo mais lento na construção do modelo de classicação, superandoapenas o Multilayer Perceptron, embora sua curva de tempo esteja próxima das geradas pelos clas-sicadores mais ecientes. Por outro lado, o comportamento assintótico mais crítico no algoritmo declassicação do método SEG encontra-se no cálculo de similaridade estrutural, onde é determinadoo subgrafo isomórco máximo entre os grafos de estruturas gramaticais dos conjuntos de exemplose de teste.

Figura 6.11: Tempo de construção dos modelos

Quando o tempo total para a classicação das relações é considerado, isto é, a construção domodelo em conjunto com a estimativa de similaridade estrutural e de rótulos, o tempo de execuçãodo método proposto excede consideravelmente o tempo dos algoritmos de aprendizado de máquinabaseados em features, dado o crescimento exponencial da curva de tempo com o aumento do númerode instâncias (Figura 6.12). Entretanto, como a medida-F do método se aproxima do valor máximo

6.4 ANÁLISE DOS RESULTADOS 60

para um conjunto de exemplos pequeno (156 instâncias), é possível gerar o modelo a partir de umconjunto reduzido, capaz de classicar uma quantidade signicativa de extrações em um espaço detempo próximo aos demandados pelos métodos baseados em features.

Figura 6.12: Tempo total de experimentação

6.4 Análise dos Resultados

As diculdades encontradas na identicação de features linguísticas representativas para a tarefade extração de relações são explicitadas nos experimentos do grupo 1. É possível notar que o méritode um atributo pode sofrer grande variação em função da mudança de idioma. Por exemplo, afeature F1 apresentou mérito nulo para a Língua Portuguesa, mas representa um dos atributos maissignicativos para o mesmo problema na Língua Inglesa, como pode ser observado nos resultadosobtidos em [FSE11]. Por este motivo, o mapeamento direto de um conjunto de features de umidioma para outro não implica na seleção dos melhores atributos na classicação de relações abertas.Consequentemente, é necessária uma análise mais profunda das peculiaridades de cada idioma paraa escolha de um conjunto representativo de features.

Os experimentos do grupo 3 mostram que é possível obter resultados satisfatórios na classi-cação de relações abertas utilizando similaridade de estruturas gramaticais, a partir de bases deexemplos com número reduzido de instâncias. Esses resultados indicam que, na ausência de bases detreinamento extensas obtidas através da identicação de features linguísticas, realidade na maioriados idiomas, o método SEG representa uma alternativa factível por duas razões. Primeiro, porquegerar conjuntos de exemplos para o método SEG requer menos esforço que identicar features lin-guísticas adequadas nos conjuntos de treinamento em métodos de aprendizado de máquina. De fato,a construção do modelo de similaridade de estruturas gramaticais requer apenas que as palavrasentre as frases nominais das sentenças sejam etiquetadas morfologicamente, tarefa já realizada naetapa de extração. Por outro lado, a identicação de features envolve diculdades na seleção de con-juntos de atributos representativos nas abordagens predecessoras, conforme discutido no parágrafoanterior. Segundo, porque os valores obtidos nos experimentos indicaram aumento da qualidade declassicação do método SEG em relação a quatro algoritmos de aprendizado baseado em features

6.4 ANÁLISE DOS RESULTADOS 61

adaptadas para a Língua Portuguesa.A despeito disso, é possível identicar algumas diculdades e limitações no modelo de simila-

ridade de estruturas gramaticais proposto. Do ponto de vista do tempo de execução, a naturezaintratável do cálculo do clique máximo no algoritmo de similaridade estrutural pode tornar proibi-tiva a aplicação do método a repositórios com número muito grande de documentos. Uma possívelsolução para este problema consiste na substituição do algoritmo exato por uma variante aproxi-mada no cálculo do MCS. Outra diculdade se refere à dependência da solução à qualidade doetiquetador morfológico, uma vez que a proporção de erros de etiquetação tem impacto no cálculode similaridade de estruturas gramaticais. Isto signica que etiquetadores morfológicos que comen-tem muitos erros tendem a comprometer a qualidade de classicação de relações abertas nestemodelo. Além disso, embora os valores de medida-F do método SEG tenham superado os obtidoscom os algoritmos de aprendizado testados, em relação à análise ROC o método proposto superouapenas um deles. Consequentemente, em aplicações que geram rankings de relações, os algoritmosde aprendizado de máquina tendem a retornar rankings melhores, já que a AUC é numericamenteigual à probabilidade de, dados dois exemplos de classes distintas, o exemplo positivo ser ordenadoantes do exemplo negativo.

Diante dos resultados obtidos, é possível armar que:

1. A construção de uma base de exemplos utilizada no método SEG é menos custosa que a cons-trução de um conjunto de treinamento com a mesma cardinalidade, necessário aos algoritmosde aprendizado baseados em features;

2. Para bases de exemplos e de treinamento com número reduzido de instâncias, o métodoSEG mostrou-se superior aos principais algoritmos de aprendizado utilizados na classicaçãobaseada em features;

3. A partir dos itens 1 e 2 é possível concluir que, em idiomas que não possuem bases de treina-mento extensas, a aplicação do método SEG para classicação de relações abertas é preferívelem relação às abordagens de aprendizado de máquina baseadas em features;

4. As abordagens de aprendizado de máquina baseadas em features são computacionalmente maisecientes, em função da complexidade de tempo exponencial da abordagem de similaridadeestrutural utilizada no método SEG;

5. Não é possível concluir, a partir deste estudo, qual dos métodos tem o melhor desempenho declassicação para bases de exemplos e de treinamento com número elevado de instâncias. Estaavaliação pode ser realizada mais facilmente na Língua Inglesa em pesquisas futuras, idiomaque já possui bases de treinamento extensas, de onde é possível obter uma base de exemploscom o mesmo número de instâncias de forma automática.

Capítulo 7

Conclusões

A distinção automática entre relações válidas e inválidas representa um problema recorrente emsistemas de extração de relações em texto não estruturado. Quando as frases relacionais identica-das possuem vocabulário não limitado, a importância da tarefa de classicação na qualidade dasextrações se torna mais evidente, já que a ambiguidade inerente à linguagem natural tem ocasionadogrande proporção de relações inválidas nos métodos mais recentes que tratam desta tarefa.

As soluções atuais extraem relações semânticas abertas exclusivamente a partir de textos re-digidos em Inglês, idioma que possui os recursos linguísticos mais sosticados, como etiquetadoresmorfossintáticos, extratores de entidades mencionadas, frases nominais e correferências, além deléxicos computacionais de alta granularidade e bases de treinamento etiquetadas em larga escala.Nesse cenário, novas abordagens têm sido estudadas para viabilizar a extração de relações abertasem idiomas que possuem poucos recursos linguísticos. Em particular, este trabalho propôs umaabordagem para reduzir a dependência do idioma em um ponto especíco desse processo, respon-sável pela classicação das relações abertas.

Os principais trabalhos do estado da arte eliminam as relações inválidas por meio de classi-cadores treinados a partir de features linguísticas, altamente dependentes do idioma-alvo. Estadependência é decorrente da diculdade de seleção do conjunto de features mais representativopara o problema de ER Abertas, considerando as peculiaridades de cada língua.

Diante disso, as principais contribuições deste trabalho são as seguintes:

• Identicação das diculdades relacionadas à classicação baseadas em features na extraçãode relações abertas em textos redigidos em idiomas diferentes do Inglês;

• Proposta de um modelo de extração e classicação de relações abertas voltado para o Portu-guês do Brasil, sendo a abordagem precursora na extração de relações semânticas de domínionão limitado da língua;

• Proposta de uma abordagem para classicação de relações abertas baseada em similaridadede estruturas gramaticais (SEG), onde as sequências de classes morfológicas que cercam asrelações contidas entre frases nominais são utilizadas para diferenciar relações válidas e in-válidas. Para tanto, é desenvolvida uma modelagem capaz de representar as sequências declasses morfológicas em grafos, além de um método para o cálculo de similaridade entre osmodelos, baseado na determinação de subgrafos isomórcos comuns e no desenvolvimento deheurísticas para a identicação de correlações semânticas entre as classes;

• Validação da abordagem proposta em um corpus de textos jornalísticos escritos em Portuguêsdo Brasil. Embora tenha sido validada em um corpus redigido em uma língua especíca, asolução proposta pode ser incorporada mais facilmente a métodos de ER Abertas aplicadosa outros idiomas, uma vez que não utiliza léxicos ou outras bases de conhecimento de altocusto voltadas para idiomas especícos, apenas uma pequena base com exemplos de extraçõesmorfologicamente etiquetadas e classicadas;

62

TRABALHOS FUTUROS 63

• Análise experimental comparativa entre a abordagem proposta e os métodos de classicaçãoatuais baseados em features linguísticas;

• Disponibilização de um protótipo representativo do modelo de extração e classicação derelações abertas proposto, desenvolvido com o objetivo de possibilitar a realização dos expe-rimentos do presente trabalho. Esse protótipo contribuirá para a realização de futuros expe-rimentos, bem como poderá ser utilizado como linha de base para o desenvolvimento de umframework de ER Abertas envolvendo outras tarefas de processamento linguístico associadasao problema, como a identicação de frases nominais e correferências.

Os experimentos realizados indicam que é possível obter resultados satisfatórios na classicaçãode relações abertas utilizando similaridade de estruturas gramaticais, a partir de bases de exemploscom número reduzido de instâncias. Esses resultados mostram que o método proposto pode substi-tuir abordagens de aprendizado baseadas em features linguísticas, cujos conjuntos de treinamentopossuem custos de construção mais elevados, sendo inexistentes na maioria dos idiomas. Por ou-tro lado, aspectos relacionados à complexidade de tempo da abordagem de similaridade estruturalutilizada nesta solução devem ser ponderados em contribuições futuras, com o intuito de tornarfactível sua aplicação a grandes repositórios de documentos.

7.1 Trabalhos Futuros

Como trabalhos futuros, pretende-se investigar abordagens capazes de reduzir a dependência doidioma em outros pontos do processo de extração de relações abertas, tais como na identicaçãode frases relacionais, que pode ser realizada através de modelos probabilísticos, como o HMM(Hidden Markov Model) [LRS83] e o CRF (Conditional Random Field) [LMP01], o que eliminariaa necessidade de etiquetação morfológica nesta etapa, além de aumentar o universo de extraçõespossíveis, que no presente trabalho são obtidas através de restrições sintáticas baseadas em padrõesmorfológicos. A despeito das diculdades reportadas nos trabalhos predecessores que utilizam essaabordagem (descritos no Capítulo 3), o comportamento da classicação por similaridade merece seranalisado em extrações com frases relacionais mais abrangentes.

Embora no presente trabalho a similaridade de estruturas gramaticais tenha sido aplicada àclassicação de relações abertas, nada impede que a abordagem proposta seja adaptada para aextração de relações especícas, através da substituição ou coexistência com outras abordagens desimilaridade, como a de string kernels [LSST+02].

Além disso, considerando as restrições de tempo impostas pela natureza intratável dos algoritmosexatos usados para determinar o MCS na estimação da similaridade estrutural, pretende-se avaliar odesempenho na classicação de relações abertas de algumas abordagens consideradas mais ecientes,como as que utilizam algoritmos genéticos para o cálculo aproximado do MCS [GRHS06] e asbaseadas em representações compactas de grafos (do Inglês, graph ngerprints [TSM12]).

Apêndice A

Algoritmos Auxiliares

Algoritmo A.1 Constrói um dicionário de palavras associadas a classes morfológicas a partir deuma lista de sentenças1: function ConstroiDicionario(listaSentencas)2: . dicionario define um hash onde as chaves são compostas por palavras que possuem ambiguidade

morfológica e os valores correspondem às listas de classes possíveis de cada palavra no

conjunto listaSentencas;

. IdentificaClasse(palavra) retorna a classe morfológica de uma palavra;

. BuscaValor(palavra,dicionario) retorna uma lista de classes morfológicas associadas a uma

palavra no dicionário;

. AdicionaClasse(classe,palavra,dicionario) adiciona uma classe morfológica associada a uma

palavra no dicionário;

. AdicionaChaveValor(palavra,classe,dicionario) adiciona uma nova entrada no dicionário.

3: dicionario = ∅4: for each sentenca in listaSentencas do5: for each palavra in sentenca do6: classe← IdentificaClasse(palavra);7: if palavra ∈ dicionario then8: listaClasses← BuscaV alor(palavra, dicionario);9: if classe /∈ listaClasses then10: AdicionaClasse(classe, palavra, dicionario);11: end if

12: else

13: AdicionaChaveV alor(palavra, classe, dicionario);14: end if

15: end for

16: end for

17: return dicionario18: end function

64

ALGORITMOS AUXILIARES 65

Algoritmo A.2 Exemplo de algoritmo necessário para extrair uma feature especíca (F11, denidana Tabela 6.1) a partir de uma lista de sentenças, com a nalidade de compor o conjunto detreinamento utilizado nos algoritmos de aprendizado para classicação de relações abertas

1: function ExtraiFeatureF11(listaSentencas)2: . listaSentencas corresponde a uma lista que contém as sentenças utilizadas

para gerar o conjunto de treinamento baseado em features linguísticas;

. sentenca representa um objeto que contém uma frase e uma lista de extratos dela obtidos;

. extrato representa um objeto que contém os elementos de uma relação:

(e1,frase relacional, e2);

. Concatena(e1, fraseRelacional, e2) gera um fragmento único a partir dos tokens de uma relação;

. AtualizaFeature((Fk, valor) atualiza o valor da feature para compor uma nova linha do conjunto

de treinamento.

3: for each sentenca in listaSentencas do4: listaExtratos← sentenca.getListaExtratos();5: frase← sentenca.getFrase();6: for each extrato in listaExtratos do7: e1 ← extrato.getE1();8: e2 ← extrato.getE2();9: fraseRelacional← extrato.getFraseRelacional();10: fragmento← Concatena(e1, fraseRelacional, e2);11: if fragmento ∈ frase then12: AtualizaFeature(F11, 1);13: else

14: AtualizaFeature(F11, 0);15: end if

16: end for

17: end for

18: end function

Apêndice B

Complexidade Assintótica dos

Algoritmos Propostos

A seguir são apresentados os detalhes dos cálculos de complexidade assintótica dos principaisalgoritmos propostos neste trabalho.

. Algoritmo 5.1: O(n2)

n = tamanho da lista de classes morfológicas.

Método Pior Caso Melhor CasoCriaNo O(1) O(1)

BuscaNoPorRotulo O(n) O(1)

AdicionaNo O(1) O(1)

CriaAresta O(1) O(1)

Tabela B.1: Complexidade dos métodos auxiliares do Algoritmo 5.1

Linha Pior Caso Melhor Caso6 O(n2) O(n)

8 O(n) O(1)

11 O(n) O(1)

12 O(n) O(1)

14 O(n) O(1)

Tabela B.2: Complexidade detalhada do Algoritmo 5.1

. Algoritmo A.1: O(kn2)

n = tamanho da lista de sentenças.k = quantidade de entradas do dicionário.

66

COMPLEXIDADE ASSINTÓTICA DOS ALGORITMOS PROPOSTOS 67

Método Pior Caso Melhor CasoIdentificaClasse O(1) O(1)

BuscaV alor O(k) O(1)

AdicionaClasse O(k) O(1)

AdicionaChaveV alor O(1) O(1)

Tabela B.3: Complexidade dos métodos auxiliares do Algoritmo A.1

Linhas 8 e 10:

• Pior caso:

0 + k + 2k + 3k + ...+ (n− 1)k =[0 + (n− 1)k]n

2=kn2 − kn

2

• Melhor caso:

0 + 1 + 2 + 3 + ...+ n− 1 =[0 + (n− 1)]n

2=n2 − n

2

Linha Pior Caso Melhor Caso6 O(n) O(n)

8 O(kn2) O(n2)

10 O(kn2) O(n2)

13 O(n2) O(n2)

Tabela B.4: Complexidade detalhada do Algoritmo A.1

. Algoritmo 5.2: O(kn2)

n = tamanho da lista de sentenças.k = quantidade de entradas do dicionário.

Método Pior Caso Melhor CasoConstroiDicionario O(kn2) O(n2)

BuscaV alor O(k) O(1)

UltimoElemento O(1) O(1)

Normaliza O(1) O(1)


Linha 22:

(n− 1) + (n− 2) + ...+ (n− k) =[(n− 1) + (n− k)]k

2=

(2n− k − 1)k

2=

2kn− k2 − k2

Linha 24:

k[(n− 1) + (n− 2) + ...+ 1] =k[(n− 1 + 1)(n− 1)]

2=kn2 − kn

2

COMPLEXIDADE ASSINTÓTICA DOS ALGORITMOS PROPOSTOS 68

Linha Pior Caso Melhor Caso3 O(k2) O(n2)

5 O(k2) O(k)

8 O(k) O(k)

10 O(kn) O(kn)

12 O(kn2) O(kn2)


. Algoritmo 5.3: O(3k3n)

n = tamanho do conjunto de treinamento.k = quantidade de tokens da extração de teste.Vc = conjunto de vértices do clique máximo.

Método Pior Caso Melhor Caso

SIMe O(3k3 ) O(3

k3 )

SIMr O(|Vc|) O(1)


Linha Pior Caso Melhor Caso5 O(k2) O(k)

7 O(k2n) O(kn)

8 O(3k3n) O(3

k3n)


Referências Bibliográcas

[AMS05] K. Anyanwu, A. Maduko e A. Sheth. Semrank: Ranking complex relationship search re-sults on the semantic web. Proc. of the 14th International World Wide Web Conference,ACM Press, 117-127., 2005. 2, 15

[And00] K. Ando. Latent semantic space: Iterative scaling improves precision of inter-documentsimilarity measurement. Conference on Research and Development in Information Re-trieval (SIGIR-2000), pp. 216-223., 2000. 13

[Bak62] F. Baker. Information retrieval based on latent class analysis. Journal of the ACM, 9,512-521, 1962. 11

[BE08] M. Banko e O. Etzioni. The tradeos between open and traditional relation extraction.In Proceedings of ACL-08: HLT, pages 28-36, Columbus, Ohio, June. Association forComputational Linguistics., 2008. 2, 18, 20

[Bic00] E. Bick. The parsing system palavras: Automatic grammatical analysis of portuguesein a constraint grammar framework. Denmark: Aarhus University Press, 2000. 22, 48

[BJCS+01] M. Banko, M. J. J. Cafarella, S. Soderland, M. Broadhead e O. Etzioni. Open infor-mation extraction from the web. In the Proceedings of the 20th International JointConference on Articial Intelligence, pages 2670-2676, January, 2001. 20

[BK73] C. Bron e J. Kerbosch. Algorithm 457: nding all cliques of an undirected graph. ACM,16(9):575-577, 1973. x, 26, 27, 28

[BM93] H. Bunke e B. Messmer. Similarity measures for structured representations. In SelectedPapers from 1st European Workshop Topics in Case-Based Reasoning, pages 106-118,1993. x, 25, 27

[BM96] R. Brown e Y. Martin. Use of structure-activity data to compare structure-based clus-tering methods and descriptors for use in compound selection. J. Chem. Inf. Comput.Sci., 36, 572-584, 1996. x, 30, 31

[BM05a] R. Barták e M. Milano. Integration of ai and or techniques in constraint programmingfor combinatorial optimization problems. Second International Conference, CPAIOR2005, Prague, Czech Republic, 2005. 26

[BM05b] C. Bunescu e J. Mooney. A shortest path dependency kernel for relation extraction.HLT'05: Proceedings of the conference on Human Language Technology and EmpiricalMethods in Natural Language Processing (pp. 724-731). Vancouver, British Columbia,Canada: Association for Computational Linguistics, 2005. 17

[BP02] S. Banerjee e T. Pedersen. An adapted lesk algorithm for word sense disambiguationusing wordnet. In Proceedings of the Third International Conference on Intelligent TextProcessing and Computational Linguistics, CICLing 2002, Mexico City, February 2002,2002. 28

69

REFERÊNCIAS BIBLIOGRÁFICAS 70

[BSVR08] M. Bruckschen, J. Souza, R. Vieira e S. Rigo. Sistema serelep para o reconhecimentode relações entre entidades mencionadas. In Cristina Mota; Diana Santos (ed.), De-saos na avaliação conjunta do reconhecimento de entidades mencionadas: O SegundoHAREM. Linguateca, cap. 14, p. 247-260, 2008. 22

[Car08] N. Cardoso. Rembrandt - reconhecimento de entidades mencionadas baseado em rela-ções e análise detalhada do texto, 2008. In:: Desaos na avaliação conjunta do reconhe-cimento de entidades mencionadas: O Segundo HAREM. s.l.:Linguateca, pp. 195-211.,2008. 13, 22

[Cha08] S. Chaves. Geo-ontologias e padrões para reconhecimento de locais e de suas relações emtextos: o sei-geo no segundo harem. In Cristina Mota; Diana Santos (ed.), Desaos naavaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM.Linguateca, cap. 13, p. 231-245, 2008. 22

[DC11] O. J. Dalben e D. B. Claro. Uma análise do reconhecimento textual de nomes de pessoase organizações na computação forense. Proceeding of the Sixth International Conferenceon Forensic Computer Science - ICoFCS 2011, pp. 7-15, 2011. x, 1, 14, 18

[DDF+90] S. Deerwester, S. Dumais, G. Furnas, T. Landauer e R. Harshman. Indexing by latentsemantic analysis. Journal of the American Society Science, 1990. x, 11, 12

[DMP+04] G. Doddington, A. Mitchell, M. Przybocki, L. Ramshaw, S. Strassel e R. weischedel.The automatic content extraction (ace) program-tasks, data, and evaluation. In: CI-TESEER. Proceedings of LREC. [S.l.], 2004. v. 4, p. 837-840, 2004. 22

[EBP08] K. Edward, V. Baryamureeba e G. Pauw. Towards domain independent named entityrecognition. International Journal of Computing and ICT Research, Volume 2, pp.84-95, 2008. 1, 9

[EM11] P. Eleutério e M. Machado. Desvendando a Computação Forense. 1 ed. São Paulo,BRA. Novatec, 2011. 2, 18

[EN08] H. Eichler e G. Neumann. Unsupervised relation extraction from web documents. Pro-ceedings of the LREC, 2008. 20

[EZ83] C. Ebeling e O. Zajicek. Validating vlsi circuit layout by wirelist comparison. Proceedingof the Conference on Computer Aided design (ICCAD), 172-173, 1983. x, 25, 31, 34

[Fel98] C. Fellbaum. Wordnet: An electronic lexical database. language, speech, and commu-nication. MIT Press, Cambridge, MA., 1998. x, 4, 23, 29

[FQ07] C. Freitas e V. Quental. Subsídios para a elaboração automática de taxonomias. Anaisdo XXVII Congresso da SBC. Rio de Janeiro, Rio de Janeiro: [s.n.], 2007. (V Workshopem Tecnologia da Informacao e da Linguagem Humana TIL), p. 1585-1594., 2007. 22,23

[FS07] R. Feldman e J. Sanger. The text mining handbook: advanced approaches analyzingadvanced unstructured data. New York: CAMBRIDGE UNIVERSITY PRESS, 2007.x, 1, 7, 8, 9, 15, 22

[FSE11] A. Fader, S. Soderland e O. Etzion. Identifying relations for open information extraction.In Proceedings of Conference on Empirical Methods in Natural Language Processing,2011. iii, iv, x, 1, 2, 19, 20, 21, 37, 60

[GBR+10] R. Girju, B. Beamer, A. Rozovskaya, A. Fister e S. Bhat. A knowledge-rich appro-ach to identifying semantic relations between nominals. Information Processing andManagement,v. 46, n. 5, p. 589-610, 2010. 16


[GRHS06] J. Gasteiger, M. Reitz, Y. Han e O. Sacher. Analyzing biochemical pathways usingneural networks and genetic algorithms. Aust. J. Chem. 2006, 59, 854-858, 2006. 26,63

[GS96] R. Grishman e B. Sundheim. Message understanding conference-6: A brief history. In:Proceedings of COLING. [S.l.: s.n.], v. 96, p. 466-471, 1996. 22

[Hal99] M. Hall. Correlation-based Feature Selection for Machine Learning. Tese de Doutorado,University of Waikato, Hamilton, NewZealand, 1999. 51

[Ham50] R. Hamming. Error detecting and error correcting codes. Bell System Technical Journal29 (2): 147-160, 1950. 28

[Hea92] M. A. Hearst. Automatic acquisition of hyponyms from large text corpora. Proceedingsof the 14th International Conference on Computational linguistics - Volume 2. Nantes,France, p. 539-545, 1992. 16, 22

[HG01] L. Hirschman e R. Gaizauskas. Natural language question answering: the view fromhere. Natural Language Engineering 7 (4): 275-300, 2001. 2, 15

[JC97] J. Jiang e D. Conrath. Semantic similarity based on corpus statistics and lexical ta-xonomy. In Proceedings of International Conference on Research in ComputationalLinguistics, 19-33, Taiwan., 1997. 30

[Kam04] N. Kambhatla. Combining lexical, syntactic, and semantic features with maximumentropy models for extracting relations. Proceedings of the ACL, 2004. 16

[KB91] I. Kononenko e I. Bratko. Information-based evaluation criterion for classiers perfor-mance. Machine Learning, 6:67-80, 1991. 51

[KLW96] I. Koch, T. Lengauer e E. Wanke. An algorithm for nding maximal common subtopo-logies in a set of protein structures. J. Comput. Biol. 3 (1996) 289-306, 1996. 25, 27,34

[Kon94] I. Kononenko. Estimating attributes: Analysis and extensions of relief. In Proceedingsof the European Conference on Machine Learning, 1994. 51

[LC98] C. Leacock e M. Chodorow. Combining local context and wordnet similarity for wordsense identication. In Fellbaum 1998, pp. 265-283., 1998. 29

[LE11] A. Louis e A. Engelbrecht. Unsupervised discovery of relations for analysis of textualdata. Digital Investigation, Volume 7, pp. 154-171, 2011. 8

[Lev66] V. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals.Soviet Physics Doklady, 10:707-710, 1966. 28, 42

[Lev72] G. Levi. A note on the derivation of maximal common subgraphs of two directed orundirected graphs. Calcolo 9 (1972) 341-352., 1972. 26

[Lin98a] D. Lin. An information-theoretic denition of similarity. In Proceedings of the 15thInternational Conference on Machine Learning, 296-304., 1998. 30

[Lin98b] Z. Ling. An algorithm for subgraph isomorphism based on resource management withapplications. Ph.D. Dissertation, University of Hawaii, 1998, 1998. x, 32

[LMP01] J. Laerty, A. McCallum e F. Pereira. Conditional random elds: Probabilistic modelsfor segmenting and labeling sequence data. Proceedings of the Eighteenth InternationalConference on Machine Learning (ICML-2001), 2001. 20, 63


[LPD12] P. Ly, C. Pedrinaci e J. Domingue. Automated information extraction from web apisdocumentation. In: The 13th International Conference on Web Information SystemEngineering (WISE 2012), Paphos, Cyprus (Forthcoming), 2012. x, 11, 12

[LRS83] S. Levinson, L. Rabiner e M. Sondhi. An introduction to the application of the theoryof probabilistic functions of a markov process to automatic speech recognition. TheBell System Technical Journal, 62(4), pp. 1035-1074, 1983. 63

[LSST+02] H. Lodhi, C. Saunders, J. Shawe-Taylor, N. Cristianini e C. Watkins. Text classicationusing string kernels. Journal of Machine Learning Research, 2002. 14, 63

[LV02] J. Larrosa e G. Valiente. Constraint satisfaction algorithms for graph pattern matching.Mathematical Structures in Comp. Sci., 12(4):403-422, 2002. 25, 27

[MM89] R. Mihalcea e D. Moldovan. Word sense disambiguation based on semantic density.Proceedings of COLING-ACL Workshop on Usage of WordNet in Natural LanguageProcessing Systems, 1989. 29

[MRS08] C. Manning, P. Raghavan e H. Schütze. Introduction to Information Retrieval. Cam-bridge, 2008. 1, 7, 10, 47, 51

[MSB+12] Mausam., M. Schmitz, R. Bart, S. Soderland e O. Etzioni. Open language learningfor information extraction. Conference on Empirical Methods in Natural LanguageProcessing and Computational Natural Language Learning (EMNLP-CONLL). Jeju,Korea. July 2012, 2012. 2, 13

[NR13] P. Norvig e S. Russell. Inteligência Articial. Campus, 2013. 16, 51

[NTJN87] V. Nicholson, C. Tsai, M. Johnson e M. Naim. A subgraph isomorphism theorem formolecular graphs. Graph Theory and Topology in Chemistry,(51):226-230, 1987., 1987.25, 30, 34

[NWH03] Z. Nian, D. Wunsch e F. Harary. The subcircuit extraction problem. Potentials, IEEE,22(3): p. 22-25, 2003. 25, 31, 34, 41

[OEGS93] M. Ohlrich, C. Ebeling, E. Ginting e L. Sathe. Subgemini: Identifying subcircuitsusing a fast subgraph isomorphism algorithm. 30th ACM/IEEE Design AutomationConference, 1993. 31

[OSG10] H. Oliveira, D. Santos e P. Gomes. Extração de relações semânticas entre palavras apartir de um dicionário: o papel e sua avaliação. Linguamática, v. 2, n. 1, p. 77-94,2010. 23

[PBP03] S. Patwardhan, S. Banerjee e T. Pedersen. Using measures of semantic relatedness forword sense disambiguation. In Proceedings of the Fourth International Conference onIntelligent Text Processing and Computational Linguistics, pp. 241-257, Mexico City,Mexico, February, 2003, 2003. 28

[PCF+96] D. Patterson, R. Cramer, A. Ferguson, R. Clark e L. Weinberger. Neighborhood beha-vior: a useful concept for validation of 'molecular diversity' descriptors. J. Med. Chem.,39, 3049-3059, 1996. 31

[PKPS02] M. Paolucci, T. Kawamura, T. Payne e K. Sycara. Importing the semantic web in uddi.Web Services, E-Business, and the Semantic Web, Springer, 2002, 815-821, 2002. 28

[Por80] F. Porter. An algorithm for sux stripping. Program, 14(3), 130-137, 1980. 9

[Qui93] J. R. Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann Publishers,1993. 23, 50


[RAN07] P. Runeson, M. Alexanderson e O. Nyholm. Detection of duplicate defect reports usingnatural language processing. In Proc. ICSE, 2007, 499-510., 2007. 28

[RD98] M. Rarey e J. Dixon. Feature trees: A new molecular similarity measure based on treematching. Journal of Computer-Aided Molecular Design, 12:471-490, 1998. 31

[Res95] P. Resnik. Using information content to evaluate semantic similarity. In Proceedingsof the 14th International Joint Conference on Articial Intelligence, pages 448-453,Montreal., 1995. 29, 30

[RW02] J. Raymond e P. Willett. Maximum common subgraph isomorphism algorithms forthe matching of chemical structures. Journal of Computer-Aided Molecular Design,16(7):521-533., 2002. x, 25, 26, 34

[SC12] E. Souza e D. Claro. Evaluation of semantic similarity in wsd: An analysis to incorporateit into the association of terms. WebMedia'12, October 15-28, São Paulo/SP, Brazil.,2012. 4, 28, 29, 38

[SC14] E. Souza e D. Claro. Detecção multilíngue de serviços web duplicados baseada nasimilaridade textual. Simpósio Brasileiro de Sistemas de Informação (SBSI'14), Maio27-30, Londrina/PR, Brazil., 2014. 4, 12, 13

[SFN04] S. Stevenson, A. Fazly e R. North. Statistical measures of the semi-productivity of lightverb constructions. In 2nd ACL Workshop on Multiword Expressions, pages 1-8, 2004.20

[SM06] L. Specia e E. Motta. A hybrid approach for extracting semantic relations from texts.Proceedings of the 2 nd Workshop on Ontology Learning and Population, pages 57-64,2006. 20

[SS04] Y. Shinyama e S. Sekine. Named entity discovery using comparable news articles.Proceedings of the 20th international conference on Computational (COLING'04), 2004.14

[TC12] L. S. Taba e H. Caseli. Automatic hyponymy identication from brazilian portuguesetexts. In Proceedings of the International Conference on Computational Processing ofthe Portuguese Language (PROPOR), 2012. 15, 23

[TP10] P. Turney e P. Pantel. From frequency to meaning: Vector space models of semantics.Journal of Articial Intelligence Research 37 (2010) 141-188, 2010. x, 10

[TSM12] C. Teixeira, A. Silva e W. Meira. Min-hash ngerprints for graph kernels: A trade-o among accuracy, eciency, and compression. Journal of Information and DataManagement, 3(3), 227-242, 2012. 63

[Val02] G. Valiente. Algorithms on Trees and Graphs. Springer, 2002. 25

[Val13] S. Valant. More than 2 billion people use the internet, here's what they're up to(infographic). The Culture-Ist: http://www.thecultureist.com, May 9, 2013, 2013. 1

[Vap98] V. Vapnik. Statistical Learning Theory. Wiley, New York, NY, 1998. 14, 16, 23, 50

[WF74] R. Wagner e M. Fisher. The string-to-string correction problem. Journal of the Asso-ciation for Computing Machinery, 21(1):168-173, January 1974, 1974. 28

[WF05] I. Witten e E. Frank. Data Mining: pratical machine learning tools and techniques.Elsevier, 2005. 10


[WIZD05] S. M. Weiss, N. Indurkhya, T. Zhang e F. J. Damerau. Text mining: predictive methodsfor analyzing unstructured information. New York: Springer Science+Business MediaInc, 2005. 7, 8

[WP94] Z. Wu e M. Palmer. Verb semantics and lexical selection. In Proceedings of the 32ndAnnual Meeting of the Association for Computational Linguistics. Las Cruces, NewMexico., 1994. 29

[WW10] F. Wu e D. S. Weld. Open information extraction using wikipedia. Proceedings of the48th Annual Meeting of the Association for Computational Linguistics, ACL '10, pages118-127, Morristown, 2010. iii, iv, 2, 20

[YB09] W. Yap e T. Baldwin. Experiments on pattern-based relation learning. Proceeding ofthe 18th ACM conference on Information and knowledge management. New York, NY,USA: ACM, p. 1657-1660, 2009. 16

[ZAR03] D. Zelenko, C. Aone e A. Richardella. Kernel methods for relation extraction. Journalof Machine Learning Research 3 1083-1106, 2003. 1, 2, 16

[ZNL+09] J. Zhu, Z. Nie, X. Liu, B. Zhang e J. Wen. Statsnowball: a statistical approach to extrac-ting entity relationships. In WWW'09:Proceedings of the 18th international conferenceon World wide web, pages 101-110, New York, NY, USA. ACM, 2009. 20

Classi cação de Relações Semânticas Abertas Baseada em · 2018. 5. 7. · Classi cação de...

Documents

Transcript of Classi cação de Relações Semânticas Abertas Baseada em · 2018. 5. 7. · Classi cação de...