BiblioMiner: Resposta a questões de exame baseadas na ... · num exame ﬁnal que tem como...

BiblioMiner: Resposta a questões de exame baseadas naindexação de elementos bibliográficos

Carlos André Cunha Neves Abrantes

Dissertação para obtenção do Grau de Mestre em

Engenharia de Telecomunicações e Informática

Orientador: Prof. Pável Pereira Calado

Júri

Presidente: Prof. Paulo Jorge Pires FerreiraOrientador: Prof. Pável Pereira Calado

Vogal: Prof. Miguel Leitão Bignolas Mira da Silva

Novembro 2015

Dedicado a Tania Oliveira Fartaria.

iii

Agradecimentos

Gostaria de agradecer ao professor Pavel Calado pelo acompanhamento prestado na realizacao desta

dissertacao. A visao, bibliografia prestada, know-how e disponibilidade prestada foram essenciais para

concluir esta etapa da melhor forma.

Destaco tambem, sem nenhuma ordem especıfica, alguns professores do IST e do Politecnico di Torino

que foram exımios no seu trabalho a formar alunos com pensamento crıtico e valores pessoais aos

quais tambem e dedicada este dissertacao: Rui Valadas, Joao Pires, Luıs Veiga, Paulo Ferreira, Fer-

nando Pereira, Joao Fernandes, Fernando Louro, Joao Costeira, Artur Arsenio, Guilherme Arroz e Elia

Michele.

Tambem agradeco a minha mae Alina Neves, ao meu irmao Joao Abrantes, ao meu avo Domingos Mar-

ques, a minha avo Conceicao Matinho, ao meu tio Carlos Neves e aos restantes membros da minha

famılia.

Finalmente destaco um agradecimento especial a Tania Oliveira Fartaria, pelas longas conversas,

cafes, teorias e passeios que me ajudaram a desenvolver aquele que e hoje um sistema funcional

que permite ajudar estudantes de todo o mundo a rentabilizar o seu tempo.

v

Resumo

Todos os anos alunos estudam os documentos da bibliografia de uma disciplina e sao postos a prova

num exame final que tem como objectivo a avaliacao dos conhecimentos adquiridos. Para os estu-

dantes e necessario ter acesso rapido aos textos mais relevantes de livros e slides relativos a uma

pergunta a qual nao sabem a resposta.

Este projecto extraı indicadores dos elementos bibliograficos tais como as palavras do sumario, ındice

remissivo, TF e IDF e constroi um dataset tendo como base um inquerito online de perguntas-respostas.

Este dataset e utilizado para treinar e testar um algoritmo de Learning to Rank que utiliza os modelos

linear, logıstico e SVM.

Os resultados obtidos demonstram que o modelo logıstico com nucleo Epachnenikov e amostragem

shuffled e o melhor modelo, pois e o modelo que apresenta a curva ROC mais proxima do modelo per-

feito mantendo bons nıveis de precisao e F1 em face as restantes combinacoes de modelos, nucleos e

tipos de amostragem.

Palavras-chave: questao-resposta, retorno de passagens, L2R, estrutura de livros, seleccao

de palavras-chave

vii

Abstract

Every year, students learn the documents in the bibliography of a discipline and are tested in a final

exam which aims at the evaluation of their acquired knowledge. For students it is necessary to have

quick access to the most relevant texts related to a question they do not know the answer to.

This project extracts indicators of the bibliography such as the words of the summary, toc, TF and IDF,

and builds a dataset based on an online survey of questions and answers. This dataset is used to train

and test a ”Learning to Rank” algorithm that uses linear, logistic and SVM models.

The results obtained show that the logistic model, with kernel Epachnenikov and shuffled sampling,

is the best model, due to its ROC curve proximity with the best model point, maintaining good levels

of precision and F1 when compared with the remaining combinations of models, kernels and shuffling

types.

Keywords: question-answering, passage retrieval, L2R, structure of books, keyword selection

ix

Indice

Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii

Lista de figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv

Lista de sımbolos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii

Glossario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii

1 Introducao 1

1.1 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objectivos e metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Estrutura da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Conceitos basicos 5

2.1 Sistemas questao-resposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Sistemas de retorno de passagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Learning to Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Modelo Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2 Modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.3 Modelo SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.4 Nucleos dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Indexacao e extraccao de meta-dados utilizando a estrutura dos livros . . . . . . . . . . . 14

2.5 Seleccao de palavras-chave de documentos . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Trabalho Relacionado 17

3.1 Retorno de passagens em sistemas QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Indexacao e extraccao de meta-dados utilizando a estrutura dos livros . . . . . . . . . . . 20

3.3 Learning to Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 BiblioMiner 25

4.1 Elementos bibliograficos de uma disciplina . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2 Criacao do conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

xi

4.2.1 Classificacao da relevancia das passagens . . . . . . . . . . . . . . . . . . . . . . 26

4.2.2 Pre-processamento do conteudo da votacao online . . . . . . . . . . . . . . . . . 27

4.2.3 Extraccao e associacao de indicadores a votacao online . . . . . . . . . . . . . . . 27

4.3 Learning to Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Avaliacao de um sistema L2R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.4.1 Matriz de confusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.4.2 Analise ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.4.3 Validacao cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.4 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.5 Forward selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.4.6 Backward elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Validacao Experimental 35

5.1 Descricao dos dados do dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.2 Cronologia da criacao do conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.3 Avaliacao dos modelos linear, logıstico e SVM . . . . . . . . . . . . . . . . . . . . . . . . 37

5.4 Situacao 1: Dataset R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.4.1 Seleccao do modelo, nucleo e amostragem dos dados . . . . . . . . . . . . . . . . 38

5.4.2 Analise da precisao variando o tamanho do dataset . . . . . . . . . . . . . . . . . 40

5.4.3 Analise do F1 variando o tamanho do dataset . . . . . . . . . . . . . . . . . . . . . 40

5.4.4 Analise da curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.5 Situacao 2: Dataset 2R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.5.1 Seleccao do modelo, nucleo e amostragem dos dados . . . . . . . . . . . . . . . . 42

5.5.2 Analise da precisao variando o tamanho do dataset . . . . . . . . . . . . . . . . . 44

5.5.3 Analise do F1 variando o tamanho do dataset . . . . . . . . . . . . . . . . . . . . . 45

5.5.4 Analise da curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Conclusao 49

6.1 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Referencias Bibliograficas 53

xii

Lista de tabelas

2.1 Particao de um conjunto de dados utilizando 5-validacao cruzada, adaptado de Microsoft

Research [31] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Formulas matematicas dos nucleos dos modelos logıstico e SVM [39] . . . . . . . . . . . 13

3.1 Tecnicas utilizadas em sistemas questao-resposta . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Metodos sintacticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 Indicadores de palavras-chave do CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.2 Indicadores que utilizam funcoes de pontuacao . . . . . . . . . . . . . . . . . . . . . . . . 28

4.3 Indicadores de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Matriz de confusao, adaptado de Joao Gama [70] . . . . . . . . . . . . . . . . . . . . . . 29

5.1 Elementos relevantes e nao relevantes em funcao da duracao da votacao online . . . . . 37

5.2 Precisao obtida para o modelo linear com um conjunto de dados R=NR . . . . . . . . . . 38

5.3 Precisao obtida para o modelo logıstico com um conjunto de dados R=NR . . . . . . . . 38

5.4 Precisao obtida para o modelo SVM com um conjunto de dados R=NR . . . . . . . . . . 39

5.5 Modelos eleitos R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.6 Precisao obtida utilizando backward elimination e o conjunto de dados R=NR . . . . . . . 39

5.7 Precisao obtida utilizando forward selection e o conjunto de dados R=NR . . . . . . . . . 39

5.8 Precisao obtida para o modelo linear com um conjunto de dados 2R=NR . . . . . . . . . 43

5.9 Precisao obtida para o modelo logıstico com um conjunto de dados 2R=NR . . . . . . . . 43

5.10 Precisao obtida para o modelo SVM com um conjunto de dados 2R=NR . . . . . . . . . . 43

5.11 Modelos eleitos 2R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.12 Precisao obtida utilizando backward elimination e o conjunto de dados 2R=NR . . . . . . 44

5.13 Precisao obtida utilizando forward selection e o conjunto de dados 2R=NR . . . . . . . . 44

1 R=NR: Modelo Linear em funcao do numero de elementos do dataset . . . . . . . . . . . 59

2 R=NR: Modelo Logıstico em funcao do numero de elementos do dataset . . . . . . . . . 59

3 R=NR: Modelo SVM em funcao do numero de elementos do dataset . . . . . . . . . . . . 59

4 2R=NR: Modelo Linear em funcao do numero de elementos do dataset . . . . . . . . . . 60

5 2R=NR: Modelo Logıstico em funcao do numero de elementos do dataset . . . . . . . . . 60

6 2R=NR: Modelo SVM em funcao do numero de elementos do dataset . . . . . . . . . . . 60

xiii

Lista de figuras

2.1 Sistema de QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Sistema de Learning to Rank adaptado de Liu et al. [30] . . . . . . . . . . . . . . . . . . . 9

2.3 Metodos utilizados para seleccao de palavras-chave . . . . . . . . . . . . . . . . . . . . . 16

3.1 Funcoes de densidade do CS do projecto de Carmel et al. [58] . . . . . . . . . . . . . . . 19

3.2 Grafo de anotacoes de Bilotti et al. [6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Arquitectura do sistema BibioMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2 Exemplo de um grafico de ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1 Precisao em funcao do numero de elementos do conjunto de treino R=NR . . . . . . . . 41

5.2 F1 em funcao do numero de elementos do conjunto de treino R=NR . . . . . . . . . . . . 41

5.3 Curvas ROC dos modelos eleitos R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.4 Precisao em funcao do numero de elementos do conjunto de treino 2R=NR . . . . . . . . 45

5.5 F1 em funcao do numero de elementos do conjunto de treino 2R=NR . . . . . . . . . . . 46

5.6 Curvas ROC dos modelos eleitos 2R=NR . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

xv

Glossario

IDF Inverso da frequencia nos documentos.

L2R Aplicacao de sistemas de machine learning a

problemas de retorno de documentos

ML Os algoritmos de machine learning permitem

fazer previsoes a partir de conjuntos de dados

observados.

QR Questao-Resposta e uma categoria de sis-

temas que interpreta e responde a perguntas

feitas em linguagem natural.

RP Os sistemas de retorno de passagens uti-

lizam consultas para pesquisar passagens rel-

evantes numa coleccao de documentos.

TF Frequencia de um termo pertencente a um

documento.

xvii

Capıtulo 1

Introducao

1.1 Enquadramento

Todos os anos os alunos estudam os documentos da bibliografia e sao postos a prova num exame final

que tem como objectivo a avaliacao dos conhecimentos adquiridos. Para um estudante e necessario o

acesso rapido aos textos mais relevantes de livros e slides relativos a uma pergunta a qual nao sabem

a resposta. Os documentos da bibliografia, tais como livros, slides, sumarios e exames conferem difer-

entes graus de sıntese do que se aprende numa disciplina. Consequentemente observa-se que estes

documentos podem ser uma ajuda preciosa num sistema que procure textos relevantes relativos a uma

pergunta que esteja no contexto de uma disciplina.

Existem cerca de 139 mil instituicoes de ensino [1] distribuıdas pelos E.U.A..

Richard Arum et al. [2] concluıram que em media cada estudante universitario americano passa 24

horas por semana em actividades lectivas das quais 9 horas a estudar sozinho. Por isso, e importante

que os estudantes tenham um mecanismo que os auxilie no seu processo de aprendizagem individual.

Na experiencia do autor deste projecto os estudantes do Instituto Superior Tecnico em Portugal e do

Politecnico di Torino em Italia utilizam 4 passos sequenciais para se prepararem para os exames:

1) Alojamento da bibliografia da disciplina em sistemas de cloud como a Dropbox1. Por bibliografia

entenda-se slides, livros, sumarios e exames passados da disciplina.

2) Estudo da aula teorica escrita no caderno acompanhada dos slides PDF.

3) Pesquisa de conceitos na bibliografia ou em motores de busca como o Google2.

4) Auto-avaliacao dos conhecimentos respondendo aos exames anteriores.

Apesar de existirem geracoes de diagramas, jogos, flashcards, quizzes, notas digitais e apps de

1www.dropbox.com/2www.google.com

1

planos de estudo que tem como principal objectivo facilitar o estudo dos estudantes [3], estes projectos

nao permitem optimizar este processo de estudo de 4 passos.

Alguns autores desenvolveram projectos na area da educacao para facilitar a procura voz ou voz

e video de aulas gravadas [4, 5]. Este projecto complementa o estado da arte actual da area educa-

cional com um sistema que tem em conta apenas a bibliografia textual da disciplina e o processo de

4 passos referido. O sistema e composto por modulos que incluem tecnicas de retorno de passagens

[6, 7], seleccao de palavras-chave [8, 9], indexacao e extraccao de meta-dados utilizando a estrutura

dos livros [10] e learning to rank (L2R) [11].

Actualmente, os estudantes utilizam na tarefa de estudo pesquisas de termos em motores de busca

como o Google que nao tem como obrigacao garantir a correccao da informacao apresentada. O sis-

tema BiblioMiner, sera tambem uma ferramenta de procura de informacao, mas que procura quais os

textos dos documentos da bibliografia sao mais importantes para responder a uma questao de exame,

desta forma os estudantes podem rentabilizar melhor o seu tempo.

O NEERCI3 e uma comunidade estudantil sem fins lucrativos que disponibiliza gratuitamente, no

repositorio SHELF4, os elementos bibliograficos do curso de Telecomunicacoes e Informatica do Insti-

tuto Superior Tecnico organizados por disciplina. Estes elementos bibliograficos serao utilizados para

treinar e testar o sistema de forma a responder as perguntas dos utilizadores.

Nos proximos capıtulos sao abordadas um conjunto de tecnicas que irao constar nos modulos da

solucao deste projecto permitindo atingir os objectivos propostos na proxima seccao.

1.2 Objectivos e metodologia

Esta dissertacao pretende implementar e avaliar o sistema BiblioMiner que tem como objectivos:

- Rentabilizar o tempo de estudo do utilizador.

- Ser transversal a qualquer domınio de conhecimento.

- Garantir que os textos da bibliografia retornados sao importantes para responder a questao colocada.

O BiblioMiner e um sistema que:

- Cria um dataset adaptado a uma disciplina utilizando um inquerito online de perguntas-respostas

preenchido por um perito na disciplina.

- Faz a extraccao de indicadores do dataset.

- Aplica algoritmos de Learning to Rank para descobrir quais desses indicadores sao mais relevantes.

- Utiliza o algoritmo com melhor desempenho para prever respostas relevantes a perguntas feitas pelo

utilizador.

3Nucleo de Estudantes de Engenharia de Telecomunicacoes e Informatica4neerci.tecnico.ulisboa.pt/shelf/

2

1.3 Estrutura da dissertacao

Esta dissertacao esta sub-dividida em 7 capıtulos, estruturados da seguinte forma:

• Capıtulo 1, e feito o enquadramento da dissertacao, descritos os objectivos e a metodologia

utilizada.

• Capıtulo 2, sao abordados conceitos basicos essenciais a interpretacao do trabalho relacionado

e da solucao proposta.

• Capıtulo 3, descricao de sistemas de QR, indexacao, extraccao de meta-dados e seleccao de

palavras-chave que foram uteis para compreender o estado da arte actual.

• Capıtulo 4, apresentacao da proposta apresentada e que serve de modelo ao prototipo criado.

• Capıtulo 5, clarificacao de algumas das opcoes de implementacao tomadas.

• Capıtulo 6, apresenta a avaliacao dos resultados obtidos pelo sistema desenvolvido.

• Finalmente, Capıtulo 7, contem as conclusoes e trabalho futuro.

3

Capıtulo 2

Conceitos basicos

Nesta seccao sao descritos os conceitos dos sistemas de questao-resposta (QR), retorno de pas-

sagens, L2R, indexacao e extraccao de meta-dados utilizando a estrutura dos livros e seleccao de

palavras-chave de documentos. Cada um destes temas tera o seu peso na proposta deste projecto.

2.1 Sistemas questao-resposta

Um sistema de questao-resposta (QR) interpreta e responde a perguntas feitas em linguagem natural.

Os sistemas de QR estao divididos em 3 modulos sequenciais como representado na Figura 2.1.

De modo a exemplificar como funcionam estes sistemas, considera-se que um utilizador coloca a

questao “Quantas pessoas vivem em Portugal?” no contexto de uma disciplina de Geografia.

Modulo 1 - Processamento da Questao

A funcao essencial deste modulo e determinar o tipo de questao e seleccionar as palavras-chave

que a compoem. Os sistemas de questao-resposta podem ser extremamente complexos. Por essa

razao, varios projectos optam por se focarem apenas num tipo de questao, tais como:

- Factoid-QA, em que a resposta e um nome de pessoa, local, data ou numero concreto [12].

- Definitional-QA, em que a resposta e uma definicao [12].

- List-QA, em que a resposta e uma listagem/enumeracao de objectos [12].

- Why-QA, em que a resposta responde a questoes do tipo “Porque” [13].

Figura 2.1: Sistema de QR

5

- How-QA, em que a resposta responde a questoes do tipo “Como” [14].

A questao do exemplo referido, e do tipo factoid, porque a expressao “Quantas” remete para um

numero concreto. As palavras-chave mais importantes poderiam ser “pessoas”, “vivem” e “Portugal”. A

seleccao de palavras-chave ira ser abordada posteriormente nos conceitos do capıtulo 2.5. Quando a

questao, tipo de questao e palavras-chave estao agregadas num objecto, formam o que se chama uma

consulta, que vai ser utilizada no modulo de retorno de passagens.

Modulo 2 - Retorno de passagens

Os sistemas de questao-resposta pesquisam as passagens (frases de uma coleccao de documen-

tos) que sao relevantes as consultas geradas pelo modulo anterior. Este modulo utiliza metodos de

Information Retrieval (IR) [6] para encontrar as passagens que sao mais interessantes a uma consulta.

Para tal, sao extraıdas propriedades das passagens que possam ajudar a identificar a sua relevancia.

Estes indicadores de relevancia podem ser qualquer propriedade que indique que uma frase pode

ser mais relevante que outra. Por exemplo, frases que sao constantemente repetidas ou com termos

a negrito poderao potencialmente ser mais relevantes do que frases sem formatacao ou que nunca se

repetem. O significado de termo nesta area pode ser entendido como todos os elementos que estejam

separados por espacos que nao sejam sinais de pontuacao, ou seja, geralmente sao palavras, numeros

ou caracteres especiais.

E entao utilizada uma funcao de pontuacao (FP), que aplica uma pontuacao a cada passagem.

Regra geral esta funcao utiliza um sistema de pesos optimizado para cada indicador da passagem de

forma a atribuir uma maior pontuacao as passagens mais relevantes.

As ontologias, dicionarios e thesaurus contem termos organizados por significado, classificacao e

sinonimos, respectivamente. Estas 3 fontes externas conseguem contextualizar e expandir as palavras

de uma consulta, daı alguns projectos da area as utilizarem como um recurso para definir os seus indi-

cadores [6, 15].

As K passagens com maior pontuacao sao designadas por passagens candidatas [16, 17] e utilizadas

no modulo de processamento da resposta.

Modulo 3 - Processamento da resposta

Neste modulo estao criadas as condicoes para encontrar a resposta em linguagem natural a per-

gunta colocada ao sistema, porque se sabe a consulta extraıda no primeiro modulo e as passagens

candidatas extraıdas no segundo modulo. Para seleccionar qual das passagens em linguagem natural

esta mais proxima da resposta pretendida, podem ser utilizados metodos estatısticos e linguısticos.

E possıvel que mais do que uma das passagens candidatas respeite todos os criterios utilizados ate

agora. A forma se resolver esta situacao e recorrer a similaridade de textos de coleccoes de documen-

tos estruturadas, tais como a Wikipedia1 [18] ou nao estruturadas como a Internet [19] e decidir qual

a melhor passagem candidata. Apos tomada uma decisao, este sistema transforma partes relevantes

1www.wikipedia.com

6

da passagem utilizando metodos de linguagem natural e responde a pergunta inicialmente colocada. A

resposta a questao inicial do exemplo proposto, seria algo semelhante a “Em Portugal vivem 10 milhoes

de pessoas”.

Os sistemas QR ja comecaram a surgir no nosso dia-a-dia tais como o sistema Siri da Apple2

que consegue responder a um conjunto de questoes em linguagem natural utilizando a voz, a questao

“What time is it in Paris” (Que horas sao em Paris?) este sistema responderia a hora actual em Paris3.

Outro exemplo e o sistema QA@L2F que responde a questoes tais como “Quem foi Henrik Ibsen?” com

a resposta “dramaturgo noruegues” [19].

2.2 Sistemas de retorno de passagens

Os sistemas de retorno de passagens utilizam consultas para pesquisar passagens relevantes numa

coleccao de documentos [20, 21, 22]. Estes sistemas sao constituıdos por dois modulos:

1) Passaging: onde e feita a segmentacao, filtragem e armazenamento de passagens.

2) Passage ranking: que define o conjunto de passagens candidatas a partir de criterios e indicadores

de relevancia.

O objectivo destes sistemas e saber o conjunto de passagens da coleccao de documentos que

possam ser mais importantes para responder a uma questao. O modulo de passaging esta bem con-

solidado por autores como Hussain et al. [23], Liu et al. [24] e Veravalli et al. [25] que utilizaram

marcas de separacao como pontos finais, linhas em branco ou janelas fixas de M bytes para fazer a

segmentacao de passagens de um documento. As stopwords sao uma lista de termos considerados

sem significado no contexto de uma pesquisa. Geralmente esta lista contem preposicoes, artigos e

adverbios , tal como explicado por Manning et al. [26]. O stemming e substituicao de um termo pela

sua raiz [27], palavras da mesma raiz tem um significado etimologico comum. Os termos “livrinho” e

”livreiro” tem como raiz o radical livr, o que indica que os dois termos fazem parte da mesma famılia de

palavras. Sao aplicados filtros de remocao de stopwords destas passagens e opcionalmente pode ser

aplicado stemming ao conjunto de passagens. As passagens sao de seguida indexadas e armazenadas

num repositorio, tal como numa base de dados.

O modulo de passage ranking tem como intuito a ordenacao das passagens de acordo com a sua

pontuacao. A cada passagem e associada uma pontuacao atribuıda por uma funcao de pontuacao (FP)

que e constituıda por um conjunto de indicadores de relevancia. Alguns indicadores mais comuns sao:

CS, BM25, PageRank, similaridade do co-seno, TF, IDF e TF*IDF, que estao presentes nos projectos

2www.apple.com/pt/3www.youtube.com/watch?v=l9iXUxPbDQg

7

do trabalho relacionado da seccao 3.1. O CS sao os termos em comum entre uma consulta e uma pas-

sagem [28]. A frequencia relativa de um termo (TF) e a taxa entre a frequencia do termo no documento

e a frequencia maxima observada por um termo qualquer desse documento. A Inverse Document Fre-

quency (IDF) mede a taxa de vulgaridade de um termo numa coleccao, para isso, computa o logaritmo

da taxa entre o numero de documentos da coleccao e do numero de documentos que contenham o

termo. A funcao TF*IDF apresenta como output valores no intervalo [0,1] e atribui maior importancia

aos termos que apresentarem um TF*IDF mais proximo de 1. A FP e portanto um dos factores de maior

distincao entre os projectos desta area, visto que e a forma de combinar os indicadores de relevancia

que determina a relevancia da passagem.

Pode ser difıcil determinar manualmente a forma da FP. Nesse caso, pode ser apropriado a utilizacao

de tecnicas de Machine Learning, nomeadamente na area de Learning to Rank (L2R).

2.3 Learning to Rank

De modo a determinar os pesos atribuıdos a cada indicador do capıtulo anterior, podem-se aplicar

tecnicas de L2R [29]. L2R e uma aplicacao dos sistemas de Machine Learning (ML) aos problemas

de retorno de documentos. Estes sistemas detectam padroes que indiciam se uma resposta e melhor

que outra. Neste contexto, o objectivo destes sistemas e encontrar, de forma automatica, um modelo

de pontuacao recorrendo a um conjunto de dados. Cada elemento do conjunto de dados (dataset) e

composto por uma questao qi , um vector de indicadores x, que representa um documento, e um grau

de verdade yi associado a esse vector. Os vectores de indicadores sao obtidos a partir de uma funcao

que extraı propriedades relevantes entre a questao e o documento. O grau de verdade classifica, dentro

de uma gama de valores, a relevancia do documento.

Na Figura 2.2 encontra-se representado um sistema de L2R. O conjunto de dados e dividido de

forma a poder ser utilizado pelos dados de treino, dados de teste e dados de validacao. A tarefa do

modulo de aprendizagem e encontrar um modelo que se adapte a solucao do problema, tendo como

base os dados de treino. Os dados de teste sao compostos pelos elementos do conjunto de dados sem

o grau de verdade. Para determinar se a hipotese gerada pelo modulo de aprendizagem mapeia cor-

rectamente uma questao associada a um vector de indicadores, o modelo e testado com os dados de

teste originando uma predicao. Avalia-se o desempenho da hipotese, utilizando uma funcao de perda

(LF - loss function) que faz a medicao do erro entre o grau de verdade do conjunto de dados e predicao

calculada pelo modelo h(x). Os dados de validacao sao utilizados pelo algoritmo de aprendizagem para

ajustar os seus hyper parametros, tais como o numero de iteracoes do algoritmo. E atraves destes

parametros que os sistemas de L2R aprendem a melhor forma de combinar o vector de indicadores por

forma a minimizarem o erro.

Os Sistemas de L2R estao organizados em 3 categorias que definem a forma como sao aprendidos

os modelos:

- Pointwise: Focado nas pontuacoes individuais dos vectores de indicadores. Neste caso, a LF compara

8

Figura 2.2: Sistema de Learning to Rank adaptado de Liu et al. [30]

a distancia entre a pontuacao atribuıda ao vector de indicadores e a previsao a priori dessa pontuacao.

- Pairwise: Pontuacao relativa entre dois vectores de indicadores. Neste caso, a LF compara o numero

de vezes que um vector de indicadores esta correctamente a frente de um vector de indicadores menos

relevante, comparativamente com a previsao.

- Listwise: Focado na ordem da lista de todos os vectores de indicadores. Neste caso, a LF com-

para a distancia entre todas as pontuacoes dos vectores de indicadores comparativamente com essas

distancias na previsao.

Para fazer a avaliacao do modelo gerado pelo sistema de L2R pode ser utilizada a metodologia

experimental de validacao cruzada. Este metodo pressupoe que existe um conjunto de dados de N el-

ementos que pode ser dividido em B blocos de k elementos. Podem ser utilizados N-2k elementos para

fazer o treino do modelo (dados de treino), k elementos para fazer o teste do modelo (dados de teste) e

k elementos para fazer a validacao do modelo (dados de validacao). Este processo repete-se B vezes

de forma rotativa fazendo variar os blocos B pelos diversos conjuntos. Na Tabela 2.1, encontra-se um

exemplo de como seriam permutados os blocos de elementos utilizando a metodologia de validacao

cruzada com divisao do conjunto de dados em 5 blocos. A comparacao entre sistemas, pode ser feita

fazendo uma avaliacao do desempenho do sistema de L2R no final de cada iteracao (fold) da metodolo-

gia de validacao cruzada.

9

Tabela 2.1: Particao de um conjunto de dados utilizando 5-validacao cruzada, adaptado de MicrosoftResearch [31]

Dados de Treino Dados de Validacao Dados de Teste{B1,B2,B3} B4 B5{B2,B3,B4} B5 B1{B3,B4,B5} B1 B2{B4,B5,B1} B2 B3{B5,B1,B2} B3 B4

2.3.1 Modelo Linear

O modelo de regressao linear [32] e um processo que mapeia um vector de variaveis independentes

x numa imagem hw(x).

Este modelo aprende a partir dos dados de treino (vector de variaveis independentes X) a melhor forma

de gerar um hiperplano que lhe permita inferir previsoes hw(x) sobre uma label y de ground of truth.

Este modelo assume que existe um vector de pesos w que satisfaz a seguinte expressao:

hw(x) = w0 + w1x1 + w2x2 + . . . + wnxn = wTX

Os pesos desconhecidos w1, . . . , wn sao inicializados pelo algoritmo e e criado um hiperplano

aleatorio IRn+1. A intuicao por detras deste modelo e reduzir a diferenca ξ entre o valor pre-observado

y de ground of truth e o valor do hiperplano hw(x) para cada um dos pontos da hipotese do hiperplano:

|ξ| = |y − hw(x)|

Este problema pode agora ser entendido como uma reducao da soma dos erros quadraticos para

cada um dos elementos dos dados de treino, sendo a expressao resultante L(w) = Σni=1|y − hw(x)|2.

A partir da expressao anterior e aplicando a aproximacao dos mınimos quadrados e possıvel deduzir∂L(w)∂w =0. Em Learning to Rank, L e geralmente uma funcao de gradiente descendente para que seja

possıvel garantir que e possıvel o algoritmo convergir.

A colinearidade de indicadores permite remover indicadores que partilhem variancia, por exemplo, se

existir um indicador 1 que esta sempre a uma distancia media de cinco unidades de um indicador 2,

entao podemos estar num caso de colinearidade e pode fazer sentido remover um dos indicadores da

equacao do ponto de vista computacional.

Apos eleito o vector de pesos W que minimiza L e introduzido na expressao o w0 que e tambem con-

hecido por bias e traduz a diferenca entre a predicao media do modelo e a predicao esperada.

2.3.2 Modelo Logıstico

O modelo logıstico [33] e um processo que obtem uma curva sigmoide que se ajusta aos dados de

treino.

10

Quando se usa o modelo logıstico, geralmente estamos na presenca de uma variavel Y discreta, tal

como referido por Yih et. al [34]. Neste projecto a variavel de ground of truth assume os valores de

relevante/nao relevante na label do conjunto de treino.

O primeiro passo deste modelo e calcular o logaritmo da razao de possibilidades de Y para que a

variavel de ground of truth fique linearmente relacionada com o valor do vector de variaveis indepen-

dentes X. Isto normalmente e interpretado como a probabilidade de um evento acontecer (Y=’relevante’)

ou de nao acontecer (Y=’nao relevante’). O modelo pode ser descrito por:

logit(p) = log[ p1−p ] = XTW

Onde Y e um evento, p e a probabilidade do evento acontecer (Y=1) e por consequencia (1-p) e a

probabilidade de o evento nao acontecer (Y=0). O valor de p1−p e o racio entre a probabilidade de um

evento ocorrer num grupo e a probabilidade do complementar desse evento. O logaritmo desta razao e

designado de logit.

O problema torna-se bastante semelhante ao de uma regressao linear pois e possıvel prever o que

ira acontecer de acordo com uma funcao dependente da matriz transposta de X. Resumindo, o modelo

de regressao logıstica determina a probabilidade de acontecer Y (isto e, Y = 1), dado um valor especıfico

de X. Depois de estabilizado o modelo e de encontrado o vector de pesos W, o modelo podera inferir

previsoes com base na seguinte condicao de probabilidade:

p(y = 1|(x1, ..., xn)) = eXT W

1+eXT W

2.3.3 Modelo SVM

O SVM a semelhanca dos modelos anteriores, faz o mapeamento de um vector de variaveis inde-

pendentes x numa imagem hw(x) [35] [36] [37].

Atraves de vectores de variaveis independentes X, contidos no conjunto de treino, o SVM produz um

hiperplano. O objectivo do SVM e encontrar um hiperplano linear com maior margem de separacao

entre elementos de ground of truth opostos.

O hiperplano encontrado pelo modelo deve minimizar a expressao 12w

Tw + C∑li=1 ξi, onde C e o

parametro de penalizacao do termo do erro (ξi). O factor Cξi e muitas vezes referido na literatura como

risco empırico.

Para que a equacao anterior, possa ser aplicada e ainda preciso garantir que:

ξi ≥ 0

yi(< wi, xi > +b) ≥ 1− ξiOnde b e uma constante definida pelo metodo de implementacao do modelo. A solucao deste

sistema de 3 equacoes, pode ser obtida utilizando calculos avancados matematicos que utilizam o

metodo dos multiplicadores de Lagrange.

LMultiplier(w, b, α) = 12w

Tw + C∑li=1 αi(yi(< wi, xi > +b))− 1 + ξi

11

O resultado desta expressao, ira produzir um hiperplano nao linear que separa os dados do con-

junto de treino. Para linearizar a solucao do problema de SVM (e dos modelos anteriormente vistos)

e possıvel utilizar nucleos, cujo objectivo e precisamente modelar um hiperplano nao linear num hiper-

plano linear noutro espaco de dados.

2.3.4 Nucleos dos modelos

Os nucleos sao funcoes que recebem como input um hiperplano nao linear gerado por um dos mod-

elos supracitados a partir dos vectores de variaveis aleatorias dos dados de treino. Os nucleos geram

entao como output, para o modelo, um espaco de maior dimensao, mas cuja solucao do problema e

linear, o que permite aos modelos efectuar calculos mais simples. Apos encontrada a solucao linear

que satisfaz o hiperplano que corresponde a solucao do problema, o nucleo permite mapear de volta a

solucao no espaco de menor dimensao a que correspondem os vectores de variaveis aleatorias [38].

Foram utilizados tres tipos de modelos na avaliacao experimental deste projecto. No caso do mod-

elo linear, o RapidMiner Studio utiliza a designacao de nucleos na seleccao de algoritmos de feature

selection. No modelo linear podem-se utilizar como nucleos: None, M5 prime, o Greedy e o T-Test. O

nucleo None estima um vector de pesos desconhecidos recorrendo a processo de mınimos quadrados.

Os nucleos M5 prime e o Greedy baseiam-se no Criterio de Informacao de Akaike (AIC). De modo

sucinto o AIC permite um trade-off entre o aumento dos atributos do modelo e a reducao do erro. No

modelo linear o AIC e caracterizado pela seguinte equacao:

AIC = log[RSSn ]n+ 2K

Em que K e o numero de atributos do modelo, RSS e um termo que representa o erro (soma dos

quadrados residuais) e n representa o numero de amostras. O AIC nao quantifica a qualidade do ajuste

de um modelo em particular, no entanto permite comparar varios modelos e seleccionar aquele que da

a menor perda de informacao. Para o mesmo numero de atributos e de amostras, quanto maior for o

erro e por consequencia o coeficiente entre o erro e o numero de amostras, maior e o valor do AIC.

Assim conclui-se que o modelo preferido sera o que obtiver o valor mınimo de AIC, isto e que minimiza

a perda de informacao.

Em cada iteracao do nucleo M5 Prime e seleccionado o atributo com o menor coeficiente, sendo este

removido, e executando-se de seguida outra regressao. Se o resultado melhorar o AIC, isto e, se este

parametro diminui, entao o atributo e definitivamente eliminado. Este processo repete-se ate que mais

nenhum atributo seja definitivamente eliminado. Resumindo, o processo termina quando se executa

uma nova regressao, apos ser seleccionado e removido um atributo, e esta nao e caracterizada por um

valor inferior do AIC.

O nucleo Greedy, selecciona um atributo aleatorio e verifica se ao remove-lo o AIC melhora.

Este metodo e repetido ate que mais nenhum atributo seja removido. O T-test este em vez de utilizar o

AIC como parametro para seleccionar os atributos mais relevantes, considera o valor p. Para descrever

12

este parametro e necessario considerar algumas variaveis. Sabe-se que o valor de t e caracterizado

pela seguinte equacao:

t = x−µ0s√n

Em que x e a media da amostra, µ0 e o valor observado, s e o desvio padrao amostral e n o tamanho

da amostra. E utlizado o desvio padrao amostral (s) por que normalmente nao e conhecido o desvio

padrao da populacao (σ).

s =√

1n−1

∑ni=1(xi − x)2

Considera-se uma distribuicao t-student que e caracterizada por valores muito baixos ou muito altos

terem menor probabilidade de ocorrer, isto e, que e menos provavel que a media de uma amostra tenho

valores distantes da media da populacao. O formato desta distribuicao depende do numero de graus

de liberdade, resumindo, quantos mais tiver mais junta e a distribuicao. Aplica-se o valor t a funcao

densidade de probabilidade da distribuicao t de Student e mede-se a area que corresponde a valores

maiores ou iguais a t. Esta area e o valor p e representa a probabilidade media de as amostras terem

os valores observados. Por outro lado o nıvel de confianca (α) e igual a 1- valor p. Se o valor p for muito

pequeno significa que o resultado observado e estatisticamente relevante.

O T-Test tem como objectivo remover todos os atributos com um valor p-valor inferior a um valor do

nıvel de confianca (α) especıfico.

O modelos logıstico e o SVM utilizam os nucleos: Dot, Radial, Polynomial, Neural, Anova, Epach-

nenikov, Gaussian combination e multiquadric. As formulas matematicas que permitem a conversao do

espaco do conjunto de dados (numero de indicadores existente no dataset) para um espaco de uma

dimensao maior, em que a solucao do problema e linear, estao descritas na Tabela 2.2.

Tabela 2.2: Formulas matematicas dos nucleos dos modelos logıstico e SVM [39]

Nucleo k(x, y)Dot x ∗ y

Radial e−g||x−y||2

Polinomial ((x ∗ y + 1)d

Neural tanh(ax ∗ y + b

)Anova (

∑e−g(x−y))d

Epachnenikov (3/4)(1− u2)Multiquadric sqrt||x− y||2 + c2

Os algoritmos de machine learning apenas utilizam o nucleo para computar a solucao do problema.

Apos a geracao do hiperplano com menor grau de erro (tendo em conta os dados de treino e de

validacao), o sistema converte o hiperplano da solucao para o espaco dimensional do conjunto de

dados. Desta forma, na fase de testes e possıvel desenhar vectores de indicadores que sao catalogados

como relevantes ou nao relevantes de acordo com o seu posicionamento em relacao ao hiperplano de

separacao de classes.

13

2.4 Indexacao e extraccao de meta-dados utilizando a estrutura

dos livros

Durante centenas de anos confiamos a tarefa de indexacao de livros a indexadores profissionais.

Esta tarefa e de tal modo importante que em 1976 foi fundada a American Society For Indexing4, uma

sociedade que define as regras de um bom ındice remissivo e reune os melhores indexadores a nıvel

mundial em conferencias anuais. Esta sociedade define um ındice como sendo:

“Um conjunto de entradas sistematicas desenhado para permitir aos utilizadores encon-

trarem informacao num documento.”

Como se sabe as informacoes do ındice e ındice remissivo sao bastante valiosas. Existem milhares

de repositorios de livros digitalizados utilizando tecnicas de Optical Character Recognition (OCR). Al-

guns dos projectos com maior entoacao sao Project Gutenberg5, Google Print6 e Open Content Al-

liance7. De acordo com a Online Computer Library Center (OCLC) o projecto do Google Print ja conta

com 12.3 milhoes de livros [40].

Gregory Crane no seu artigo [41] explica como se pode tirar vantagem destes repositorios para de-

senvolver sistemas de pesquisa mais robustos.

Segundo este autor, a estrutura do livro pode servir para inferir categorias de conhecimento. Estas cat-

egorias podem ser utilizadas para agregar informacoes de varios livros permitindo criar conhecimento.

Os autores Huggett et al. [42] defendem tres metodos de indexacao de informacao de livros, or-

ganizados pelos seguintes nıveis de abstraccao:

- Micro-nıvel: pesquisa utilizando o ındice e ındice remissivo do livro.

- Meso-nıvel: pesquisa utilizando bibliotecas de atribuicao semantica a termos e conceitos.

- Macro-nıvel: pesquisa em meta-dados (por exemplo, autor e tıtulo).

O Micro-nıvel e constituıdo por elementos criados por um indexador profissional que sabe como

agregar da melhor forma as seccoes e termos do livro por categorias. No ano de 2013 estes autores

chamam a atencao que o Micro-nıvel ainda e pouco explorado em projectos de pesquisa de informacoes

em documentos.

O Meso-nıvel, segundo Gregory Crane, encontra padroes nas relacoes semanticas entre entidades,

contidas nas frases de um livro. Este nıvel torna-se portanto propıcio aos mecanismos de Named Entity4www.asindexing.org/5www.gutenberg.org/6books.google.com/7www.opencontentalliance.org/

14

Recognition (NER) que podem analisar novos padroes devido a estas coleccoes serem mais extensas.

O Macro-nıvel e constituıdo pelos meta-dados associados aos ficheiros e pelos meta-dados conti-

dos na formatacao do documento. Os primeiros tipos de meta-dados sao de extraccao directa, porque

a estrutura dos sistemas de ficheiros ja contemplam a extraccao de campos como o tıtulo do livro e

autor (estrutura ODS-58 no sistema Windows). A formatacao dos documentos esta longe de ser uma

linguagem universal, mas existem algumas heurısticas que podem ser consideradas para atribuir um

significado a passagens de acordo com a formatacao. Por exemplo, quando no topo de uma pagina

aparece uma frase curta, com um tipo de letra a bold e com um tamanho de letra maior do que os

restantes elementos na pagina, existe elevada taxa de probabilidade de se tratar de um tıtulo. Candeias

et al. [43] utilizam o estado da arte de Machine Learning para criar uma solucao para este segundo

tipo de problemas. Foram extraıdos 4 tipos de meta-dados principais (cabecalho, resumo, conteudo

principal e referencias) e 14 meta-dados que descendem dos anteriores.

Walid Magdy et. al [44] utilizam indicadores de Micro-nıvel para atribuir diferentes pontuacoes a

frases de um documento. A arquitectura deste projecto ira incidir sobretudo na linha de raciocınio dos

nıveis de abstraccao Micro-nıvel e Macro-nıvel.

2.5 Seleccao de palavras-chave de documentos

Uma palavra-chave e um termo que resume os principais temas de um texto. Devido as suas

propriedades de sıntese as palavras-chave sao um elemento fulcral na identificacao de passagens de

texto significativas. O mundo Web motivou o aparecimento da area de seleccao de palavras-chave, por

facilitar a extraccao da formatacao em documentos digitais.

A Figura 2.3 apresenta tres metodos que permitem fazer a seleccao de palavras-chave automatica-

mente: i) Estatısticos ; ii) Pesos de propriedades e iii) Machine Learning. Em seguida serao descritas

brevemente as ramificacoes mais relevantes para este projecto.

Metodos Estatısticos

Um exemplo de metodos estatısticos e a utilizacao da frequencia de n-gramas. N-gramas sao seg-

mentos de N termos sequenciais num texto. Por exemplo, na frase: “O numero de portugueses foi

divulgado hoje pelo Instituto Nacional de Estatıstica”, se o bi-grama “Instituto Nacional” for frequente no

documento em que esta passagem se encontra, isto pode indicar que estes dois termos em conjunto

sao uma palavra-chave do documento [45].

Pesos de propriedades

As palavras-chave tendem a ser nomes. Esta e uma propriedade linguıstica que pode ser verificavel

recorrendo a sistemas de part-of-speech tagging(POS). Igualmente, propriedades como o destaque a

negrito, italico, sublinhado ou numa posicao de destaque, como tıtulo ou sumario de um documento sao

geralmente indicadores de palavras-chave. Podemos identificar ainda palavras-chave a partir do tipo

8en.wikipedia.org/wiki/Files-11

15

Figura 2.3: Metodos utilizados para seleccao de palavras-chave

de fonte ou tags HTML se estivermos a falar de conteudo Web [8, 51].

16

Capıtulo 3

Trabalho Relacionado

Esta seccao contem uma introspeccao mais alargada em projectos que estao relacionados com o

desenvolvimento da proposta apresentada. A seccao 3.1 descreve a forma como multiplos projectos

integram o modulo de retorno de passagens. A seccao 3.2 foca-se em como e possıvel utilizar as

seccoes de um livro para localizar as suas passagens mais relevantes. A seccao 3.3 menciona projectos

em que foram utilizadas tecnicas e indicadores de L2R semelhantes aos da proposta deste projecto.

3.1 Retorno de passagens em sistemas QR

Neste capıtulo analisam-se algumas semelhancas e diferencas entre as funcoes de pontuacao (FP)

que os varios sistemas implementaram nos modulos de passage ranking para atribuir uma pontuacao

a uma passagem. Estes projectos tem em comum tecnicas sintacticas e semanticas que determinam

qual o conjunto de passagens mais relevantes para uma consulta (Tabela 3.1).

O conjunto de sobreposicao (CS) sao os termos em comum entre uma consulta e uma passagem

[28], este conceito e transversal a todos os sistemas referenciados neste capıtulo. O sistema de re-

ferencia MITRE, dos autores Light et al. [28], atribuı relevancia as passagens apenas com base no

numero de termos que estao no CS. Apesar da simplicidade deste metodo, em 39% dos testes as

primeiras 10 passagens com maior pontuacao sao relevantes a consulta. Foi testado se era possıvel

aumentar a taxa de sucesso utilizando o somatorio do IDF dos termos do CS. Em conclusao, foram

obtidos resultados bastante semelhantes.

JIRS [57] e um sistema de questao-resposta que utiliza no seu modulo de passage ranking uma

funcao de pontuacao que tem em conta a distancia de afastamento (L) entre os dois n-gramas mais

Tabela 3.1: Tecnicas utilizadas em sistemas questao-resposta

T. sintacticas T. semanticasMITRE [28] XJIRS [57] XCarmel et al. [58] XBilotti et al. [6] X XIBM [15] X X

17

relevantes de uma passagem. Considere o exemplo, em que seriam pontuadas as passagens p1 e p2

com base no seu grau de relevancia para a consulta abaixo referida.

pergunta : “

0︷︸︸︷Qual

0.19︷︸︸︷e

0.01︷︸︸︷a

0.2︷︸︸︷capital

0.1︷︸︸︷de

0.5︷︸︸︷Portugal?”

p1 : “Lisboa,capital de Portugal.

L=0

”

p2 : “Lisboa,a capital conhecida pelos melhores pasteis de nata

L=6

de Portugal.”

Cada termo da consulta, tem associado um peso, que esta relacionado com a importancia de cada

termo no documento. Os passos do algoritmo utilizados neste projecto foram:

1) Calcular a importancia de cada termo da consulta (utilizando o TF*IDF para cada um dos termos).

2) Determinar o CS (representado a negrito).

3) Identificar todas as combinacoes de n-gramas que estejam no CS.

4) Encontrar a distancia entre todos n-gramas. A maior distancia entre n-gramas e considerada a

distancia de afastamento da passagem (L).

A pontuacao da primeira passagem trata-se apenas da soma da importancia dos seus termos,

porque nao existe distancia de afastamento (L=0).

FP (“capital” “de” “Portugal”) = 0.2 + 0.1 + 0.5 = 0.8

A pontuacao da segunda passagem leva em conta um factor de penalizacao d devido a existencia

de uma distancia de afastamento L nao nula na passagem.

d = 1 + 0, 1.ln(1 + L) = 1 + 0, 1.ln(1 + 6) = 1.08

A funcao de pontuacao da segunda passagem soma a pontuacao do n-grama de maior dimensao

(“de Portugal”) com um factor de penalizacao que afecta o n-grama de menor dimensao (“a capital”).

FP (“a” “capital”, “de” “Portugal”) = (0.1 + 0.5) + (0.2 + 0.01

1.08) = 0.79

Como se percebe ambas as passagens sao relevantes, no entanto penaliza-se a segunda passagem

devido a sua informacao nao estar tao condensada como a da primeira.

A escolha da funcao de pontuacao vai influenciar bastante o comportamento de cada sistema, os

projectos da Tabela 3.2 utilizam outros metodos sintacticos nas suas funcoes de pontuacao.

Recentemente, Carmel et al. [58] apresentaram uma nova perspectiva sobre como abordar o prob-

18

Tabela 3.2: Metodos sintacticos

Re-ranking [59, 60]Co-ocorrencia de termos [61]Fuzzy Logic ou Similaridade do co-seno [62, 63]

Figura 3.1: Funcoes de densidade do CS do projecto de Carmel et al. [58]

lema de Retorno de Passagens. O princıpio subjacente a funcao de pontuacao deste projecto e que

qualquer termo da pergunta afecta a pontuacao de uma passagem. Cada termo e representado por

uma funcao de densidade que traduz a probabilidade de encontrar um termo numa dada passagem do

documento, tendo em conta a sua posicao. A pontuacao de uma passagem e a soma das areas das

funcoes densidade dos varios termos do conjunto de sobreposicao, como ilustrado na Figura 3.1. Tal

como e possıvel observar na figura, apesar de o termo t1 e termo t2 nao estarem na passagem 2, estes

influenciam a funcao de pontuacao da passagem 2.

Os metodos semanticos utilizam fontes externas de informacao que atribuem significado aos termos

de um texto. Para atingir este fim sao geralmente utilizados dicionarios, ontologias, thesaurus, classe

gramatical (POS) ou sistemas cuja sua funcao seja a extraccao de relacoes semanticas. Bilotti et al. [6]

criaram um grafo de anotacoes G, formado por elementos E, relacoes semanticas R e relacoes entre

elementos validos T.

G = (E = {e1, ..., e|E|}, R = r1, ..., r|R|, T )

Os elementos sao os termos da coleccao. A cada termo ei e associado um termo pai, que e um

hiperonimo do termo ou e nulo caso o hiperonimo seja desconhecido. As relacoes R validas entre

cada par de elementos sao descobertas utilizando metodos de combinacao linguıstica e semantica.

Primeiramente sao definidos um conjunto de relacoes e elementos validos de primeira ordem. Sempre

que existe a sobreposicao de regras de primeira ordem cria-se uma regra de segunda ordem composta

pelas regras sobrepostas. Por exemplo, se as regras “O filho de uma pessoa e uma pessoa” e “O

pai do uma pessoa e uma pessoa” sao validas, entao a regra de segunda ordem resultante da sua

combinacao seria “O avo de uma pessoa e uma pessoa”. Para interpretar a Figura 3.2, utiliza-se a

pergunta “O Cristiano Ronaldo estava no Benfica em 1996?” e considera-se a passagem mais relevante

“O Cristiano Ronaldo jogou futebol no Sporting em 1996”.

Os termos “Cristiano Ronaldo”, “Benfica” e “1996”, sao respectivamente transformados nos seus

termos pai “Pessoa”, “Clube” e “Data”. Desta forma, torna-se evidente que apesar de o termo “Benfica”

nao constar na passagem mais relevante, existe uma grande semelhanca entre as relacoes semanticas

19

Figura 3.2: Grafo de anotacoes de Bilotti et al. [6]

da pergunta e da passagem com base nos seus termos pai. Ao conjunto de relacoes em comum entre

a pergunta e a passagem chama-se relacao de involucro [6] (representadas pelas setas a tracejado). E

atribuıda maior pontuacao as passagens que apresentem maior numero de relacoes de involucro.

O sistema de questao-resposta IBM’s Statistical Question Answering System [15] e um projecto

que faz a pontuacao de passagens tendo em conta quatro metodos sintacticos e dois semanticos, iden-

tificados abaixo:

- Soma do IDF dos termos do conjunto de sobreposicao entre a pergunta e a passagem.

- Soma do IDF dos termos que ocorrem na pergunta, mas nao ocorrem na passagem.

- Distancias na passagem entre termos do CS da pergunta e passagem.

- Ocorrencia de termos adjacentes entre pergunta e passagem.

- Soma do IDF dos termos da pergunta cujos sinonimos do WordNet1,2 estao na passagem.

- Numero de presenca de termos na morfologia, POS, relacoes gramaticais e tags em comum entre a

pergunta e a passagem.

Cada um destes metodos e utilizado para calcular uma pontuacao para cada passagem em relacao

a uma consulta. A funcao de pontuacao final atribuı igual peso a cada um dos seis metodos. Este

projecto e considerado um sistema de baseline por varios projectos da area tais como Severyn et al.

[64].

3.2 Indexacao e extraccao de meta-dados utilizando a estrutura

dos livros

Magdy et al. [44] extraıram e indexaram o ındice, ındice remissivo, cabecalhos, tıtulo das paginas e

tıtulo do livro. Com o objectivo de encontrarem os livros mais relevantes a uma pergunta. Segundo a

avaliacao deste sistema os cabecalhos e tıtulos sao os que mais peso tem na procura do documento

mais relevante. No entanto, os resultados deste projecto nao foram os esperados. Neste sistema

utilizou-se a coleccao de livros INEX3 que foram convertidos para formato digital atraves de tecnicas

de Optical Character Recognition (OCR) pouco fidedignas. Os autores referem que este foi o principal

1WordNet - Uma base de dados lexical semelhante a um thesaurus2wordnet.princeton.edu/3INEX Book Search Track - www.inex.otago.ac.nz/tracks/books/books.asp

20

factor de empobrecimento dos resultados finais e que esperavam obter resultados diferentes 4.

Na equacao 3.1 encontra-se a funcao de pontuacao, que atribuı um peso w a cada termo da per-

gunta tq consoante este esteja presente ou nao numa seccao s do documento D.

FP (Q,D) =∑tq∈Q

∑s∈D

ws(tq) (3.1)

Os pesos utilizados foram obtidos atraves do indexador Indri search toolkit. Estes autores deixaram

como trabalho futuro a possibilidade de se extraırem novamente cada uma das seccoes do livro uti-

lizando novos metodos OCR. No entanto nos ultimos 7 anos os autores nao voltaram a realizar nenhum

projecto de investigacao neste ambito.

Wu et al. [66] utilizam o ındice remissivo para encontrar as passagens mais relevantes em livros.

Estes autores utilizam o mesmo dataset que o projecto descrito acima. Um documento e composto por

passagens e estas sao constituıdas por palavras, que podem ou nao ser termos-chave. Como as pas-

sagens sao pedacos de texto relativamente reduzidos pode-se assumir que quando duas passagens

contem os mesmos termos-chave, estas sao semelhantes entre si. A isto chama-se ancoragem de pas-

sagens. O algoritmo de pontuacao deste projecto atribui pontuacao as passagens ancoras utilizando

um mecanismo de TF-boosting, ou seja:

1) Calcular TF de todas as passagens.

2) Encontrar passagens ancoras em documentos diferentes.

3) A pontuacao das passagens ancoras e a soma do seu TF com o TF de todas as suas passagens

ancoras

Este algoritmo permite de forma elegante, atribuir maior peso as passagens que sao mais men-

cionadas em documentos diferentes. O resultado final deste algoritmo nao produziu resultados que

melhorassem o estado da arte actual.


Verberne et al. [60, 13] criaram um sistema de why-QA (ver Seccao 2.1) que utiliza 37 indicadores

de relevancia. Alguns dos indicadores mais relevantes foram o tıtulo do documento e os sinonimos

dos termos da questao (descobriu-se que estes sinonimos estao geralmente contidos na passagem

com maior pontuacao do conjunto de dados). Como o objectivo de Verberne et al. e a comparacao do

comportamento de varios sistemas L2R mantendo os mesmos dados de treino, foram feitos testes que

utilizaram as 3 categorias (pointwise,pairwise e listwise). Estas categorias utilizaram os algoritmos de

ML: i)Naive Bayes, Support Vector Classification (SVC), Support Vector Regression (SVR), Regressao4Os dados de treino do INEX contam desde 2009 com mais 527 ındices de livros e desde 2011 com mais 1000 livros que em

2007 [65], por isso, os projectos posteriores podem prosperar com estas actualizacoes.

21

logıstica ii)Ranking SVM iii) Algoritmo genetico. As why-questions utilizadas nos dados de treino foram

extraıdas da Wikipedia, Webclopedia5 e Answers.com.

Os sistemas que melhor se comportaram foram os que utilizaram o algoritmo de machine learning

SVR ou o Algoritmo genetico. Os autores, em [13], ressalvam que o metodo de Logistic Regression

atingiu bons resultados utilizando os valores de omissao. No entanto, os algoritmos que tiveram melhor

desempenho que o anterior precisaram que fossem ajustados os seus parametros manualmente.

O Stack Overflow6 e uma enciclopedia colaborativa online que permite a inclusao e edicao de novas

perguntas que sao virtualmente colocadas/respondidas por qualquer pessoa. Para ordenar por grau

de relevancia as respostas de cada pergunta, os utilizadores deste website tem a capacidade de votar

quais as respostas mais correctas. No entanto, devido a flexibilidade destes sistemas, podem surgir

problemas sempre que uma das respostas a pergunta seja alterada, porque as pontuacoes anteriores

podem nao espelhar as novas actualizacoes. Para lidar com este problema Dalip et al. [67] propoem

a utilizacao de 98 indicadores textuais e 88 indicadores nao textuais utilizados para treinar um sistema

de L2R. Por exemplo sao utilizadas propriedades HTML da pagina web onde se encontra a questao e

funcoes tıpicas de IR como o BM25, conjunto de sobreposicao (CS) de termos ou frases e distancias

maximas entre palavras da pergunta e da resposta. O modulo de aprendizagem utilizado e baseado

em Random Forests (RF) com a categoria Pointwise e tem como input o conjunto de triplos pergunta-

resposta-grau de verdade atribuıdas pelos utilizadores em perguntas passadas.

Os autores Ageev et al. [68] descobriram que, quando se navega na web examinamos mais aten-

tamente as passagens com maior relevancia. Os indicadores de eventos comportamentais, assim

designados neste projecto, podem dar algumas pistas sobre o grau de interesse dos utilizadores numa

passagem e revelar quais as mais relevantes relativas a uma pergunta. Os indicadores considerados

pelos autores para treinar o modelo de aprendizagem, foram:

- Tempo que o cursor do rato esta sobre uma passagem.

- Tempo que o cursor esta a uma distancia entre 70-100px de uma passagem.

- Numero de cliques do cursor sobre uma passagem.

- Numero de cliques quando o cursor esta a uma distancia entre 70-100px de uma passagem.

- Tempo que a passagem esteve visıvel na janela do browser.

- Tempo que a passagem esteve visıvel no centro do ecra.

- Propriedades da pagina web visitada.

O modulo de aprendizagem contem uma funcao de pontuacao que utiliza o metodo de regressao

em arvore. Na equacao 3.2, a funcao BSCORE trata-se do modelo aprendido pelo algoritmo de L2R

atraves dos dados de treino. No entanto, os autores nao utilizam apenas esta funcao para pontuar

as suas passagens. E introduzida uma funcao TextScore cujo seu peso na solucao final e controlado

por uma constante λ cujo valor varia entre 0 e 1. A funcao TextScore trata-se da soma simples de

uma pontuacao de frequencia, proximidade e cobertura utilizando os termos do CS. Assim a funcao de5http://www.isi.edu/natural-language/projects/webclopedia/6http://stackoverflow.com/

22

pontuacao final tem a forma:

FP (q, p) = λ.BScore(q, p) + (1− λ).T extScore(q, p) (3.2)

Os resultados finais confirmam que os indicadores utilizados pela funcao BSCORE, resultante do

sistema de L2R, melhoram a performance da funcao de pontuacao quando λ=0.8. Este projecto conclui

ainda dois aspectos importantes para a motivacao da proposta de tese:

- Existem indicadores de passagens relevantes que podem nao estar a ser utilizados pelas funcoes de

pontuacao do estado da arte actual.

- As tecnicas de Machine Learning podem potenciar o aparecimento de funcoes de pontuacao mais

robustas.

23

Capıtulo 4

BiblioMiner

O sistema BiblioMiner combina variantes de tecnicas e recursos utilizados no passado em sistemas de

retorno de passagens, seleccao de palavras-chave, indexacao e extraccao de meta-dados utilizando a

estrutura dos livros e L2R.

A arquitectura do sistema representada na Figura 4.1, utiliza um algoritmo de L2R para pontuar

todas as passagens dos livros e slides da bibliografia de uma disciplina. Os documentos da bibliografia

sao indexados pelo modulo de retorno de passagens (PR). Para cada pergunta de exame sao recolhi-

das as passagens candidatas retornadas pelo PR. Na votacao online os utilizadores associam a cada

par pergunta-passagem um grau de verdade. Apos a votacao os resultados sao pre-processados. No

modulo de extraccao e associacao de indicadores a votacao sao extraıdos os vectores de indicadores

pergunta-passagem e o respectivo grau de verdade. Estes dados vao fazer parte do conjunto de dados

utilizado pelo modulo de validacao cruzada. As iteracoes do sistema de L2R sobre estes dados resul-

tam num modelo de aprendizagem. O modulo de aprendizagem com melhor desempenho (modulos de

Desempenho L2R e MAX) e utilizado pelo sistema para proceder ao retorno das passagens mais rele-

vantes relativas a uma questao do utilizador. Nas proximas sub-seccoes vai ser dado enfase a criacao

do conjunto de dados e aos modulos do sistema de L2R.

Figura 4.1: Arquitectura do sistema BibioMiner

25

4.1 Elementos bibliograficos de uma disciplina

Os documentos da bibliografia (Figura 4.1) deverao obedecer a um conjunto de regras e ser dos

seguintes tipos:

- Livro: elemento estruturado em ındice, passagens de texto e ındice remissivo.

- Slide: elemento com passagens de texto nao estruturadas.

- Sumario: elemento com passagens de texto nao estruturadas.

- Exame: perguntas sobre materia contida nos livros, slides e sumarios.

Considera-se que para cada um dos tipos de elementos vai ser desenvolvido um mecanismo de

extraccao. As perguntas de exame e as passagens de todos os elementos bibliograficos devem estar

na mesma lıngua. Neste projecto serao considerados elementos bibliograficos em formato PDF, devido

a este ser um formato popular para divulgacao de documentos.

4.2 Criacao do conjunto de dados

Os sistemas de L2R precisam de dados de treino para criar uma hipotese no modulo de aprendiza-

gem e dados de teste para testarem a hipotese no modulo de pontuacao. Como nao foi encontrado um

conjunto de dados que satisfaca os requerimentos deste sistema, recorreremos a uma votacao online

para o criar. A criacao do conjunto de dados vai ser feita em 3 passos:

1) Classificacao da relevancia das passagens (representado pelos modulos de PR e votacao online

da Figura 4.1).

2) Pre-processamento do conteudo da votacao online (representado pela seta entre o modulo da

votacao online e extraccao e associacao de indicadores a votacao da Figura 4.1)

3) Extraccao e associacao de indicadores a votacao online (representado pelo modulo de extraccao

e associacao de indicadores a votacao da Figura 4.1).

4.2.1 Classificacao da relevancia das passagens

Para fazer a classificacao da relevancia das passagens em relacao a uma pergunta de exame,

utiliza-se um sistema de votacao online que permite classificar as passagens como relevante/nao rel-

evante. A votacao e restrita a uma equipa de avaliadores. Os elementos da bibliografia utilizados sao

os do SHELF, um repositorio com livros, slides e exames de disciplinas do curso de Telecomunicacoes

e Informatica. Serao consultados manualmente os sumarios de cada disciplina e criada uma coleccao

bibliografica para as disciplinas do primeiro semestre de mestrado do curso mencionado.

26

No modulo de retorno de passagens (PR) da Figura 4.1 os livros e slides serao indexados recorrendo

ao sistema Whoosh1, um indexador de texto. Sera elaborada manualmente uma lista de perguntas de

exames passados das disciplinas. Para cada pergunta inserida no sistema Whoosh vao ser retornadas

K passagens (utilizando a funcao de retorno de passagens TF*IDF) que vao poder ser visualizadas

online, para que os avaliadores do sistema as possam votar como relevantes/nao relevantes. No fi-

nal deste processo teremos uma pergunta associada a um conjunto de passagens relevantes e a um

conjunto de passagens nao relevantes.

4.2.2 Pre-processamento do conteudo da votacao online

O conteudo dos documentos da bibliografia apresenta por si so termos que nao sao relevantes para

um sistema de pesquisa. Vao ser testadas varias tecnicas de pre-processamento, tais como a remocao

de elementos ruidosos/stopwords2, stemming, normalizacao, parsing sintactico, definicao do tamanho

da passagem e definicao do numero de palavras que compoe cada termo [23, 24, 25].

4.2.3 Extraccao e associacao de indicadores a votacao online

O modulo de aprendizagem deste projecto vai ser treinado para identificar quais os elementos do

vector de indicadores da pergunta-passagens sao mais importantes para reconhecer passagens que re-

spondam correctamente a uma pergunta. Cada um dos indicadores do vector de indicadores expressa

a frequencia da ocorrencia de uma propriedade. O vector de indicadores deste projecto e composto por

20 indicadores.

Os indicadores 1-4 e 5-10 da Tabela 4.1 capturam as propriedades dos termos do CS da pergunta-

passagem que possam ser relevantes de acordo com a sua formatacao textual ou de acordo com a sua

localizacao na estrutura do documento [44, 66]. No contexto deste projecto, os termos que verifiquem

uma frequencia nao nula em pelo menos um destes indicadores sao designados por palavra-chave. Os

indicadores da Tabela 4.2 tem em conta todas as passagens do documento e alguns desses indicadores

utilizam funcoes de pontuacao de retorno de passagens presentes no estado da arte [28, 15, 61]. Como

uma passagem que esta num livro ou slide pode ser semelhante a perguntas de exames passados ou

a passagens que estejam no sumario da disciplina, sao considerados os indicadores de similaridade

18 e 19, expressos na Tabela 4.3. O indicador 20 indica com que frequencia uma passagem de um

documento e similar a passagens de outros documentos. No decorrer da implementacao deste projecto

poder-se-a remover, modificar ou criar novos indicadores que permitam identificar melhor as passagens

relevantes.

Apos o fecho das votacoes do sistema de votacao online, sao pre-processados os elementos textu-

ais e extraem-se os vectores de indicadores dos objectos pergunta-passagem e o seu respectivo grau

de verdade.

1pypi.python.org/pypi/Whoosh/2As stopwords sao uma lista de termos considerados sem significado no contexto de uma pesquisa.

27

Tabela 4.1: Indicadores de palavras-chave do CS

Id Descricao dos indicadores1 termo a negrito na passagem2 termo a italico na passagem3 termo no sumario4 termo em exames5 termo no ındice6 termo no ındice remissivo7 Tamanho de letra mınimo das palavras do CS8 Tamanho de letra maximo das palavras do CS9 Tamanho de letra medio das palavras do CS

Tabela 4.2: Indicadores que utilizam funcoes de pontuacao

Id Descricao dos indicadores10 Soma do TF dos termos no CS11 Soma do IDF dos termos no CS12 Soma do TF*IDF dos termos no CS13 Numero de termos do CS que aparecem pela primeira vez no documento14 Numero de termos do CS que aparecem pela ultima vez no documento

Tabela 4.3: Indicadores de similaridade

Id Descricao dos indicadores

15 Tamanho do conjunto de seleccao

16 Similaridade co-seno entre a pergunta e a passagem

17 Distancia mınima dos termos do CS presentes na passagem

18 Distancia maxima dos termos do CS presentes na passagem

19 Distancia media dos termos do CS presentes na passagem

20 Area das figuras presentes no documento

21 Numero de figuras na pagina


O conjunto de dados criado e utilizado para treinar o algoritmo de aprendizagem do sistema de

L2R. Serao executadas as seguintes tarefas para encontrar o algoritmo que apresente os melhores

resultados possıveis:

- Modificacao do conjunto de indicadores, ou seja, testar combinacoes de indicadores ate que se

perceba quais optimizam os resultados.

- Alteracao do algoritmo de ML utilizado e dos seus parametros.

O criterio de Large data rationale3 assume que o vector de indicadores x contem informacao suficiente

para prever y. Por esta razao neste projecto podem ser aplicados os modelos de regressao linear mul-

tivariavel e regressao logıstica no modulo de aprendizagem visto que sao utilizados 21 indicadores que

3http://joshz.github.io/doc/MachineLearningSystemDesign.pdf

28

Tabela 4.4: Matriz de confusao, adaptado de Joao Gama [70]

classe prevista pelo modelo

classe ground of truth+ -

+ VP FN- FP VN

provem do estado da arte e de metodos de consulta utilizados em livros.

O tamanho do conjunto de dados criado apos o fecho do sistema de votacao online devera ser infe-

rior a 100 000 objectos pergunta-passagem, devido as limitacoes de tempo da entrega deste projecto.

Para avaliar projectos na area de extraccao de palavras-chaves de documentos Zhang et al. tiveram

bons resultados com os modelos linear e SVM e os autores Jakob Berbeek et al. [69] tiveram melhores

performances utilizando o modelo logıstico em vez do modelo linear. Desta forma para avaliar este

projecto serao utilizados os seguintes modelos:

- Linear

- Logıstico

- SVM.

Durante a fase de implementacao serao avaliados quais destes metodos de ML produzem os mel-

hores resultados em relacao as funcoes descritas na seccao de avaliacao.

4.4 Avaliacao de um sistema L2R

Quando e inserida uma pergunta no BiblioMiner e retornado um conjunto de slides ordenado por um

grau de relevancia. A qualidade dos documentos mostrados ao utilizador pode ser avaliada atraves

de formulas matematicas tais como a precisao e o F1. Estas formulas sao aplicadas em cada uma

das iteracoes da validacao cruzada dos algoritmos de L2R. A performance do modelo e a media das

performances de todas as iteracoes (Tabela 2.1).

4.4.1 Matriz de confusao

O modelo de regressao binomial utilizado neste projecto, gera uma matriz de confusao a partir da

hipotese h inicial (Figura 2.2). Na Tabela 4.4 encontra-se representada uma matriz de confusao [70]

semelhante a produzida neste projecto com o auxılio da ferramenta RapidMiner Studio [71] e que nos

serve de base para algumas formulas matematicas que permitem avaliar o modelo. Note que devido a

esta matriz ser gerada na fase de avaliacao, todos os elementos mencionados referentes a esta matriz

pertencem ao conjunto de teste.

A matriz de confusao de um problema binomial apresenta 4 entradas:

- Numero de elementos relevantes com ground of truth previsto correctamente (VP).

- Numero de elementos nao relevantes com ground of truth previsto correctamente (VN).

- Numero de elementos nao relevantes que foram classificados incorrectamente como relevantes (FP).

- Numero de elementos relevantes que foram classificados incorrectamente como nao relevantes (FN).

29

A taxa de acerto expressa na Equacao 4.1 e a relacao entre o cardinal de passagens relevantes e

nao relevantes que foram previstas correctamente pelo sistema. Para simplificar a expressao, tenha em

conta que n e dado pela soma de todas as entradas na matriz de confusao.

ta =(V P + V N)

n(4.1)

Outra medida de desempenho importante e a precisao (Equacao 4.2) que traduz a taxa de passagens

retornadas que sao relevantes.

Precisao =V P

V P + FP=

#passagens relevantes retornadas

#passagens retornadas(4.2)

A medida que mede a taxa de passagens relevantes entre as que sao retornadas pelo sistema e o

Recall (Equacao 4.3). Esta medida e tambem por vezes designada por sensibilidade ou por taxa dos

verdadeiros positivos (TVP).

Recall =V P

V P + FN=

#passagens relevantes retornadas

#passagens relevantes(4.3)

A Precisao e o Recall sao funcoes de desempenho complementares, visto que a precisao nao tem em

conta os falsos negativos e o recall nao tem em conta os falsos positivos. O F1 tem em conta as 2

funcoes anteriores e permite determinar a media ponderada entre ambas, resultando a expressao:

F1 = 2∗precisao∗recallprecisao+recall

4.4.2 Analise ROC

Para avaliar modelos sem comparar directamente as matrizes de confusao podem ser aplicadas formulas

matematicas, tais como a precisao e o recall (Sub-seccao 4.4.1) ou podem ser criados graficos que

permitam comparar os modelos visualmente, tais como a determinacao da curva Caracterıstica de

Operacao do Receptor (ROC) para cada modelo. A representacao da performance de cada modelo

utilizado neste projecto pode ser feita recorrendo a analise da curva ROC, da mesma forma que em

Prati et al. [72], Yih et al. [73] e de Arighi et al. [74], visto que a variavel de ground of truth apenas

pode pertencer a uma de duas classes. No grafico ROC da Figura 4.2 e representada nas abcissas a

evolucao da taxa de falsos positivos (TFP=FP/FP+FN) e no eixo das ordenadas a evolucao do recall.

Para avaliar o significado da curva ROC que descreve cada modelo, deve ter-se em consideracao:

- O ponto (0,0) significa que o modelo nao classifica nenhum elemento do conjunto de treino como

falso positivo ou verdadeiro positivo.

- O ponto (1,1) significa que o modelo classifica todos os elementos do conjunto de treino como posi-

tivos, quer sejam falsos positivos ou verdadeiros positivos.

30

Figura 4.2: Exemplo de um grafico de ROC

- O ponto (0,1) representa o modelo perfeito, pois todos os elementos do conjunto de treino positivos e

negativos sao classificados correctamente.

-O ponto (1,0) representa o pior modelo pois todas as classificacoes sao erradas.

Noutro sentido, modelos proximos ao canto inferior esquerdo sao conservativos, pois apenas classifi-

cam um elemento como positivo se tiverem grande seguranca na classificacao, isto e, garante poucos

erros de falsos positivos no entanto tem baixas taxas de verdadeiros positivos.

Ja os modelos proximos ao canto superior direito classificam a classe positiva com mais frequencia, o

que garante a classificacao correcta dos elementos positivos no entanto tambem demonstram elevadas

taxas de falsos positivos. A linha diagonal ascendente (0,0)-(1,1) representa o modelo de comporta-

mento estocastico, isto e, o modelo aleatorio. Pontos que pertencam ao triangulo superior esquerdo

relativamente a essa diagonal representam modelos com melhor desempenho que o aleatorio.

A linha diagonal (0,1)-(1,0) representa modelos de classificacao com desempenho igual em ambas as

classes. A esquerda dessa linha estao modelos que preveem melhor a classe negativa do que a posi-

tiva, a direita da linha verifica-se o oposto.

Quanto mais proximas estiverem as curvas do ponto (0,1) melhor e feita a previsao das classes correc-

tas.

As curvas ROC apresentam ainda uma propriedade muito interessante designada por ”class skew”, se-

gundo Fawcett: ”as curvas roc sao insensıveis a mudancas na distribuicao de classes. Se a proporcao

de elementos positivos e negativos mudar nos dados de treino, as curvas roc nao vao ser alteradas”[75].

A AUC (Area Under Curve) corresponde a area abaixo da curva ROC. Se considerarmos a escala

do grafico ROC entre 0 e 1 a AUC do modelo ideal seria 1 e seriam descartados todos os modelos

31

com AUC inferior a 0.5 devido a estes modelos serem piores que um classificador aleatorio de dados.

Seguindo este criterio, os modelos com melhor desempenho correspondem aos modelos com maior

AUC.

4.4.3 Validacao cruzada

Um modelo necessita de dois tipos de dados para ser avaliado experimentalmente: os dados de treino

e os dados de teste. Os dados de treino permitem criar o modelo a partir de uma hipotese e os dados

de teste servem para testar os resultados obtidos.

Os dados de treino deste projecto sao elaborados a partir de um questionario online, por isso, temos o

ground of truth associado a cada questao e e possıvel contabilizar a performance dos varios modelos

treinados.

Vai ser testada a divisao dos dados de treino de forma balanceada, utilizando o mesmo numero de

elementos relevantes e nao relevantes (R=NR) e a divisao dos dados de treino de forma nao bal-

anceada, utilizando o dobro de elementos nao relevantes relativamente ao numero de elementos rele-

vantes (2R=NR).

A performance de cada modelo considerada na validacao experimental corresponde a performance

media resultante da validacao cruzada (sub-capıtulo 2.1).

4.4.4 Amostragem

A validacao cruzada pode utilizar varios tipos de amostragem para dividir os dados de teste em

varios subconjuntos. Os tres tipos de amostragem utilizados nesta avaliacao sao:

-A amostragem linear consiste em dividir o conjunto de dados de teste em varias particoes sem mudar

a ordem dos dados. Por exemplo, se o conjunto de dados e composto por A;B;C;D;E, a divisao sera

feita na mesma ordem, isto e, o primeiro subconjunto tera, por exemplo, os dados A e B, o segundo

subconjunto tera o C e D e o terceiro tera o E.

- A amostragem shuffled forma subconjuntos a partir dos dados de testes de forma aleatoria. Con-

siderando o mesmo conjunto de dados referido anteriormente, um exemplo de subconjuntos resultantes

desta amostragem poderia ser, um primeiro subconjunto com os elementos C e A, o segundo composto

por E e D e o ultimo por B. Sintetizando, os subconjuntos nao sao formados tendo em conta a ordem

dos dados.

- A amostragem stratified forma subconjuntos da mesma forma que a amostragem Shuffled, isto e, de

forma aleatoria no entanto garante que a classe de distribuicao do subconjunto e a mesma em todo

o conjunto de dados de teste. Por exemplo, no caso de a classificacao ser binomial, a amostragem

Stratified forma subconjuntos de modo a que cada subconjunto contenha aproximadamente a mesma

proporcao dos dois valores da classe label.

Os modelos supra-mencionados que vao ser utilizados neste projecto utilizam varios indicadores para

32

computar a solucao do problema. Nos proximos dois sub-capıtulos sao descritas heurısticas de remocao

de indicadores que permitem reduzir o ruıdo introduzido no modelo e aumentar a performance do mod-

elo ao nıvel dos calculos matematicos.

4.4.5 Forward selection

Neste projecto este metodo serve para seleccionar os atributos mais relevantes de um vector de n

indicadores que caracteriza uma variavel binomial de output.

O metodo de forward selection [32] consiste em iniciar o modelo sem indicadores. De seguida, e

computado qual dos indicadores do vector de indicadores do conjunto de treino tem menor p-value e

que seja menor do que αcrit. O indicador encontrado e adicionado ao modelo e e computado o modelo

e o grau de erro associado. E testada a adicao de novos atributos ao modelo, utilizando o metodo

explicado anteriormente. Este processo repete-se ate que a adicao de novos indicadores nao melhore

a performance do algoritmo.

4.4.6 Backward elimination

Este processo[32] consiste em treinar o modelo com todos os indicadores disponıveis no conjunto de

treino. De seguida, testa-se a remocao do indicador do vector de indicadores com p-value mais elevado

e que seja maior do que αcrit. O modelo e gerado e repete-se o passo anterior ate que todos os valores

de p-value do vector de indicadores em utilizacao sejam inferiores a αcrit .

33

Capıtulo 5

Validacao Experimental

Neste capıtulo e feita a avaliacao do desempenho do sistema proposto no Capıtulo 4 e sao apresen-

tados os resultados e a metodologias seguidas no decorrer da validacao experimental. Foi utilizado o

dataset da disciplina de Gestao 2008/2009 da licenciatura de Telecomunicacoes e Informatica do Insti-

tuto Superior Tecnico. A maquina de testes utilizada para obter os resultados experimentais tinha as

seguintes caracterısticas:

-CPU: Intel(R) Core(TM) i3 2.53GHz

-RAM: 4GB (3,43 utilizavel)

-OS: Windows 7 Ultimate

A analise comparativa entre modelos e feita da seguinte forma:

- Para cada modelo e eleita a combinacao de nucleo, amostragem e eliminacao de indicadores que

permitem ao sistema obter maior precisao.

- Os modelos eleitos sao comparados em termos de precisao e F1 em funcao do numero de elementos

do conjunto de treino.

- Os modelos eleitos sao comparados atraves da sobreposicao das curvas ROC e valor de AUC.

Para que a analise ao sistema fosse mais completa, os modelos eleitos foram submetidos a testes

utilizando classes balanceadas e classes nao balanceadas.

5.1 Descricao dos dados do dataset

Foi construıdo um dataset baseado nos elementos bibliograficos da disciplina de Gestao do ano

2008/2009 do curso de Telecomunicacoes e Informatica. Os slides sao compostos por 409 paginas e os

exames sao compostos por 602 perguntas extraıdas manualmente. Para diminuir o ruıdo e uniformizar

os elementos bibliograficos optou-se por remover todos os caracteres nao alfanumericos excepto o

espaco em branco tal como feito por Lyu et al. [76].

35

Para criar a votacao online foi calculado o TF-IDF entre cada pergunta e todas as paginas dos slides e

consideradas apenas as 4 paginas com maior pontuacao. Os avaliadores do projecto votaram dentro

deste conjunto de paginas, quais eram relevantes/nao relevantes para responder a pergunta. Por esta

razao o dataset de Gestao resultante da votacao online e constituıdo por 602x4=2408 objectos de pares

pergunta-pagina, sendo que a cada pagina esta associada a uma flag de relevancia e a 21 indicadores.

Os 3 avaliadores demoraram cerca de 18.3 horas (1100 minutos) a classificar as 602 perguntas da

votacao online.

De acordo com Khoshgoftaar et. al [77] e Verberne et al. [13] um conjunto de treino de um projecto pode

dar como resultado um sistema enviesado quando a proporcao do numero de elementos relevantes e

muito inferior ao numero de elementos nao relevantes. Visto que neste projecto a proporcao entre

elementos relevantes e nao relevantes apresenta uma grande discrepancia (Tabela 5.1) decidiu-se criar

dois conjuntos de treino:

• Dataset R=NR (numero de elementos relevantes = numero de elementos nao relevantes)

• Dataset 2R=NR (numero de elementos relevantes e metade do numero de elementos nao rele-

vantes)

Desta forma o primeiro dataset sera composto por 422 elementos relevantes e 422 elementos nao

relevantes e o segundo dataset sera composto por 422 elementos relevantes e 844 elementos nao

relevantes.

5.2 Cronologia da criacao do conjunto de dados

Este projecto foca-se na melhoria dos nıveis de produtividade dos estudantes tendo em conta a

qualidade e tempo de estudo inerente a aprendizagem dos conteudos didacticos. Durante a votacao

online foi monitorizado o tempo global que os avaliadores demoraram a responder as perguntas.

Os avaliadores demoraram cerca de 1100 minutos a avaliar todo o dataset de gestao. Sempre que

os avaliadores classificavam como relevante/nao relevante um slide estavam a registar numa base de

dados se a label do par questao-slide deveria ser 1 ou 0, respectivamente.

Na Tabela 5.1, encontra-se a forma como se foi construindo o dataset ao longo da votacao. Com esta

tabela e possıvel , por exemplo, ter a nocao que ao fim de uma hora e nove minutos a avaliar o dataset

os avaliadores tinham lido cerca de 1/3 de slides relevantes e 2/3 dos slides nao relevantes. Ao final de

538 minutos, notou-se que a taxa de slides nao relevantes estava a aumentar, isto deveu-se ao facto

do TF-IDF nao estar a classificar correctamente perguntas de exame com mais de 6 anos de diferenca

em relacao aos slides.

Do ponto de vista dos sistemas de Learning to Rank e preferıvel o sistema ter acesso ao maior numero

de elementos de treino que seja possıvel computar em tempo util. No entanto, do ponto de vista dos

estudantes deve ser encontrado um perıodo de tempo que produza resultados satisfatorios e que min-

imize o tempo da votacao online, designaremos este perıodo por tempo de preparacao. Sao portanto

36

Tabela 5.1: Elementos relevantes e nao relevantes em funcao da duracao da votacao online

Duracao media davotacao online

(minutos)

ElementosRelevantes

ElementosNao Relevantes

13 10 1923 20 3038 30 5450 40 7069 50 10297 60 152

129 80 202163 100 257206 200 250538 300 877745 400 12311100 422 1986

prioritarios os sistemas que aprendam mais rapidamente face ao menor numero de elementos do con-

junto de treino.

5.3 Avaliacao dos modelos linear, logıstico e SVM

Ao longo deste capıtulo vai ser avaliada a capacidade de modelar a solucao do problema proposto

utilizando os modelos linear, logıstico e SVM. Vai ser considerada a performance dos modelos utilizando

a media da precisao e F1 utilizando 10 validacoes cruzadas no sistema de L2R.

Para testar a precisao e o F1 dos sistemas de L2R treinados foi necessario controlar o numero de

objectos do dataset relevantes e nao relevantes, caso contrario os resultados obtidos poderiam estar

enviesados. Foi testado o comportamento do sistema em duas situacoes:

• Situacao 1: Dataset R=NR

• Situacao 2: Dataset 2R=NR

O sistema resultante deste projecto deve ser capaz de identificar os 4 slides mais relevantes da

bibliografia e mostra-los ao utilizador, sempre que colocada uma nova pergunta. Como e sabido, quanto

maior a precisao de um sistema maior sera a taxa de elementos retornados que sao relevantes. Na

validacao experimental comecou-se por eleger os modelos com maior precisao. Para atingir este fim, foi

preciso fazer a variacao do nucleo, amostragem e algoritmos de eliminacao de indicadores (Tabelas 5.2-

5.13). De seguida foi estudado o comportamento da precisao e do F1 utilizando um tamanho variavel

de dataset’s (Graficos 5.1, 5.2, 5.4 e 5.5) e feita a analise da sobreposicao das curvas ROC para cada

modelo (Graficos 5.3 e 5.6) e comparacao dos valores da AUC.

Vao ser aplicadas todas as metricas descritas no capıtulo 4.4 para proceder a avaliacao dos 3

modelos utilizando o sistema de Learning to Rank.

37

5.4 Situacao 1: Dataset R=NR

5.4.1 Seleccao do modelo, nucleo e amostragem dos dados

O primeiro modelo a analisar e o modelo linear, que considera os tres tipos de amostragem: linear,

shuffled e stratified (capıtulo 4.4.4). Os nucleos utilizados no modelo linear sao: None, M5 prime,

Greedy e T-test (capıtulo 2.3.4). Os resultados obtidos em funcao do tipo de amostragem e do tipo de

nucleo estao descritos na Tabela 5.2.

Tabela 5.2: Precisao obtida para o modelo linear com um conjunto de dados R=NR

Amostragem NucleoNone M5 prime Greedy T-Test

Linear 48.25% 48.26% 48.66% 50.37%Shuffled 65.45% 65.38% 63.33% 64.99%Stratified 64.65% 65.13% 64.48% 64.94%

Verifica-se que a amostragem linear e a que apresenta a menor precisao independentemente do

tipo de nucleo escolhido. Por outro lado, o melhor resultado e obtido considerando uma amostragem

shuffled e com nucleo None, em que a precisao maxima obtida (a negrito na tabela) e de 65,45%.

De seguida, considerando o mesmo conjunto de dados (R=NR), aplica-se o modelo logıstico. Neste

caso tem-se o mesmo tipo de amostragens que no modelo linear e foram utilizados os nucleos Dot,

Radial, Polinomial, Neural, Anova, Epachnenikov, Gaussian combination e multiquadric. Na Tabela 5.3

esta representada a precisao obtida em cada combinacao de amostragem-nucleo do modelo logıstico.

A amostragem linear tambem e a que apresenta menor precisao independentemente do nucleo e a

melhor precisao de 68.24% e obtida considerando uma amostragem shuffled e um nucleo Anova.

Tabela 5.3: Precisao obtida para o modelo logıstico com um conjunto de dados R=NR

Amostragem NucleoDot Radial Polynomial Neural Anova Epachnenikov Gaussian Multi

Linear 50.26 13.03 41.19 47.07 53.18 7.69 17.23 37.12Shuffled 66.75 60.32 58.06 49.41 68.24 53.69 34.91 41.98Stratified 65.90 61.23 56.54 51.07 66.75 55.87 33.70 41.28

Por fim, e aplicado o modelo SVM ao dataset R=NR. Neste caso existem os mesmos nucleos e amostra-

gens que no modelo logıstico. Repare na Tabela 5.4 que relativamente ao modelo logıstico foi aban-

donado o estudo das Gaussian Combinations devido ao software RapidMiner Studio demorar mais de

8 horas a gerar este modelo. No SVM o pior caso continua a ser a amostragem linear, e no melhor caso

foi obtida uma precisao de 71,84% utilizando amostragem stratified e nucleo Dot.

Tendo em conta os dados obtidos nas Tabelas 5.2, 5.3 e 5.4, representa-se na Tabela 5.5 um resumo

38

Tabela 5.4: Precisao obtida para o modelo SVM com um conjunto de dados R=NR

Amostragem NucleoDot Radial Polynomial Neural Anova Epachnenikov Multi

Linear 47.76% 20.30% 20.69% 48.09% 48.27% 10.28% 0.24%Shuffled 69.14% 60.42% 69.96% 56.69% 68.98% 56.00% 47.21%Stratified 71.84% 61.99% 71.18% 53.03% 69.83% 55.70% 50.12%

dos modelos e respectivo nucleo e amostragem em que foi obtida a precisao maxima. Os modelos em

que foi obtida precisao maxima designam-se ”modelos eleitos R=NR”. Nesta fase, pode-se concluir que

sem mais nenhum tipo de operacao o modelo SVM com nucleo Dot e amostragem Stratified teria sido

o modelo com maior nıvel de precisao, utilizando um dataset com classes equilibradas.

Tabela 5.5: Modelos eleitos R=NR

Eliminacao Modelo ( nucleo; amostragem)Linear

(None; shuffled)Logıstico

(Anova; Shuffled)SVM

(Dot; Stratified)Sem eliminacao

ou validacao R=NR 65.45% 68.24% 71.84%

De seguida, foram aplicados os algoritmos de feature selection, backward elimination e forward

validation, aos modelos eleitos de modo a verificar se era possıvel aumentar a precisao removendo

indicadores desnecessarios. As Tabelas 5.6 e 5.7 apresentam os indicadores removidos pelos algorit-

mos, respectivamente, de backward elimination e forward validation e as precisoes obtidas. Verifica-se

que apos removidos os indicadores seleccionados pelos algoritmos, conseguiu-se aumentar a precisao

dos modelos linear e logıstico para os valores 67.14% e 69.01%, respectivamente. Estas precisoes

foram conseguidas apos removidos os indicadores id4,id10, e id16 do modelo linear e os indicadores

id15, id8 e id5 do modelo logıstico (confrontar com Tabelas 4.1,4.2 e 4.3). O modelo SVM nao registou

qualquer melhoria utilizando os algoritmos de feature selection.

Tabela 5.6: Precisao obtida utilizando backward elimination e o conjunto de dados R=NR

Eliminacao Modelo (nucleo; amostragem)Linear

(None; Shuffled)Logıstico


(Dot; Stratified)Backward Elimination 66.18% 69.01% 71.67%Indicadores removidos id9 id15, id8, id5 id6, id21

Tabela 5.7: Precisao obtida utilizando forward selection e o conjunto de dados R=NR


(None; Shuffled)Logıstico


(Dot; Stratified)Forward selection 67.14% 68.17% 67.76%

Indicadores removidos id4, id10, id16 id4, id10, id16, id21 id4, id8, id10,id11, id15, id16

Realizando uma analise global de todos os tipos de modelos aplicados ao conjunto de dados

R=NR, verifica-se a partir das tabelas anteriores que os melhores resultados foram obtidos atraves

39

das seguintes combinacoes:

- O modelo linear, com nucleo None, amostragem shuffled, sem os indicadores id4,id10 e id16, obteve

uma precisao de 67.14%.

- O modelo logıstico com nucleo Anova, amostragem shuffled e sem os indicadores id15, id8 e id5,

obteve uma precisao de 69.01%.

- O modelo SVM com nucleo Dot, amostragem stratified, obteve uma precisao de 71.84%.

Assim, conclui-se que o modelo com maior precisao, utilizando o dataset R=NR, foi o modelo SVM

com nucleo Dot e amostragem stratified.

5.4.2 Analise da precisao variando o tamanho do dataset

Nesta seccao, o principal objectivo e determinar como o tamanho do conjunto de treino influencia a

precisao dos diferentes modelos eleitos R=RN. A analise grafica dos diferentes modelos permite nao

so uma comparacao absoluta dos valores de precisao como tambem a comparacao relativa entre os

modelos.

Observando a Figura 5.1 pode ser efectuada uma analise de valores absolutos mınimos e maximos de

cada modelo, observamos que:

- O modelo linear obteve uma precisao mınima de 62.14% e uma precisao maxima de 88.89%.

- O modelo logıstico obteve uma precisao mınima de 68% e uma precisao maxima de 83.33%.

- O modelo SVM obteve uma precisao mınima de 58.52% e uma precisao maxima de 80%.

Avaliando a evolucao global da precisao dos diferentes modelos, pode concluir-se que o modelo linear

apresenta a maior precisao no intervalo 20 a 80 elementos de treino. No entanto este modelo apresenta

curvas de precisao inconstantes ao longo do intervalo. O modelo logıstico, comparativamente aos

outros modelos, apresenta a precisao mais elevada para o intervalo 80 a 800 elementos de treino. O

modelo SVM nao se destaca em relacao a precisao de nenhum dos modelos anteriores, mas e o que

apresenta maior homogeneidade de precisao ao longo do intervalo 80 a 800 elementos de treino. Os

resultados obtidos podem ser conferidos nos Anexos, nas Tabelas 1 a 3.

5.4.3 Analise do F1 variando o tamanho do dataset

Nesta seccao, o principal objectivo e determinar como o tamanho do conjunto de treino influencia o

F1 dos diferentes modelos eleitos R=RN. A analise grafica dos diferentes modelos permite nao so uma

comparacao absoluta dos valores de F1 como tambem a comparacao relativa entre os modelos.

Observando a Figura 5.2 pode ser efectuada uma analise de valores absolutos mınimos e maximos de

cada modelo, observamos que:

- O modelo linear obteve um F1 mınimo de 66.20% e um F1 maximo de 90%.

- O modelo logıstico obteve um F1 mınimo de 67.89% e um F1 maximo de 90%.

- O modelo SVM obteve um F1 mınimo de 65.90% e um F1 maximo de 84.21%.

40

Figura 5.1: Precisao em funcao do numero de elementos do conjunto de treino R=NR

Avaliando a evolucao global do F1 dos diferentes modelos, pode concluir-se que o modelo linear ap-

resenta o F1 mais elevado no intervalo 20 a 80 elementos de treino. No entanto a curva de F1 deste

modelo e decrescente ao longo do intervalo. O modelo logıstico, comparativamente aos outros mod-

elos, apresenta o F1 mais elevado para o intervalo 100 a 800 elementos de treino. O modelo SVM e

o modelo linear detem intervalos de F1 semelhantes neste intervalo.Os resultados obtidos podem ser

conferidos nos Anexos, nas Tabelas 1 a 3.

Figura 5.2: F1 em funcao do numero de elementos do conjunto de treino R=NR

5.4.4 Analise da curva ROC

Nesta seccao pretende-se comparar as curvas ROC dos modelos eleitos R=NR. Esta analise, per-

41

mite determinar qual o modelo que melhor classifica os slides relevantes como relevantes e os sides

nao relevantes como nao relevantes. Como se pode observar na Figura 5.3 os 3 modelos apresen-

tam uma curvatura semelhante e acima da recta (0,0) a (1,1), isto significa, que todos os mode-

los apresentam um desempenho superior ao modelo aleatorio. Neste caso, o melhor classificador

nao e facilmente identificavel do ponto de vista grafico. Vamos por isso, encontrar o melhor classi-

ficador recorrendo a AUC dos modelos. A ordem do melhor para o pior classificador e a seguinte:

AUClogistico = 0.72 > AUCSVM = 0.70 > AUClinear = 0.69.

Figura 5.3: Curvas ROC dos modelos eleitos R=NR

5.5 Situacao 2: Dataset 2R=NR

5.5.1 Seleccao do modelo, nucleo e amostragem dos dados

Nesta seccao segue-se a mesma metodologia presente na Situacao 1 (Seccao 5.4). O primeiro modelo

a analisar e o modelo linear, que considera os tres tipos de amostragem: linear, shuffled e stratified. Os

nucleos utilizados no modelo linear sao: None, M5 prime, Greedy e T-test. Os resultados obtidos em

funcao do tipo de amostragem e do tipo de nucleo estao descritos na Tabela 5.8.

Verifica-se que a amostragem linear e a que apresenta a menor precisao independentemente do

tipo de nucleo escolhido. Por outro lado, o melhor resultado e obtido considerando uma amostragem

stratified e com o nucleo T-test, em que a precisao maxima obtida (a negrito na tabela) e de 65,15%.

42

Tabela 5.8: Precisao obtida para o modelo linear com um conjunto de dados 2R=NR

Amostragem NucleoNone M5 prime Greedy T-Test

Linear 41.67% 41.88% 39.38% 42.02%Shuffled 63.81% 62.98% 62.50% 63.40%Stratified 64.81% 62.74% 63.96% 65.15%

De seguida, considerando o mesmo conjunto de dados (2R=NR), aplica-se o modelo logıstico. Neste

caso tem-se o mesmo tipo de amostragens que no modelo linear e foram utilizados os nucleos Dot,

Radial, Polinomial, Neural, Anova, Epachnenikov, Gaussian combination e multiquadric. Na Tabela 5.9

esta representada a precisao obtida em cada combinacao de amostragem-nucleo do modelo logıstico.

A amostragem linear tambem e a que apresenta menor precisao independentemente do nucleo e a mel-

hor precisao de 86.67% e obtida considerando uma amostragem shuffled e um nucleo Epachnenikov.

Tabela 5.9: Precisao obtida para o modelo logıstico com um conjunto de dados 2R=NR

Amostragem NucleoDot Radial Polynomial Neural Anova Epach. Gaussian Multi

Linear 41.70% 5.88% 20.50% 32.75% 37.67% 0.00% 13.01% 17.87%Shuffled 58.27% 84.00% 45.76% 39.34% 56.65% 86.67% 19.10% 24.62%Stratified 60.94% 76.00% 41.65% 39.19% 56.54% 82.35% 18.51% 25.37%

Por fim, e aplicado o modelo SVM ao dataset 2R=NR. Neste caso existem os mesmos nucleos e

amostragens que no modelo logıstico. Repare na Tabela 5.10 que relativamente ao modelo logıstico

foi abandonado o estudo das Gaussian Combinations devido ao software RapidMiner Studio demorar

mais de 8 horas a gerar este modelo. No SVM o pior caso continua a ser a amostragem linear, e no

melhor caso foi obtida uma precisao de 77.78% utilizando amostragem stratified e nucleo Dot.

Tabela 5.10: Precisao obtida para o modelo SVM com um conjunto de dados 2R=NR

Amostragem NucleoDot Radial Polynomial Neural Anova Epachnenikov Multi

Linear 28.77% 36.36% 51.22% 28.37% 35.47% 25.93% 25.93%Shuffled 74.53% 64.89% 72.62% 36.10% 69.18% 58.11% 58.11%Stratified 77.78% 63.27% 72.41% 36.98% 67.92% 55.00% 55.00%

Tendo em conta os dados obtidos nas anteriores, representa-se na Tabela 5.11 um resumo dos

modelos e respectivo nucleo e amostragem em que foi obtida a precisao maxima. Os modelos em que

foi obtida precisao maxima designam-se ”modelos eleitos 2R=NR”. Nesta fase, pode-se concluir que

sem mais nenhum tipo de operacao o modelo logıstico com nucleo Epachnenikov e amostragem Shuf-

fled teria sido o modelo com maior nıvel de precisao, utilizando um dataset com classes desiquilibradas

2R=NR.

De seguida, foram aplicados os algoritmos de feature selection, backward elimination e forward

validation, aos modelos eleitos de modo a verificar se era possıvel aumentar a precisao removendo

indicadores desnecessarios. As Tabelas 5.12 e 5.13 apresentam os indicadores removidos pelos algo-

43

Tabela 5.11: Modelos eleitos 2R=NR

Eliminacao Modelo ( nucleo; amostragem)Linear

(T-Test; Stratified)Logıstico

(Epachnenikov; Shuffled)SVM

(Dot; Stratified)Sem eliminacaoou validacao p2n 65.15% 86.67% 77.78%

ritmos, respectivamente, de backward elimination e forward validation e as precisoes obtidas. Verifica-se

que apos removidos os indicadores seleccionados pelos algoritmos, conseguiu-se aumentar a precisao

dos modelos linear e SVM para os valores 73.05% e 77.89%, respectivamente. Estas precisoes foram

conseguidas apos removidos os indicadores id1, id4, id10, id11, id12, id16 e id18 do modelo linear e os

indicadores id8 e id10 do modelo SVM (confrontar com Tabelas 4.1,4.2 e 4.3). O modelo logıstico nao

registou qualquer melhoria utilizando os algoritmos de feature selection.

Tabela 5.12: Precisao obtida utilizando backward elimination e o conjunto de dados 2R=NR

Eliminacao Modelo (nucleo; amostragem)

Linear(T-Test; Stratified) Logıstico(Epachnenikov; Shuffled)

SVM(Dot; Stratified)

Backward elimination 66.84% 82.05% 76.15%Indicadores removidos id5 id9, id16 id6

Tabela 5.13: Precisao obtida utilizando forward selection e o conjunto de dados 2R=NR


(T-Test; Stratified)Logıstico

(Epachnenikov; Shuffled)SVM

(Dot; Stratified)Forward Selection 73.05% 71.43% 77.89%

Indicadores removidos id1, id4, id10, id11,id12, id16, id18 id2, id15 id8, id10

Realizando uma analise global de todos os tipos de modelos aplicados ao conjunto de dados

2R=NR, verifica-se a partir das tabelas anteriores que os melhores resultados foram obtidos atraves

das seguintes combinacoes:

- O modelo linear, com nucleo T-Test, amostragem stratified, sem os indicadores id1, id4, id10, id11,

id12, id16 e id18, obteve uma precisao de 73.05%.

- O modelo logıstico com nucleo Epachnenikov, amostragem shuffled, obteve uma precisao de 86.67%.

- O modelo SVM com nucleo Dot, amostragem stratified, sem os indicadores id8 e id10, obteve uma

precisao de 77.89%.

Assim, conclui-se que o modelo com maior precisao, utilizando o dataset 2R=NR, foi o modelo

logıstico com nucleo Epachnenikov e amostragem shuffled.

5.5.2 Analise da precisao variando o tamanho do dataset

Nesta seccao, o principal objectivo e determinar como o tamanho do conjunto de treino influencia a

precisao dos diferentes modelos eleitos 2R=RN. Observando a Figura 5.4 podem ser efectuadas duas

44

analises distintas. A primeira analise avalia os valores absolutos mınimos e maximos de cada modelo,

onde se observa que:

- O modelo linear obteve uma precisao mınima de 62.48% e uma precisao maxima de 87.02%.

- O modelo logıstico obteve uma precisao mınima de 63.33% e uma precisao maxima de 82.58%.

- O modelo SVM obteve uma precisao mınima de 58.28% e uma precisao maxima de 83.33%.

Avaliando a evolucao global da precisao dos diferentes modelos, pode concluir-se que o modelo linear

apresenta a maior precisao no intervalo 30 a 900 elementos de treino. O modelo logıstico e o modelo

SVM apresentam um comportamento homogeneo e identico em termos de valores de precisao ao longo

do intervalo 150 a 900 elementos de treino. A partir dos 900 elementos de treino, o ruıdo introduzido

pelo desbalanceamento 2R=RN, faz com que os modelos linear e SVM sintam uma perda de precisao

abrupta.Os resultados obtidos podem ser conferidos nos Anexos, nas Tabelas 4 a 6.

Figura 5.4: Precisao em funcao do numero de elementos do conjunto de treino 2R=NR

5.5.3 Analise do F1 variando o tamanho do dataset

Nesta seccao, o principal objectivo e determinar como o tamanho do conjunto de treino influencia o F1

dos diferentes modelos eleitos R=RN. A semelhanca da analise grafica realizada anteriormente, vao

ser medidos em primeiro lugar os valores absolutos mınimos e maximos obtidos para cada modelo e

vai ser apresentada uma comparacao relativa entre os modelos.

Observando a Figura 5.5, e possıvel constatar:

- O modelo linear obteve um F1 mınimo de 66.55% e um F1 maximo de 92.86%.

- O modelo logıstico obteve um F1 mınimo de 37.7% e um F1 maximo de 80.05%.

- O modelo SVM obteve um F1 mınimo de 67.16% e um F1 maximo de 90.91%.

Avaliando a evolucao global do F1 dos diferentes modelos, pode concluir-se que o modelo linear ap-

resenta o F1 mais elevado no intervalo 30 a 900 elementos de treino. Os modelos logıstico e SVM,

apresentam um F1 semelhante ao longo de todo o intervalo, mas ligeiramente mais baixo do que o

modelo linear. A semelhanca da curva de precisao 2R=NR, a partir dos 900 elementos de treino os

45

modelos linear e SVM sentiram uma reducao abrupta dos nıveis de F1 devido ao ruıdo introduzido

pelo desbalanceamento 2R=RN. Vale a pena notar que o modelo logıstico sofreu uma queda muito

mais acentuada que os outros modelos, o que significa que o recall do modelo logıstico foi muito baixo,

visto que a precisao do modelo logıstico subiu a partir dos 900 elementos de treino, como referido

anteriormente.Os resultados obtidos podem ser conferidos nos Anexos, nas Tabelas 4 a 6.

Figura 5.5: F1 em funcao do numero de elementos do conjunto de treino 2R=NR

5.5.4 Analise da curva ROC

Nesta seccao pretende-se comparar as curvas ROC dos modelos eleitos 2R=NR. Como se pode

observar na Figura 5.6 todos os modelos se encontram acima da recta (0,0) a (1,1), isto significa, que

apresentam um desempenho superior ao modelo aleatorio. Os 2 modelos SVM e linear apresentam

uma curvatura semelhante. O melhor classificador e o modelo logıstico. Isto e facilmente identificavel do

ponto de vista grafico, pois este aproxima-se do ponto (0,1) que e a representacao do modelo perfeito,

que classifica todos os slides do conjunto de treino relevantes e nao relevantes correctamente.

De qualquer modo e possıvel confirmar as conclusoes anteriores recorrendo ao valor de AUC associado

a cada modelo. A ordem do melhor para o pior classificador e a seguinte: AUClogistico = 0.86 >

AUCSVM = 0.71 > AUClinear = 0.66.

46

Figura 5.6: Curvas ROC dos modelos eleitos 2R=NR

47

Capıtulo 6

Conclusao

O BiblioMiner e um sistema que se propoe a rentabilizar o tempo investido e a qualidade do estudo

dos alunos. Foram utilizados metodos de aprendizagem automatica supervisionada em conjunto com

mecanismos de eliminacao de indicadores para pontuar quais as passagens bibliograficas de uma dis-

ciplina seriam mais relevantes a uma pergunta feita pelo utilizador. Para tirar conclusoes e reduzir o

erro do projecto foi elaborada um conjunto de 188 testes que tiveram em conta encontrar a solucao com

maior precisao e menor impacto de tempo. Os sistemas de L2R utilizaram os modelos linear, logıstico e

SVM para fazerem previsoes sobre indicadores do estado da arte, tais como o TF, conjunto de seleccao

e indicadores que capturam o contexto do ambiente da disciplina, tais como palavras da pergunta que

se encontram a negrito/italico no documento.

A avaliacao experimental incidiu sobre a precisao do sistema, F1, ROC (AUC) e tempo de criacao

do dataset. O sistema eleito para gerar a funcao de pontuacao do BiblioMiner e o modelo logıstico

com nucleo Epachnenikov e amostragem shuffled, pois e o modelo que apresenta a curva ROC mais

proxima do modelo perfeito mantendo bons nıveis de precisao e F1. Pode-se assim concluir, que os

objectivos propostos nesta dissertacao de mestrado foram concluıdos com sucesso.

Apos uma analise mais profunda das situacoes R=NR e 2R=NR, e possıvel observar que os indicadores

3, 7, 13, 14, 17, 19 e 20 nunca foram eliminados pelos algoritmos de feature selection (backward elim-

ination e forward selection) aplicados a todos os modelos. Estes resultados permitem inferir que os

slides com maior numero de termos do CS pertencentes ao bag of words dos sumarios e os slides com

maior numero de termos do CS descritos pela primeira vez no documento, sao considerados por todos

os sistemas bons preditores da relevancia dos slides para a resposta a pergunta.

A eleicao do modelo que melhor desempenha o seu papel, depende do tempo de preparacao do sis-

tema (mencionado na seccao 5.2). Do ponto de vista dos estudantes, estes pretendem um sistema de

rapida utilizacao, pois querem dispender pouco tempo para preparar o sistema. Se tivermos em conta

que os estudantes estudam em media 77 minutos por dia (Seccao 1), e justo assumir que este sera o

tempo maximo de preparacao do sistema que um estudante regular esta disposto a dispender. Assim,

considerando o tempo de preparacao do sistema de 69 minutos (Tabela 5.1) as avaliacoes realizadas

para a situacao R=NR vao considerar um conjunto de treino constituıdo por cerca de 100 elementos,

49

50 relevantes e 50 nao relevantes, e para a situacao 2R=NR o conjunto de treino e formado por 150

elementos, 50 relevantes e 100 nao relevantes. Tendo em conta que se pretende que o sistema Bib-

lioMiner seja utilizado por estudantes, a maxima precisao e o maximo F1, para R=NR e 2R=NR, tem

de ser analisados nos intervalos com conjunto de treino [20-80] da Tabelas 5.1 e 5.2 e [30-150] das

Tabelas 5.4 e 5.5.

Analisando os resultados obtidos segundo a avaliacao da situacao R=NR, conclui-se que a precisao

maxima obtida no intervalo mencionado, corresponde a 88,89%, com um conjunto de treino de 20 el-

ementos, utilizando o modelo linear com nucleo None e amostragem shuffled (aproximadamente 23

minutos de avaliacao, confrontar a Tabela 5.1). Em relacao a situacao 2R=NR, verifica-se que a pre-

cisao maxima e de 86,67%, com um conjunto de treino de 30 elementos, sendo obtida utilizando modelo

linear com nucleo T-Test e amostragem stratified (aproximadamente 38 minutos de avaliacao, confrontar

a Tabela 5.1).

Em relacao ao F1, verifica-se que, para N=NR, o modelo logıstico com nucleo anova e com amostragem

shuffled apresenta o valor maximo de 90%, considerando tambem os 20 elementos do conjunto de

treino. Para 2R=NR verifica-se que o modelo que apresenta o maximo valor de F1 e o modelo linear

com nucleo T-Test e amostragem stratified, com 92,85% e com 30 elementos no conjunto de treino.

De seguida sao apresentados os modelos que se destacaram dentro de cada situacao.

Analisando a Situacao 1: R=NR

O modelo linear apresenta a maior precisao e F1 quando treinado com 20 a 80 elementos de conjunto

de treino. Sendo por isso o melhor modelo para datasets de pequenas dimensoes. O modelo logıstico

apresenta a maior precisao, F1 e AUC face aos restantes modelos quando treinado com 80 a 800 ele-

mentos do conjunto de treino. Sendo por isso o melhor modelo para datasets de grandes dimensoes.

Analisando a Situacao 2: 2R=NR

O modelo linear apresenta a maior precisao e F1 quando treinado com 30 a 90 elementos de treino.

Sendo por isso o melhor modelo para datasets de pequenas dimensoes. O modelo linear apresenta a

maior precisao e F1 face aos restantes modelos quando treinado com 90 a 900 elementos do conjunto

de treino. O modelo logıstico apresenta o maior AUC e uma precisao e F1 muito proximas do modelo

linear, nesta situacao.

A situacao 2 e mais propıcia de acontecer quando os estudantes forem utilizar o BiblioMiner, porque

e espectavel que o numero de elementos de treino relevantes seja menor que o numero de elemen-

tos de treino nao relevantes (Tabela 5.1). Face aos resultados discutidos anteriormente, e tendo em

conta a propriedade class skew da curva ROC, o sistema eleito e aconselhado para gerar a funcao de

pontuacao do BiblioMiner e o modelo logıstico com nucleo Epachnenikov e amostragem shuffled, pois e

o modelo que apresenta a curva ROC mais proxima do modelo perfeito. No entanto, caso os estudantes

prefiram um modelo cujo numero de elementos de treino seja mais reduzido, podem optar pelo modelo

linear com nucleo T-Test e amostragem stratified.

50

6.1 Trabalho futuro

Os resultados obtidos sao promissores e podem ser sujeitos a aperfeicoamentos. Tratando-se de uma

area tao vasta e possıvel complementar este trabalho ou continua-lo seguindo os seguintes vectores de

desenvolvimento:

-Introducao de novos indicadores, tais como : palavras da pergunta que estao a sublinhado/highligth no

documento, que nao puderam ser capturados devido a tecnologia existente de data mining em PDF’s.

-Criar um modelo de negocio online, em que experts treinassem os conjuntos de dados aplicado aos

elementos da bibliografia dos estudantes.

-Visto que o modelo logıstico obteve um bom desempenho neste projecto, considerar a utilizacao de

diferentes nucleos como, por exemplo, sigmoid 1.

1http://select.cs.cmu.edu/class/10701-F09/slides/svms-kernels-learning-theory.pdf

51

Referencias

[1] Number of educational institutions, by level and control of institution: Selected years, 1980-

81 through 2009-10. http://nces.ed.gov/programs/digest/d11/tables/dt11_005.asp, 2009.

Ultimo acesso em 2014-09-23.

[2] R. Arum, J. Roksa, and E. Cho. Improving Undergraduate Learning: Findings and Policy Rec-

ommendations from the SSRC-CLA Longitudinal Project. 2011. URL http://www.ssrc.org/

workspace/images/crm/new_publication_3/\d06178be-3823-e011-adef-001cc477ec84\.pdf.

[3] Top 100 tools for learning 2014 - results of the 8th annual survey of learning tools. www.c4lpt.co.

uk/top100tools/, 2013. Ultimo acesso em 2014-09-24.

[4] S. Repp, A. Grob, and C. Meinel. Browsing within lecture videos based on the chain index of speech

transcription. IEEE Transactions on Learning Technologies, 1(3):145–156, 2008. ISSN 1939-1382.

doi: http://doi.ieeecomputersociety.org/10.1109/TLT.2008.22.

[5] M. Cooper. Presentation video retrieval using automatically recovered slide and spoken text, 2013.

URL http://dx.doi.org/10.1117/12.2008433.

[6] M. W. Bilotti and J. Callan. Linguistic and Semantic Passage Retrieval Strategies for Question

Answering. 2009.

[7] G. Salton, J. Allan, and C. Buckley. Approaches to passage retrieval in full text information systems.

In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Devel-

opment in Information Retrieval, SIGIR ’93, pages 49–58, New York, NY, USA, 1993. ACM. ISBN 0-

89791-605-0. doi: 10.1145/160688.160693. URL http://doi.acm.org/10.1145/160688.160693.

[8] J. Kaur and V. Gupta. Effective Approaches For Extraction Of Keywords. Journal of Computer

Science, 7(6):144–148, 2010.

[9] S. Menaka and N. Radha. An Overview of Techniques Used for Extracting Keywords from Docu-

ments. 4(7):2321–2325, 2013.

[10] H. Schutze. The hypertext concordance: A better back-of-the-book index. In Proceedings of First

Workshop on Computational Terminology, pages 101–104, 1998.

[11] H. Li. Learning to Rank for Information Retrieval and Natural Language Process-

ing. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publish-

ers, 2011. doi: 10.2200/S00348ED1V01Y201104HLT012. URL http://dx.doi.org/10.2200/

S00348ED1V01Y201104HLT012.

[12] R. Sun, J. Jiang, Y. Fan, T. Hang, C. Tat-seng, and C. M.-y. Kan. Using syntactic and semantic re-

lation analysis in question answering. In Proceedings of the Fourteenth Text REtrieval Conference,

pages 1–9, 2005.

53

http://nces.ed.gov/programs/digest/d11/tables/dt11_005.asp

http://www.ssrc.org/workspace/images/crm/new_publication_3/\ d06178be-3823-e011-adef-001cc477ec84\ .pdf

http://www.ssrc.org/workspace/images/crm/new_publication_3/\ d06178be-3823-e011-adef-001cc477ec84\ .pdf

www.c4lpt.co.uk/top100tools/

www.c4lpt.co.uk/top100tools/

http://dx.doi.org/10.1117/12.2008433

http://doi.acm.org/10.1145/160688.160693

http://dx.doi.org/10.2200/S00348ED1V01Y201104HLT012

http://dx.doi.org/10.2200/S00348ED1V01Y201104HLT012

[13] S. Verberne, H. V. Halteren, D. Theijssen, S. Raaijmakers, and L. Boves. Learning to Rank QA

Data Evaluating Machine Learning Techniques for Ranking Answers to Why-Questions. 2009.

[14] P. R. C. i. Umbert. Factoid Question Answering for Spoken Documents. PhD thesis, Universitat

Politecnica de Catalunya (UPC), 2012.

[15] A. Ittycheriah, Abraham Franz, Martin Zhu, Wi-Jing Ratnaparkhi. IBM’s Statistical Question An-

swering System. In TREC-9 Question Answering, volume 0214351, pages 1—-6, New York, 2000.

[16] J. A. Akinyemi. Similarity and Diversity in Information Retrieval. pages 1–184, 2012.

[17] J. Fan, B. K. Boguraev, D. Carmel, and D. Sheinwald. Finding needles in the haystack : Search and

candidate generation. 56(3):1–12, 2012.

[18] P. Rosso, L.-F. Hurtado, E. Segarra, and E. Sanchis. On the Voice-Activated Question Answering.

IEEE Transactions on systems, man, and cybernetics, 42(1):75–85, 2012.

[19] A. Mendes, L. Coheur, N. Mamede, R. Ribeiro, F. Batista, and D. de Matos. Qa@l2f, first steps

at qa@clef. In C. Peters, V. Jijkoun, T. Mandl, H. Muller, D. Oard, A. Penas, V. Petras, and

D. Santos, editors, Advances in Multilingual and Multimodal Information Retrieval, volume 5152

of Lecture Notes in Computer Science, pages 356–363. Springer Berlin Heidelberg, 2008. ISBN

978-3-540-85759-4. doi: 10.1007/978-3-540-85760-0 45. URL http://dx.doi.org/10.1007/

978-3-540-85760-0_45.

[20] B. Loni. A Survey of State-of-the-Art Methods on Question Classification. 2000.

[21] C. Wade and J. Allan. Passage Retrieval and Evaluation. Technical Report February, University of

Massachusetts, Massachusetts, 2005.

[22] W. Xu, R. Grishman, and L. Zhao. Passage Retrieval for Information Extraction using Distant

Supervision. Technical report, New York University, New York, 2011.

[23] M. Hussain. Language Modeling Based Passage Retrieval for Question Answering Systems. PhD

thesis, Saarland University, 2005.

[24] X. Liu and W. B. Croft. Passage Retrieval Based On Language Models. Technical report, University

Massachusetts, Massachusetts, 2002.

[25] S. G. Veeravalli and V. Varma. Passage Retrieval Using Answer Type Profiles in Question Answer-

ing. In 23rd Pacific Asia Conference on Language, Information and Computation, pages 559–568,

Hyderabad, 2009.

[26] C. D. Manning. Foundations of Statistical Natural Language Processing.

[27] C. Biancalana. 1 Social Semantic Query Expansion. 1(1), 2013. doi: 10.1145/0000000.0000000.

[28] M. Light, G. S. Mann, E. Riloff, and E. Breck. Analyses for Elucidating Current Question Answering

Technology. Cambridge University Press, 1(1):1—-18, 2001.

54

http://dx.doi.org/10.1007/978-3-540-85760-0_45

http://dx.doi.org/10.1007/978-3-540-85760-0_45

[29] M. G. d. S. Pavel Calado. Learning to rank. In aulas teoricas da cadeira extraccao e analise de

dados na web de mestrado em telecomunicacoes e informatica, instituto superior tecnico, 2013.

[30] T.-Y. Liu. Learning to Rank for Information Retrieval. Foundations and Trends R© in Information

Retrieval, 3(3):225–331, 2007. ISSN 1554-0669. doi: 10.1561/1500000016. URL http://www.

nowpublishers.com/product.aspx?product=INR&doi=1500000016.

[31] Microsoft learning to rank datasets. http://research.microsoft.com/en-us/projects/mslr/,

2014. Ultimo acesso em 2014-09-28.

[32] J. Faraway. Linear Models with R. Chapman & Hall/CRC Texts in Statistical Science. Taylor & Fran-

cis, 2004. ISBN 9780203507278. URL https://books.google.co.uk/books?id=fvenzpofkagC.

[33] Simafore@. Logistic regression for business analytics using Rapid-

Miner: Part 2, 2015. URL http://www.simafore.com/blog/bid/57924/

Logistic-regression-for-business-analytics-using-RapidMiner-Part-2.

[34] W.-t. Yih, J. Goodman, and V. R. Carvalho. Finding advertising keywords on web pages. Proceed-

ings of the 15th international conference on World Wide Web - WWW ’06, page 213, 2006. URL

http://dl.acm.org/citation.cfm?id=1135777.1135813.

[35] A. Ng. Large scale machine learning, 2014.

[36] Q. Li and D. He. Finding Support Documents with a Logistic Regression Approach. 2011.

[37] RapidMiner. 5 Minutes With Ingo: Understanding Support Vector Machines, 2015. URL https:

//www.youtube.com/watch?v=YsiWisFFruY.

[38] J. S. Taylor and M. Cristianial. Kernel Methods for Pattern Analysis. Number 1. 2014. ISBN

9780874216561. doi: 10.1007/s13398-014-0173-7.2.

[39] rapidminer Documentation. Logistic Regression, 2015. URL http://docs.rapidminer.

com/studio/operators/modeling/classification_and_regression/logistic_regression/

logistic_regression.html.

[40] B. Lavoie. Anatomy of aggregate collections: The example of google print for libraries. D-Lib

Magazine, 11(9):1–18, September 2005.

[41] G. Crane. What do you do with a million books? D-Lib Magazine, 12(3):1–9, March 2006.

[42] M. Huggett and E. Rasmussen. Using Digital Book Metrics for Navigation and Browsing Building a

Test Collection. In iConference, pages 764–768, Hampton, 2013. doi: 10.9776/13370.

[43] R. Candeias, B. Martins, and P. Calado. Metadata extraction from scholarly articles using a two-level

hierarchy of crf models. In Proceedings of the International Conference on Theory and Practice of

Digital Libraries (TPDL 2012), Cyprus, Sept. 2012. Springer.

55

http://www.nowpublishers.com/product.aspx?product=INR&doi=1500000016

http://www.nowpublishers.com/product.aspx?product=INR&doi=1500000016

http://research.microsoft.com/en-us/projects/mslr/

https://books.google.co.uk/books?id=fvenzpofkagC

http://www.simafore.com/blog/bid/57924/Logistic-regression-for-business-analytics-using-RapidMiner-Part-2

http://www.simafore.com/blog/bid/57924/Logistic-regression-for-business-analytics-using-RapidMiner-Part-2

http://dl.acm.org/citation.cfm?id=1135777.1135813

https://www.youtube.com/watch?v=YsiWisFFruY

https://www.youtube.com/watch?v=YsiWisFFruY

http://docs.rapidminer.com/studio/operators/modeling/classification_and_regression/logistic_regression/logistic_regression.html



[44] W. Magdy and K. Darwish. Book search: Indexing the valuable parts. In Proceedings of the

2008 ACM Workshop on Research Advances in Large Digital Book Repositories, BooksOnline ’08,

pages 53–56, New York, NY, USA, 2008. ACM. ISBN 978-1-60558-249-8. doi: 10.1145/1458412.

1458429. URL http://doi.acm.org/10.1145/1458412.1458429.

[45] S. Rose, D. Engel, N. Cramer, and W. Cowley. CO RI Automatic keyword extraction. John Wiley &

Sons, Tennessee, 2010.

[46] X. Jiang, Y. Hu, and H. Li. A ranking approach to keyphrase extraction. Proceedings of the 32nd

international ACM SIGIR conference on Research and development in information retrieval - SIGIR

’09, (5):756, 2009. URL http://portal.acm.org/citation.cfm?doid=1571941.1572113.

[47] C. Zhang, H. Wang, Y. Liu, D. Wu, Y. Liao, and B. Wang. Automatic Keyword Extraction from

Documents Using Conditional Random Fields. 3, 2008.

[48] L.-f. Chien, I. Science, and A. Sinica. PAT-Tree-Based Keyword Extraction for Chinese Information

’ Retrieval. pages 50–58, 1801.

[49] A. Csomai and R. Mihalcea. Linguistically Motivated Features for Enhanced Back-of-the-Book

Indexing. (June):932–940, 2008.

[50] A. Hulth. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. EMNLP’03:

Proceedings of the 2003 conference on Empirical Methods in Natural Language Processing, pages

216–223, 2003. URL http://dl.acm.org/citation.cfm?id=1119383.

[51] O. Medelyan, E. Frank, and I. H. Witten. Human-competitive tagging using automatic keyphrase

extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language

Processing: Volume 3 - Volume 3, EMNLP ’09, pages 1318–1327, Stroudsburg, PA, USA, 2009.

Association for Computational Linguistics. ISBN 978-1-932432-63-3. URL http://dl.acm.org/

citation.cfm?id=1699648.1699678.

[52] a. Takasu. Bibliographic attribute extraction from erroneous references based on a statistical model.

2003 JoiC, pages 49–60, 2003. doi: 10.1109/JCDL.2003.1204843. URL http://ieeexplore.

ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1204843.

[53] M. D. K. Mondal, amit Kumar. Improved Algorithms For Keyword Extraction and Headline Genera-

tion From Unstructured Text. 2004.

[54] K. Sarkar, M. Nasipuri, and S. Ghose. Machine Learning Based Keyphrase Extraction : Comparing

Decision Trees , Naıve Bayes , and Artificial Neural Networks. 8(4), 2012.

[55] D. Bollegala, Y. Matsuo, and M. Ishizuka. Measuring Semantic Similarity between Words using

Web Search Engines. pages 1–27, 2008.

[56] D. Trieschnigg and D. Nguyen. Learning to Extract Folktale Keywords. pages 65–73, 2013.

56

http://doi.acm.org/10.1145/1458412.1458429

http://portal.acm.org/citation.cfm?doid=1571941.1572113

http://dl.acm.org/citation.cfm?id=1119383



http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1204843


[57] J. M. Gomez, D. Buscaldi, P. Rosso, and E. Sanchis. JIRS Language-Independent Passage Re-

trieval System : A Comparative Study. Technical report, Universidad Politecnica de Valencia, Va-

lencia, 2007.

[58] D. Carmel, A. Shtok, and O. Kurland. Position-Based Contextualization for Passage Retrieval.

pages 1241–1244, 2013.

[59] S. Geva, J. Kamps, R. Schenkel, and H. Imsbach. INEX 2011 Workshop. In INEX 2011 Workshop

Pre-proceedings, pages 1—-262, Saarbrucken, 2011. ISBN 9789081448581.

[60] S. Verberne, L. Boves, N. Oostdijk, and P.-a. Coppen. Using Syntactic Information for Improving

Why -Question Answering. In Proceedings of the 22nd International Conference on Computational

Linguistics, number August, pages 953–960, Manchester,, 2008.

[61] H. Cui, K. Li, R. Sun, T. seng Chua, and M. yen Kan. National university of singapore at the trec 13

question answering main task. In In Proceedings of the 13 th TREC, 2005.

[62] S. Xu, C. Zhang, Z. Niu, R. Mei, J. Chen, J. Zhang, and H. Fu. BIT ’ s Slot-Filling Method for

TAC-KBP 2013. Technical report, Beijing Institute of Technology, Beijing, 2013.

[63] D. Ortiz-arroyo and H. U. Christensen. An optimized soft computing-based passage retrieval. Con-

trol and Cybernetics, 38(2):455—-480, 2009.

[64] A. Severyn and A. Moschitti. Structural Relationships for Large-Scale Learning of Answer Re-

ranking Categories and Subject Descriptors. SIGIR’12, 12(16):1—-3, 2012.

[65] A. Doucet, G. Kazai, and J.-L. Meunier. ICDAR 2011 Book Structure Extraction Competition. 2011

International Conference on Document Analysis and Recognition, pages 1501–1505, Sept. 2011.

doi: 10.1109/ICDAR.2011.298. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.

htm?arnumber=6065248.

[66] X. Wu and A. Bolivar. Keyword extraction for contextual advertisement. Proceeding of the 17th

international conference on World Wide Web - WWW ’08, page 1195, 2008. URL http://portal.

acm.org/citation.cfm?doid=1367497.1367723.

[67] D. H. Dalip, M. A. Goncalves, M. Cristo, and P. Calado. Exploiting user feedback to learn to rank

answers in Q&A forums: a case study with stack overflow. In 36th International ACM SIGIR Con-

ference on Research and Development in Information Retrieval, pages 543–552, July 2013.

[68] M. Ageev, D. Lagun, and E. Agichtein. The answer is at your fingertips: Improving passage retrieval

for web question answering with search behavior data. In Proceedings of the 2013 Conference

on Empirical Methods in Natural Language Processing, pages 1011–1021, Seattle, Washington,

USA, October 2013. Association for Computational Linguistics. URL http://www.aclweb.org/

anthology/D13-1103.

[69] H. Friends, H. To, and F. People. How Friends Help To Find People.

57





http://www.aclweb.org/anthology/D13-1103

http://www.aclweb.org/anthology/D13-1103

[70] J. Gama, A. Carvalho, K. Faceli, A. Lorena, and M. Oliveira. Extracao de Conhecimento de Dados

- Data Mining. 2012. ISBN 9789726186984.

[71] RapidMiner. Manual Rapidminer Studio, 2014. URL https://rapidminer.com/.

[72] R. C. Prati. Novas Abordagens em Aprendizado de Maquina para a Geracao de Regras, Classes

Desbalanceadas e Ordenacao de Casos. phdtese de doutorado, ICMC-USP, Sao Carlos - SP,

2006. URL http://www.teses.usp.br/teses/disponiveis/55/55134/tde-01092006-155445/.

[73] W.-t. Yih and C. Meek. Improving Similarity Measures for Short Segments of Text.

[74] C. N. Arighi, K. B. Cohen, L. Hirschman, Z. Lu, C. O. Tudor, T. Wiegers, W. J. Wilbur, and C. H. Wu.

Proceedings of the Fourth BioCreative Challenge Evaluation Workshop Editors :. 1, 2013.

[75] T. Fawcett. ROC Graphs: Notes and Practical Considerations for Data Mining Researchers ROC

Graphs : Notes and Practical Considerations for Data Mining Researchers. 2003.

[76] H. Ma, M. R. Lyu, and I. King. Diversifying Query Suggestion Results. (1):1399–1404.

[77] T. M. Khoshgoftaar, J. Van Hulse, and A. Napolitano. Comparing Boosting and Bagging Techniques

With Noisy and Imbalanced Data. Systems, Man and Cybernetics, Part A: Systems and Humans,

IEEE Transactions on, 41(3):552–568, May 2011. ISSN 1083-4427. doi: 10.1109/tsmca.2010.

2084081. URL http://dx.doi.org/10.1109/tsmca.2010.2084081.

58

https://rapidminer.com/

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-01092006-155445/

http://dx.doi.org/10.1109/tsmca.2010.2084081

Anexo ATabelas obtidas durante a realizacao da validacao experimental:

Tabela 1: R=NR: Modelo Linear em funcao do numero de elementos do dataset

Dados R=NR da precisao e F1Linear none shuffled com forward eliminationNumero de elementos

dataset precisao F1

20 88.89% 88.89%40 85.71% 89.99%60 88.50% 88.66%80 71.83% 76.05%100 69.54% 75.00%200 72.66% 70.19%400 69.20% 70.37%600 66.44% 66.20%800 62.14% 67.68%

Tabela 2: R=NR: Modelo Logıstico em funcao do numero de elementos do dataset

Dados R=NR da precisao e F1Logıstico,anova,shuffled com backward

Numero de elementosdataset precisao F1

20 81.82% 90.00%40 83.33% 81.63%60 80.00% 81.71%80 71.21% 71.93%100 83.14% 79.18%200 77.99% 76.74%400 72.80% 72.50%600 73.43% 73.50%800 68.00% 67.88%

Tabela 3: R=NR: Modelo SVM em funcao do numero de elementos do dataset

Dados R=NR da precisao e F1SVM dot stratified sem eliminacao


20 80.00% 84.21%40 80.00% 82.42%60 67.50% 71.79%80 66.17% 71.03%100 68.17% 75.85%200 60.97% 69.53%400 60.48% 65.90%600 59.59% 68.39%800 58.52% 68.63%

59

Tabela 4: 2R=NR: Modelo Linear em funcao do numero de elementos do dataset

Dados 2R=NR da precisao e F1Linear,ttest,stratified com foward eliminationNumero de elementos

dataset precisao F1

30 86.67% 92.85%60 79.50% 85.15%90 87.02% 90.06%120 79.19% 85.54%150 75.54% 81.24%300 74.22% 83.32%600 69.74% 81.13%900 73.41% 82.11%

1200 62.48% 66.55%

Tabela 5: 2R=NR: Modelo Logıstico em funcao do numero de elementos do dataset

Dados 2R=NR da precisao e F1Logistico epachinov,shuffled sem eliminacaoNumero de elementos

dataset precisao F1

30 63.33% 77.54%60 65.00% 78.78%90 65.56% 79.19%120 65.56% 79.19%150 65.71% 78.95%300 66.33% 79.75%600 66.36% 79.56%900 66.82% 80.05%

1200 82.58% 37.16%

Tabela 6: 2R=NR: Modelo SVM em funcao do numero de elementos do dataset

Dados 2R=NR da precisao e F1SVM dot stratified com foward elimination


30 83.33% 90.90%60 80.33% 85.98%90 77.02% 83.56%120 78.63% 84.65%150 66.48% 79.86%300 67.22% 79.24%600 66.68% 79.60%900 70.03% 81.21%

1200 58.28% 67.15%

60

BiblioMiner: Resposta a questões de exame baseadas na ... · num exame ﬁnal que tem como...

Documents

Transcript of BiblioMiner: Resposta a questões de exame baseadas na ... · num exame ﬁnal que tem como...