Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...

Post on 10-Nov-2018

221 views 0 download

Transcript of Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...

1

Introdução ao Processamento de

Línguas Naturais

Thiago A. S. Pardo

Núcleo Interinstitucional de Linguística Computacional (NILC)Departamento de Ciências de Computação

Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo

EBRALC 2017

Agenda

1. Conceitos básicos

2. Níveis de conhecimento: recursos,

ferramentas e aplicações relacionados

3. PLN no Brasil e no mundo

2

Conceitos básicos

3

4

Meta de PLN

HAL 9.000 (Heuristically programmed ALgorithmic Computer)

1968

5

Para construir um computador como

HAL

Requer um volume enorme de conhecimento de uma dada língua Reconhecimento (faz até leitura labial) e síntese de fala (fonética e

fonologia)

Conhecimento das palavras envolvidas (morfologia e vocabulário)

Significado (semântica) e como combinam (uso das palavras)

Como grupos de palavras de juntam (sintaxe)

Manter um diálogo (discurso)

É educado responder... mesmo que você queira matar alguém (HAL)

É educado ser cooperativo... mesmo que esteja fingindo (HAL)

O uso de língua natural também pressupõe conhecimento do mundo e de senso comum

6

Língua Natural

Língua humana

Em oposição às linguagens artificiais

Matemática, lógica, linguagens de programação

de computadores

7

PLN

Processamento de Língua Natural

Linguística Computacional

Processamento de Linguagem Natural

Na Computação, tradicionalmente visto como subárea da

Inteligência Artificial

Habilidade linguística é um tipo de inteligência

8

PLN

Instruir o computador a lidar com a língua (Jurafsky e Martin, 2009)

Entendimento Análise morfológica e sintática, semântica e discursiva

Geração, síntese Tradução, produção de resumos

Correção gramatical

Busca de respostas para perguntas

Recuperação de informação da Internet

Auxílio a escrita e ao aprendizado de línguas

Etc.

Multidisciplinar, envolvendo principalmente Computação

Linguística

9

PLN: um pouco de história

Nascimento na 2ª guerra mundial

Tradução automática

Possíveis nomes

Computational Linguistics

Mechanolinguistics

Automatic Language Data Processing

Natural Language Processing

10

PLN: um pouco de história

Trajetória da Inteligência Artificial

Primeiros trabalhos grande expectativa

resultados pobres desilusão e hibernação da

área novos horizontes

Relatório da ALPAC (Automatic Language Processing

Advisory Committee): Languages and Machines –

computers in translation and linguistics

11

PLN: um pouco de história

Globalização, internet, tecnologia da

informação, Google

Mais recentemente, web 2.0, redes sociais,

smartphones, big data

12

PLN

Auxílio às tarefas humanas

Não substitui o humano (ainda)

Não é possível (ainda) “automatizar” totalmente a

língua, apenas aspectos dela

O computador (ainda) é uma máquina estúpida!

13

Primórdios do PLN: Eliza

Programa psicólogo dos anos 60 Muitas versões na Internet

Parece muito esperto, mas se perde depois de algum tempo de conversa Muitas pessoas foram enganadas pelo programa!!!

Muito simples Se baseia na fala da pessoa para formular sua

pergunta/resposta

Eliza (Jackson e Moulinier, 2002)

Eliza: como vai você hoje?

P: não muito bem

Eliza: por que você diz não muito bem?

P: eu estou com alergia

Eliza: interessante

P: eu fico com manchas vermelhas

Eliza: acho que não sei do que você está falando

P: manchas vermelhas no meu rosto

Eliza: seu rosto

P: isso mesmo

Eliza: é isso mesmo?

14

Eliza (Jackson e Moulinier, 2002)

P: você é um programa, não é?

Eliza: te agrada pensar que eu sou um programa?

P: com certeza

Eliza: eu percebo

P: ok

Eliza: um pouco antes você falou de seu rosto

P: e sobre o seu rosto?

Eliza: o que é que você realmente quer saber?

P: você é meu tipo de garota?

15

Eliza (Jackson e Moulinier, 2002)

Eliza: talvez em suas fantasias eu seja seu tipo de garota

P: em minhas fantasias você é loira

Eliza: o que te faz pensar que sou loira?

P: não sei

Eliza: você realmente não sabe?

P: não

Eliza: você está dizendo não apenas para ser negativo?

P: não

Eliza: você está sendo um pouco negativo

P: não, não estou

Eliza: por quanto tempo você não tem estado?

16

Desde então...

Avanços consideráveis

Infiltrados em nosso dia a dia

Revisão ortográfica e gramatical (MS Word), Google

Translate, Siri, etc.

Algumas vezes, sem percebermos!

17

WolframAlpha

18

Qwiki

19

Qwiki

Sumariza informação da web

Não há armazenamento de informação

Sintetiza voz

Busca informação relacionada

“Experiência de informação”

Inspiração no computador de bordo de Wall-E

Vídeo

20

START

Natural Language Question Answering System

http://start.csail.mit.edu/index.php

21

Watson (IBM)

Venceu os melhores participantes humanos no show de perguntas e respostas Jeopardy!

“more than 100 different techniques are used to analyze natural language, identify sources, find and generate hypotheses, find and score evidence, and merge and rank hypotheses”

“sources of information include encyclopedias, dictionaries, thesauri, newswire articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically, DBPedia, WordNet, and Yago were used”

22

Siri (Apple)

23

24

PLN

“Conversar” com uma máquina não é tão

difícil

Fazer a máquina “entender” é um grande

desafio

Muitas pesquisas

Programas especializados

Recursos linguísticos e linguístico-computacionais

Níveis de conhecimento

25

26

PLN

Vários níveis de conhecimento

Tradicionalmente distinguidos em PLN, apesar

dos limites entre eles serem nebulosos na

maioria dos casos

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Abstração &

Complexidade

Fonética / Fonologia

27

Morfologia

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Palavra: construção, componentes de formação

Morfema, raiz, afixo (prefixo, sufixo, etc.), flexão,

derivação, etc.

Aplicações

Novas palavras, neologismos

Criações próprias, importação, etc.

Pré-processamento em geral

Lematização, radicalização, nominalização, etc.

Gentílicos

Antunes (2017) “Gramado” “gramadense” (e não gramadiano)

28

Recursos e ferramentas relacionados

Unitex-PB (Muniz, 2004)

Lematizador do NILC

Projeto Snowball: radicalizadores, stoplists, etc.

29

30

Morfossintaxe

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Interação entre morfologia e sintaxe: classes

gramaticais ou etiquetas morfossintáticas

Substantivo/nome, verbo, adjetivo, advérbio, pronome,

preposição, conjunção, interjeição, etc.

31

Exemplo

Ele queria jogar

tênis com Janete,

mas também queria

jantar com Suzana.

Sua indecisão o

deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Ele [ele] PERS M 3S NOM

queria [querer] <fmc> V IMPF 3S IND VFIN

jogar [jogar] V INF

tênis [tênis] N M S/P

com [com] PRP

Janete [Janete] PROP M/F S

,

mas "mas" <co-vfin> <co-fmc> KC

também [também] ADV

queria [querer] <fmc> V IMPF 3S IND VFIN

jantar [jantar] V INF

com [com] PRP

Suzana [Suzana] PROP F S

.

Sua [seu] <poss 3S> DET F S

indecisão [indecisão] N F S

o [ele] PERS M 3S ACC

deixou [deixar] <fmc> V PS 3S IND VFIN

louco [louco] ADJ M S

.

Analisadores

MXPOST (Aires et al., 2000)

PALAVRAS (Bick, 2000)

LX-Tagger (Branco e Silva, 2004)

Semântica distribucional (Fonseca e Rosa, 2013)

Etc.

32

Aplicações

Em praticamente todas as iniciativas, em

algum nível

Revisores gramaticais

Tradutores automáticos

Sumarizadores de textos

Extração de termos

Extração de aspectos de opinião (Vargas e

Pardo, 2017)

Etc.

33

Aspectos de opinião

34

Córpus anotado

Mac-Morpho (Aluísio et al., 2003)

1,1 milhão de palavras manualmente anotadas

35

36

Sintaxe

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Como as sentenças são formadas, como as

palavras podem se combinar

Função/dependência: sujeito, predicado, objetos,

predicativos, etc.

Estruturação/constituição: sintagma nominal, sintagma

verbal, etc.

37

Exemplo

Ele queria jogar

tênis com Janete,

mas também

queria jantar com

Suzana. Sua

indecisão o

deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Analisadores

PALAVRAS (Bick, 2000)

Curupira (Martins et al., 2003)

Selva (Almeida et al., 2003)

MSTParser (Wing e Baldridge, 2006)

LX-Parser (Silva et al., 2010)

Etc.

38

Aplicações

Diversas aplicações

Revisão gramatical

Tradução automática

Sumarização compressiva

Simplificação textual (Cândido Jr. et al.

2009)

Etc.

39

Simplificação Textual

40

Córpus

Bosque, subconjunto da Floresta

Sintá(c)tica (Afonso et al., 2001) revisado

manualmente

9.368 sentenças

CINTIL Treebank (Branco e Costa, 2008)

10.039 sentenças

41

Universal Dependenciesuniversaldependencies.org

Iniciativa de uniformização dos níveis da morfossintaxe e da

sintaxe para diferentes línguas (Nivre et al., 2016)

Experiências prévias de Stanford, Google, etc.

Inclui português

42

43

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Significado

Palavras, expressões, orações, sentenças,

textos

44

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Traços semânticos

Mesa Cavalo Garota Mulher

Animado - + + +

Humano - - + +

Fêmea - - + +

Adulto - + - +

45

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Classificações ontológicas

Desambiguação lexical de sentido

Wikificação

46

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Papéis semânticos/temáticos

Agente, tema, instrumento, experienciador,

fonte, etc.

[O menino]AGENTE chutou [a bola]TEMA

47

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Classes/categorias/tipos semânticos

Humano, local, data, organização, etc.

O [menino]HUMANO chutou a bola

Entidades nomeadas

48

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Relações “lexicais”

Sinonímia, antonímia, hiperonímia/hiponímia,

meronímia/holonímia, etc.

49

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Diversos fenômenos

Metáforas, expressões idiomáticas, polissemia

Qual a diferença entre polissemia e homonímia?

Banco (assento vs. instituição financeira) é

polissêmico, mas manga (camisa vs. fruta) não é

50

Semântica

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

“Ele”, “Janete” e “Suzana” = humanos.

Jogar tênis = praticar o esporte tênis ≠ arremessar o calçado.

...

Semântica sentencial

51

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Semântica sentencial

queria(exper(ele),objetivo(jogar(tênis),comutativo(Janete)))...

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Semântica

Inspiração no modelo do espaço vetorial de Salton (1971), originalmente aplicado para Recuperação de Informação

Word embeddings

Sofisticação e eficiência recentes

Grande poder computacional disponível

Grande volume de dados para “aprendizado”

52

Semântica

Palavras que ocorrem no mesmo

contexto tendem a ter o mesmo

sentido

53

A bottle of tesgüino is on the table

Everybody likes tesgüino

Tesgüino makes you drunk

We make tesgüino out of corn.

bebida alcóolica

Semântica

Ocorrência de palavras em 4 obras literárias

Cada documento é representado por um vetor

54

Matriz termo-documento

Dois documentos são similares se seus vetores são similares

Semântica

Para representar palavras, entretanto, é mais usual

ter matriz termo-contexto, ou termo-termo

55

Palavras são similares se seus contextos são similares!

Semântica

Até então, vetores muito esparsos Muito grandes (20.000 a 50.000 elementos nas

linhas e colunas... podendo haver muito mais), com muitos zeros

Tentativas de torna-los mais densos Eficiência de representação: apenas

“termos”/“dimensões” mais significativas 200 a 1.000 termos, aproximadamente

Eficiência computacional

Muitas variações disponíveis

56

Métodos

3 abordagens tradicionais

SVD – Singular Value Decomposition LSA (Deerwester et al., 1990)

Redes neurais (Bengio et al., 2003) e modelos preditivos Skip-grams e continuous bag of words (Mikolov et al., 2013)

Métodos incorporados no pacote word2vec

Concorrente: GloVe (Pennington et al., 2014), que não é preditivo, mas baseado em “contagem”

Brown clustering (Brown et al., 1992)57

Exemplos

Mikolov et al. (2013)

58

Exemplos famosos

• vector(‘king’) - vector(‘man’) + vector(‘woman’) ≈ vector(‘queen’)

• vector(‘Paris’) - vector(‘France’) + vector(‘Italy’) ≈ vector(‘Rome’)

Recursos e ferramentas

OntoLP: Portal de Ontologiashttp://ontolp.inf.pucrs.br

59

Recursos e ferramentas

TeP 2.0 (Maziero et al., 2008) e Wordnet.Br (Dias da Silva, 2003)

Wordnets para o português e variantes (de Paiva et al., 2016)

Onto.PT

Wordnet.PT

MultiWordNet.PT

OpenWordNet.PT

PAPEL

Etc.

60

Recursos e ferramentas

PALAVRAS (Bick, 2000)

Rembrandt (Cardoso, 2008)

REPENTINO (Sarmento et al., 2006)

Babelfy (Moro et al., 2014)

SRL Brazilis (Hartmann et al., 2016)

61

Recursos e ferramentas

PropBank.Br e VerboBrasil (Duran e Aluísio, 2012)

VerbNet.Br (Scarton e Aluísio, 2012)

FrameNet.Br (Chishman e Bertoldi, 2012; Salomão et al., 2013)

LIWC (Balage Filho et al., 2013)

LX-DSemVectors (Rodrigues et al., 2016),NILC-Embeddings

CSTNews (Cardoso et al., 2011)

“O Pequeno Príncipe” em Abstract MeaningRepresentation (AMR) (Baranescu et al., 2013 )

Etc.62

Aplicações

Diversas aplicações

Extração de informação

Recuperação de informação

Sumarização automática

Tradução automática

Classificação de polaridade (Avanço e

Nunes, 2014)

Etc.

63

Classificação de polaridade

64

65

Discurso

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Discurso

Aquilo que está além da sentença

Semântica textual

Relacionamento proposicional, correferência e expressões

referenciais, marcadores textuais, intenções,

tópicos/subtópicos, componentes retóricos, etc.

66

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

67

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

68

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

(Intend E (Believe L “o desejo

de fazer duas coisas

incompatíveis o deixou louco”))

Analisadores

DiZer 2.0, CSTParser e variantes (Maziero et al., 2014, 2015)

Relações discursivas mono e multidocumento

69

Analisadores

Coh-Metrix-Port (Scarton e Aluísio, 2010): coesão, coerência e

dificuldade de compreensão textual

Inteligibilidade

70

Analisadores

Delimitação de subtópicos (Cardoso et al., 2017)

71

Analisadores

CORP – Coreference Resolution for Portuguese(Fonseca et al., 2017)

72

Aplicações

Auxílio à escrita

Tradução automática

Reconhecimento de autoria

Análise de sentimentos

Sumarização automática (Cardoso et

al., 2015)

Etc.

73

Aplicações

Análise e seleção de segmentos textuais mais relevantes

74

Córpus

CSTNews (Cardoso et al., 2011)

140 textos jornalísticos, com diversas camadas de anotação: relações discursivas, correferências, subtópicos, aspectos informativos, etc.

Summ-it (Collovini et al., 2007)

50 textos jornalísticos, com relações discursivas e correferências

Etc.

75

76

Pragmática

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Pragmática

Língua em uso, interação, contexto

Fatores como força, educação, hierarquia, crença,

cooperação, atitude

Estilos de escrita e de fala

Suposições sobre produtor e receptor, nível de

conhecimento, interesses

Modelagem do usuário

77

PLN

Considerações para uso por um computador

Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente

Interação entre os níveis Morfologia e sintaxe

Sintaxe e semântica

Semântica e discurso

78

PLN

Considerações para uso por um computador

Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente

Interação entre níveis mais distantes Morfologia e semântica (goleiro e porteiro vs. padeiro)

Morfologia e pragmática (são carlense vs. são carlino, laranjada e limonada vs. cajuada)

Sintaxe e discurso (subordinadas)

79

PLN

Trabalho em PLN (Dias da Silva, 2006)

Fase

linguística

Fase

representacional

Fase

implementacional

80

PLN

Trabalho em PLN (Dias da Silva, 2006)

Fase

linguística

Fase

representacional

Fase

implementacional

Resumos de artigos

de jornais

Formalização das

regras para resumir

Desenvolvimento do

sumarizador automático

Tradução espanhol-

português

Regras de tradução,

dicionários bilíngues

Desenvolvimento do

tradutor automático

81

PLN

Trabalho em PLN (Dias da Silva, 2006)

Aspectos da língua que são possíveis capturar e

automatizar

Muitas teorias linguísticas são sofisticadas demais para o

PLN... alguns recursos também (exemplo?)

Fase

linguística

Fase

representacional

Fase

implementacional

Teorias e dados

linguísticos

Formalismos/esquemas

de representação

Métodos e modelos

computacionais

82

PLN & IA

Classificações... nem sempre triviais

Critérios Paradigmas

Uso de conhecimento

linguístico

Superficial, profundo e

híbrido

Representação do

conhecimento

Simbólico, não-

simbólico e híbrido

Obtenção do

conhecimento

Manual, automática e

híbrida

Superficial vs. profundo

Superficial Mais fácil aplicação e desenvolvimento, mais robusto Resultados piores, normalmente

Profundo De mais difícil modelagem e aquisição Resultados melhores, para domínios limitados, muitas vezes

Híbrido: como fazer?

Métodos profundos “explicam” a língua, mas alguns métodos superficiais são muito bons Por exemplo, sumarização de notícias jornalísticas

“Métodos cada vez mais sofisticados para fazer a mesma coisa” Dilema da sumarização automática

83

Simbolismo vs. estatística

Regras são muito “rígidas” para a fluidez e flexibilidade da língua Por exemplo, regras gramaticais para boa

formação de sentenças

Padrões mais frequentes de organização da língua podem ser aprendidos (estatisticamente)

Mas alguns tipos de regras são muito bons Regras de formação de sintagmas nominais

84

Abordagens conflitantes

Simbolismo/profundidade e a validação de teorias e modelos

Explicitação do conhecimento

Grande utilidade da estatística

O conhecimento está lá... “codificado”(controverso)

Dilemas da TA estatística

Funciona melhor que outras abordagens, codifica conhecimento, conhecimento pode estar errado (quem se importa?)

85

História do PLN

Direcionada por correntes filosófico-

linguísticas

Às vezes complementares

Às vezes rivais até a morte

86

Racionalismo

1960-1985: racionalismo entre linguistas, informatas, etc. Racionalismo: crença de que parte significativa do

conhecimento humano não vem dos sentidos, mas é herdada geneticamente

Noam Chomsky Linguagem inata

Argumento: muito pouco estímulo para um aprendizado muito eficiente de algo complexo Como é possível aprender tanto a partir de tão pouca evidência

linguística?

IA: sistemas com muito conhecimento manualmente fornecido e com mecanismos de inferência

87

Empirismo

1920-1960: empirismo Mente não vem com princípios e procedimentos

pré-determinados

Mas vem com operações gerais de associação, reconhecimento de padrões e generalizações Importância do estímulo sensorial para o aprendizado

da língua

Ressurgimento na atualidade Córpus

Aprendizado da estrutura da linguagem com modelos de língua parametrizáveis

88

Abordagens: PLN

Eric Laporte (2012) - linguista

Dualidade córpus/introspecção

89

História do PLN

Marcada por dicotomias

Simbolismo vs. estatística

Abordagens superficiais vs. profundas

Racionalismo vs. empirismo

90

Resumo da história de PLN

Avanços da área no tempo (Jurafsky e Martin, 2009)

1940-56: fundação da área Máquinas de estados finitos, gramáticas e modelos probabilísticos

1957-70: dois campos Simbolismo vs. estatística e os primeiros córpus on-line

1970-83: quatro paradigmas Estocástico, lógico, interpretação textual, discurso

1983-93: empirismo Probabilidades, avaliação, geração textual

1994-99: fortalecimento da área Modelos baseados em dados, exploração comercial, web

2000-atual: aprendizado de máquina Semissupervisão e não supervisão, aprendizado sem fim, aprendizado profundo

Competições e grandes conjuntos de dados

Modelos distribucionais 91

PLN

Classificação

Recursos

Ferramentas

Aplicações

92

93

Recursos

Córpus Anotação: humana e/ou automática

XML, XCES, TEI, etc.

Paralelo, comparável, alinhado, etc.

Dicionários monolíngues e bilíngues Machine readable vs. machine tractable

Léxicos Vários paradigmas

94

Ferramentas

Segmentadores textuais: palavras (tokenizador), sentenças, parágrafos, tópicos

Stemmers, lematizadores, nominalizadores

Etiquetadores morfossintáticos (taggers)

Analisadores sintáticos shallow (chunkers) e deep (parsers)

Analisadores semânticos e discursivos

Alinhadores textuais: lexicais, sentenciais, etc.

Concordanceadores, word counting, etc.

95

Aplicações

Tradutores automáticos

Revisores ortográficos e gramaticais

Ferramentas de auxílio à escrita

Sumarizadores automáticos

Simplificadores textuais

96

Recursos, ferramentas e aplicações

Atenção

Classificação difusa, às vezes

Dependente do uso Sumarizador como passo intermediário para

recuperação da informação ferramenta

Dicionário eletrônico para consulta aplicação

No Brasil e no mundo

PLN

97

98

Comissão Especial de PLN

Responsável pela condução da área e representação nacional

www.sbc.org.br/ce-pln Não precisa ser membro da SBC

99

100

101

102

103

Outras iniciativas

ACL anthology, listas de discussão, wiki

Linguateca Oficialmente finalizado

forum-lp

Toolkits NLTK, GATE, nlpnet, AntMover, etc.

Metashare

Etc.

Finalizando...

104

Atenção

O mundo é muito maior!

O que foi apresentado é apenas um recorte

para introdução à área

Apenas um ponto de partida!

105

GloboNews/Mundo SAReportagem de 13/03/2017

Sugestão para ver em casa

A indústria por trás do uso da inteligência

artificial

http://globosatplay.globo.com/globonews/v/57

22142/

106

Introdução ao Processamento de

Línguas Naturais

Na parte da tarde

Uma aplicação: introdução à análise de

sentimentos

107

EBRALC 2017

Referências

Aires, R.V.X.; Aluísio, S.M.; Kuhn, D.C.S.; Andreeta, M.L.B.; Oliveira Jr., O.N. (2000). Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. In the Proceedings of the Brazilian Artificial Intelligence Symposium (SBIA).

Afonso, S.; Bick, E.; Haber, R.; Santos, D. (2001). Floresta sintá(c)tica: um treebank para o português. In Anais do XVII Encontro da Associação Portuguesa de Linguística.

Almeida, S.; Carvalho, A.; Fantin, L.; Stolfi, J. (2003). Selva: A New Syntactic Parser for Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 102-109.

Aluísio, S.M.; Pelizzoni, J.M.; Marchi, A.R.; de Oliveira, L.; Manenti, R.; Marquiafável, V. (2003). An account of the challenge of tagging a reference corpus for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 110-117.

Antunes, R.A.M.R. (2017) Formação de Gentílicos a partir de Topônimos: Proposta de geração automática. Dissertação de Mestrado. Universidade Federal de São Carlos.

Avanço, L.V. and Nunes, M.G.V. (2014). Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In Proceedings of the Brazilian Conference on Intelligent Systems, pp. 277-281.

Balage Filho, P.P.; Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 215-219.

Banarescu, L.; Bonial, C.; Cai, S.; Georgescu, M.; Griffitti, K.; Hermjakob, U.; Knight, K.; Koehn, P.; Palmer, M.; Schneider, N. (2013). Abstract Meaning Representation for Sembanking. In the Proceedings of Linguistic Annotation Workshop, pp. 178-186.

Bengio, Y.; Ducharme, R.; Vincent, P.; Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, Vol. 3, pp. 1137-1155.

Bick, E. (2000). The parsing system “Palavras”. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus Univ. Press.

108

ReferênciasBranco, A. and Silva, J. (2004). Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In the Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), pp. 507-510.

Branco, A. and Costa, F. (2008). A computational grammar for deep linguistic processing of Portuguese: LXGram. Technical Report DI-FCUL-TR-08-17, University of Lisbon.

Brown, P.F.; Della Pietra, V.J.; Souza, P.V.; Lai, J.C.; Mercer, R.L. (1992). Class-based n-gram models of natural language. Computational Linguistics, Vol. 18, N. 4, pp. 467-479.

Cândido Jr. A.; Maziero E.; Gasperin, C.; Pardo, T.A.S.; Specia, L.; Aluisio, S.M. (2009). Supporting the Adaptation of Texts for Poor Literacy Readers: a Text Simplification Editor for Brazilian Portuguese. In the Proceedings of the NAACL HLT Workshop on Innovative Use of NLP for Building Educational Applications, pp. 34-42.

Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In C. Mota and D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, pp. 195-211.

Cardoso, P.C.F.; Maziero, E.G.; Castro Jorge, M.L.R.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. (2011). CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp. 88-105.

Cardoso, P.C.F.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2015). Exploring the Rhetorical Structure Theory for Multi-document Summarization. In the Proceedings of the 5th Workshop RST and Discourse Studies, pp. 1-10.

Cardoso, P.C.F.; Pardo, T.A.S.; Taboada, M. (2017). Subtopic annotation and automatic segmentation for news texts in BrazilianPortuguese. Corpora, Vol. 12, N. 1, pp. 23-54. Edinburgh University Press.

Chishman, R.L.O. and Bertoldi, A. (2012). A Semântica de Frames e os Recursos Lexicais Computacionais: da teoria à aplicação. A Cognição na Linguagem, pp. 140-160.

Collovini, S.; Carbonel, T.I.; Fuchs, J.T.; Coelho, J.C.; Rino, L.H.M.; Vieira, R. (2007). Summ-it: Um corpus anotado com informações discursivas visando a sumarização automática. In Anais do V Workshop em Tecnologia da Informação e da Linguagem Humana, pp. 1605-1614.

de Paiva, V.; Real, L.; Oliveira, H.G.; Rademaker, A.; Freitas, C.; Simões, A. (2016). An overview of Portuguese WordNets. In the Proceedings of the Global Wordnet Conference.

109

Referências

Deerwester, S.C.; Dumais, S.T.; Landauer, T.K.; Furnas, G.W.; Harshman, R.A. (1990). Indexing by latent semantics analysis. Journal of the American Society for Information Science, Vol. 41, N. 6, pp. 391-407.

Dias da Silva, B.C. (2006). O estudo Lingüístico-Computacional da Linguagem. Letras de Hoje, Vol. 41. N. 2, pp. 103-138.

Dias da Silva, B.C. (2003). Human language technology research and the development of the Brazilian Portuguese wordnet. In the Proceedings of the 17th International Congress of Linguists, pp. 1-12

Duran, M.S. and Aluísio, S.M. (2012). Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In the Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), pp. 1862-1867.

Fonseca, E.R. and Rosa, J.L.G. (2013). Mac-Morpho Revisited: Towards Robust Part-of-Speech Tagging. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 98-107.

Fonseca, E.; Sesti, V.; Antonitsch, A.; Vanin, A.; Vieira, R. (2017). CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências. LinguaMÁTICA, Vol. 9, N. 1, pp. 3-18.

Hartmann, N.S.; Duran, M.S.; Aluísio, S.M. (2016). Automatic Semantic Role Labeling on Non-revised Syntactic Trees of Journalistic Texts. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 202-212.

Jackson, P. and Moulinier, I. (2002). Natural Language Processing for Online Applications: Text retrieval, extraction and categorization. John Benjamins Publishing Company.

Jurafsky, D. and Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall.

Martins, R.T.; Hasegawa, R.; Nunes, M.G.V. (2003). Curupira: a functional parser for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 179-183.

110

ReferênciasMaziero, E.G.; Pardo, T.A.S.; Di Felippo, A.; Dias-da-Silva, B.C. (2008). A Base de Dados Lexical e a Interface Web do TeP 2.0 -Thesaurus Eletrônico para o Português do Brasil. In Anais do VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL), pp. 390-392.

Maziero, E.G.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2014). Revisiting Cross-document Structure Theory for multi-document discourseparsing. Information Processing & Management, Vol. 50, N. 2, pp. 297-314.

Maziero, E.G.; Hirst, G.; Pardo, T.A.S. (2015). Semi-Supervised Never-Ending Learning in Rhetorical Relation Identification. In the Proceedings of the Recent Advances in Natural Language Processing - RANLP, pp. 436-442.

Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In the Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), pp. 3111-3119.

Moro, A.; Raganato, A.; Navigli, R. (2014). Entity Linking meets Word Sense Disambiguation: a Unified Approach. Transactions of the Association for Computational Linguistics, Vol. 2, pp. 231-244.

Muniz, M.C.M. (2004). A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto de Unitex-PB. Dissertação de Mestrado. Instituto de Ciências Matemáticas de São Carlos, Universidade de São Paulo.

Nivre, J.; Marneffe, M.C.; Ginter, F.; Goldberg, Y.; Hajič, J.; Manning, C.D.; McDonald, R.; Petrov, S.; Pyysalo, S.; Silveira, N.; Tsarfaty, R.; Zeman, D. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In the Proceedings of the Tenth International Conference on Language Resources and Evaluation, pp. 1659-1666.

Oliveira, H.G. and Gomes, P (2014). ECO and Onto.PT: A flexible approach for creating a Portuguese wordnet automatically. Language Resources and Evaluation, Vol. 48, N. 2, pp. 373-393.

Pennington, J.; Socher, R.; Manning, C.D. (2014). Glove: Global vectors for word representation. In the Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543.

Rodrigues, J.; Branco, A.; Neale, S.; Silva. J. (2016). LX-DSemVectors: Distributional Semantics Models for Portuguese. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 259-270.

111

Referências

Salomão, M.M.M.; Torrent, T.T.; Sampaio, T.F. (2013). A Linguística de Corpus Encontra a Linguística Computacional: Notícias do

Projeto FrameNet Brasil. Cadernos de Estudos Linguísticos, Vol. 55, N. 1, pp. 7-34.

Salton, G. (1971). The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice Hall.

Sarmento, L.; Pinto, A.S.; Cabral, L. (2006). REPENTINO - A Wide-Scope Gazetteer for Entity Recognition in Portuguese. In the

Proceedings of the International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 31-40.

Scarton, C.E. and Aluísio, S.M. (2010). Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural:

adaptando as métricas do Coh-Metrix para o Português. LinguaMÁTICA, Vol. 2, N.1, pp. 45-61.

Scarton, C. and Aluísio, S. (2012). Towards a cross-linguistic VerbNet-style lexicon to Brazilian Portuguese. In the Proceedings of the

LREC Workshop on Creating Cross-language Resources for Disconnected Languages and Styles, pp. 11-18.

Silva, J.; Branco, A.; Castro, S.; Reis, R. (2010). Out-of-the-Box Robust Parsing of Portuguese. In the Proceedings of the 9th

International Conference on the Computational Processing of Portuguese (PROPOR), pp. 75–85.

Vargas, F.A. and Pardo, T.A.S. (2017). Clustering and hierarchical organization of opinion aspects: a corpus study. In Anais do XIV

Encontro de Linguística de Corpus (ELC). Em publicação.

Wing, B. and Baldridge, J. (2006). Adaption of Data and Models for Probabilistic Parsing of Portuguese. In the Proceedings of the 7th

Workshop on Computational Processing of Written and Spoken Portuguese (PROPOR), pp. 140-149.

112