Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...

112
1 Introdução ao Processamento de Línguas Naturais Thiago A. S. Pardo Núcleo Interinstitucional de Linguística Computacional (NILC) Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo EBRALC 2017

Transcript of Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...

Page 1: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

1

Introdução ao Processamento de

Línguas Naturais

Thiago A. S. Pardo

Núcleo Interinstitucional de Linguística Computacional (NILC)Departamento de Ciências de Computação

Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo

EBRALC 2017

Page 2: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Agenda

1. Conceitos básicos

2. Níveis de conhecimento: recursos,

ferramentas e aplicações relacionados

3. PLN no Brasil e no mundo

2

Page 3: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Conceitos básicos

3

Page 4: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

4

Meta de PLN

HAL 9.000 (Heuristically programmed ALgorithmic Computer)

1968

Page 5: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

5

Para construir um computador como

HAL

Requer um volume enorme de conhecimento de uma dada língua Reconhecimento (faz até leitura labial) e síntese de fala (fonética e

fonologia)

Conhecimento das palavras envolvidas (morfologia e vocabulário)

Significado (semântica) e como combinam (uso das palavras)

Como grupos de palavras de juntam (sintaxe)

Manter um diálogo (discurso)

É educado responder... mesmo que você queira matar alguém (HAL)

É educado ser cooperativo... mesmo que esteja fingindo (HAL)

O uso de língua natural também pressupõe conhecimento do mundo e de senso comum

Page 6: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

6

Língua Natural

Língua humana

Em oposição às linguagens artificiais

Matemática, lógica, linguagens de programação

de computadores

Page 7: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

7

PLN

Processamento de Língua Natural

Linguística Computacional

Processamento de Linguagem Natural

Na Computação, tradicionalmente visto como subárea da

Inteligência Artificial

Habilidade linguística é um tipo de inteligência

Page 8: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

8

PLN

Instruir o computador a lidar com a língua (Jurafsky e Martin, 2009)

Entendimento Análise morfológica e sintática, semântica e discursiva

Geração, síntese Tradução, produção de resumos

Correção gramatical

Busca de respostas para perguntas

Recuperação de informação da Internet

Auxílio a escrita e ao aprendizado de línguas

Etc.

Multidisciplinar, envolvendo principalmente Computação

Linguística

Page 9: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

9

PLN: um pouco de história

Nascimento na 2ª guerra mundial

Tradução automática

Possíveis nomes

Computational Linguistics

Mechanolinguistics

Automatic Language Data Processing

Natural Language Processing

Page 10: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

10

PLN: um pouco de história

Trajetória da Inteligência Artificial

Primeiros trabalhos grande expectativa

resultados pobres desilusão e hibernação da

área novos horizontes

Relatório da ALPAC (Automatic Language Processing

Advisory Committee): Languages and Machines –

computers in translation and linguistics

Page 11: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

11

PLN: um pouco de história

Globalização, internet, tecnologia da

informação, Google

Mais recentemente, web 2.0, redes sociais,

smartphones, big data

Page 12: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

12

PLN

Auxílio às tarefas humanas

Não substitui o humano (ainda)

Não é possível (ainda) “automatizar” totalmente a

língua, apenas aspectos dela

O computador (ainda) é uma máquina estúpida!

Page 13: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

13

Primórdios do PLN: Eliza

Programa psicólogo dos anos 60 Muitas versões na Internet

Parece muito esperto, mas se perde depois de algum tempo de conversa Muitas pessoas foram enganadas pelo programa!!!

Muito simples Se baseia na fala da pessoa para formular sua

pergunta/resposta

Page 14: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Eliza (Jackson e Moulinier, 2002)

Eliza: como vai você hoje?

P: não muito bem

Eliza: por que você diz não muito bem?

P: eu estou com alergia

Eliza: interessante

P: eu fico com manchas vermelhas

Eliza: acho que não sei do que você está falando

P: manchas vermelhas no meu rosto

Eliza: seu rosto

P: isso mesmo

Eliza: é isso mesmo?

14

Page 15: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Eliza (Jackson e Moulinier, 2002)

P: você é um programa, não é?

Eliza: te agrada pensar que eu sou um programa?

P: com certeza

Eliza: eu percebo

P: ok

Eliza: um pouco antes você falou de seu rosto

P: e sobre o seu rosto?

Eliza: o que é que você realmente quer saber?

P: você é meu tipo de garota?

15

Page 16: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Eliza (Jackson e Moulinier, 2002)

Eliza: talvez em suas fantasias eu seja seu tipo de garota

P: em minhas fantasias você é loira

Eliza: o que te faz pensar que sou loira?

P: não sei

Eliza: você realmente não sabe?

P: não

Eliza: você está dizendo não apenas para ser negativo?

P: não

Eliza: você está sendo um pouco negativo

P: não, não estou

Eliza: por quanto tempo você não tem estado?

16

Page 17: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Desde então...

Avanços consideráveis

Infiltrados em nosso dia a dia

Revisão ortográfica e gramatical (MS Word), Google

Translate, Siri, etc.

Algumas vezes, sem percebermos!

17

Page 18: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

WolframAlpha

18

Page 19: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Qwiki

19

Page 20: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Qwiki

Sumariza informação da web

Não há armazenamento de informação

Sintetiza voz

Busca informação relacionada

“Experiência de informação”

Inspiração no computador de bordo de Wall-E

Vídeo

20

Page 21: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

START

Natural Language Question Answering System

http://start.csail.mit.edu/index.php

21

Page 22: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Watson (IBM)

Venceu os melhores participantes humanos no show de perguntas e respostas Jeopardy!

“more than 100 different techniques are used to analyze natural language, identify sources, find and generate hypotheses, find and score evidence, and merge and rank hypotheses”

“sources of information include encyclopedias, dictionaries, thesauri, newswire articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically, DBPedia, WordNet, and Yago were used”

22

Page 23: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Siri (Apple)

23

Page 24: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

24

PLN

“Conversar” com uma máquina não é tão

difícil

Fazer a máquina “entender” é um grande

desafio

Muitas pesquisas

Programas especializados

Recursos linguísticos e linguístico-computacionais

Page 25: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Níveis de conhecimento

25

Page 26: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

26

PLN

Vários níveis de conhecimento

Tradicionalmente distinguidos em PLN, apesar

dos limites entre eles serem nebulosos na

maioria dos casos

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Abstração &

Complexidade

Fonética / Fonologia

Page 27: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

27

Morfologia

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Palavra: construção, componentes de formação

Morfema, raiz, afixo (prefixo, sufixo, etc.), flexão,

derivação, etc.

Page 28: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Novas palavras, neologismos

Criações próprias, importação, etc.

Pré-processamento em geral

Lematização, radicalização, nominalização, etc.

Gentílicos

Antunes (2017) “Gramado” “gramadense” (e não gramadiano)

28

Page 29: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Recursos e ferramentas relacionados

Unitex-PB (Muniz, 2004)

Lematizador do NILC

Projeto Snowball: radicalizadores, stoplists, etc.

29

Page 30: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

30

Morfossintaxe

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Interação entre morfologia e sintaxe: classes

gramaticais ou etiquetas morfossintáticas

Substantivo/nome, verbo, adjetivo, advérbio, pronome,

preposição, conjunção, interjeição, etc.

Page 31: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

31

Exemplo

Ele queria jogar

tênis com Janete,

mas também queria

jantar com Suzana.

Sua indecisão o

deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Ele [ele] PERS M 3S NOM

queria [querer] <fmc> V IMPF 3S IND VFIN

jogar [jogar] V INF

tênis [tênis] N M S/P

com [com] PRP

Janete [Janete] PROP M/F S

,

mas "mas" <co-vfin> <co-fmc> KC

também [também] ADV

queria [querer] <fmc> V IMPF 3S IND VFIN

jantar [jantar] V INF

com [com] PRP

Suzana [Suzana] PROP F S

.

Sua [seu] <poss 3S> DET F S

indecisão [indecisão] N F S

o [ele] PERS M 3S ACC

deixou [deixar] <fmc> V PS 3S IND VFIN

louco [louco] ADJ M S

.

Page 32: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

MXPOST (Aires et al., 2000)

PALAVRAS (Bick, 2000)

LX-Tagger (Branco e Silva, 2004)

Semântica distribucional (Fonseca e Rosa, 2013)

Etc.

32

Page 33: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Em praticamente todas as iniciativas, em

algum nível

Revisores gramaticais

Tradutores automáticos

Sumarizadores de textos

Extração de termos

Extração de aspectos de opinião (Vargas e

Pardo, 2017)

Etc.

33

Page 34: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aspectos de opinião

34

Page 35: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Córpus anotado

Mac-Morpho (Aluísio et al., 2003)

1,1 milhão de palavras manualmente anotadas

35

Page 36: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

36

Sintaxe

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Como as sentenças são formadas, como as

palavras podem se combinar

Função/dependência: sujeito, predicado, objetos,

predicativos, etc.

Estruturação/constituição: sintagma nominal, sintagma

verbal, etc.

Page 37: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

37

Exemplo

Ele queria jogar

tênis com Janete,

mas também

queria jantar com

Suzana. Sua

indecisão o

deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Page 38: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

PALAVRAS (Bick, 2000)

Curupira (Martins et al., 2003)

Selva (Almeida et al., 2003)

MSTParser (Wing e Baldridge, 2006)

LX-Parser (Silva et al., 2010)

Etc.

38

Page 39: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Diversas aplicações

Revisão gramatical

Tradução automática

Sumarização compressiva

Simplificação textual (Cândido Jr. et al.

2009)

Etc.

39

Page 40: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Simplificação Textual

40

Page 41: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Córpus

Bosque, subconjunto da Floresta

Sintá(c)tica (Afonso et al., 2001) revisado

manualmente

9.368 sentenças

CINTIL Treebank (Branco e Costa, 2008)

10.039 sentenças

41

Page 42: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Universal Dependenciesuniversaldependencies.org

Iniciativa de uniformização dos níveis da morfossintaxe e da

sintaxe para diferentes línguas (Nivre et al., 2016)

Experiências prévias de Stanford, Google, etc.

Inclui português

42

Page 43: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

43

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Significado

Palavras, expressões, orações, sentenças,

textos

Page 44: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

44

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Traços semânticos

Mesa Cavalo Garota Mulher

Animado - + + +

Humano - - + +

Fêmea - - + +

Adulto - + - +

Page 45: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

45

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Classificações ontológicas

Desambiguação lexical de sentido

Wikificação

Page 46: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

46

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Papéis semânticos/temáticos

Agente, tema, instrumento, experienciador,

fonte, etc.

[O menino]AGENTE chutou [a bola]TEMA

Page 47: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

47

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Classes/categorias/tipos semânticos

Humano, local, data, organização, etc.

O [menino]HUMANO chutou a bola

Entidades nomeadas

Page 48: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

48

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Relações “lexicais”

Sinonímia, antonímia, hiperonímia/hiponímia,

meronímia/holonímia, etc.

Page 49: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

49

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Diversos fenômenos

Metáforas, expressões idiomáticas, polissemia

Qual a diferença entre polissemia e homonímia?

Banco (assento vs. instituição financeira) é

polissêmico, mas manga (camisa vs. fruta) não é

Page 50: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

50

Semântica

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

“Ele”, “Janete” e “Suzana” = humanos.

Jogar tênis = praticar o esporte tênis ≠ arremessar o calçado.

...

Semântica sentencial

Page 51: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

51

Semântica

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Semântica sentencial

queria(exper(ele),objetivo(jogar(tênis),comutativo(Janete)))...

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Page 52: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Semântica

Inspiração no modelo do espaço vetorial de Salton (1971), originalmente aplicado para Recuperação de Informação

Word embeddings

Sofisticação e eficiência recentes

Grande poder computacional disponível

Grande volume de dados para “aprendizado”

52

Page 53: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Semântica

Palavras que ocorrem no mesmo

contexto tendem a ter o mesmo

sentido

53

A bottle of tesgüino is on the table

Everybody likes tesgüino

Tesgüino makes you drunk

We make tesgüino out of corn.

bebida alcóolica

Page 54: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Semântica

Ocorrência de palavras em 4 obras literárias

Cada documento é representado por um vetor

54

Matriz termo-documento

Dois documentos são similares se seus vetores são similares

Page 55: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Semântica

Para representar palavras, entretanto, é mais usual

ter matriz termo-contexto, ou termo-termo

55

Palavras são similares se seus contextos são similares!

Page 56: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Semântica

Até então, vetores muito esparsos Muito grandes (20.000 a 50.000 elementos nas

linhas e colunas... podendo haver muito mais), com muitos zeros

Tentativas de torna-los mais densos Eficiência de representação: apenas

“termos”/“dimensões” mais significativas 200 a 1.000 termos, aproximadamente

Eficiência computacional

Muitas variações disponíveis

56

Page 57: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Métodos

3 abordagens tradicionais

SVD – Singular Value Decomposition LSA (Deerwester et al., 1990)

Redes neurais (Bengio et al., 2003) e modelos preditivos Skip-grams e continuous bag of words (Mikolov et al., 2013)

Métodos incorporados no pacote word2vec

Concorrente: GloVe (Pennington et al., 2014), que não é preditivo, mas baseado em “contagem”

Brown clustering (Brown et al., 1992)57

Page 58: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Exemplos

Mikolov et al. (2013)

58

Exemplos famosos

• vector(‘king’) - vector(‘man’) + vector(‘woman’) ≈ vector(‘queen’)

• vector(‘Paris’) - vector(‘France’) + vector(‘Italy’) ≈ vector(‘Rome’)

Page 59: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Recursos e ferramentas

OntoLP: Portal de Ontologiashttp://ontolp.inf.pucrs.br

59

Page 60: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Recursos e ferramentas

TeP 2.0 (Maziero et al., 2008) e Wordnet.Br (Dias da Silva, 2003)

Wordnets para o português e variantes (de Paiva et al., 2016)

Onto.PT

Wordnet.PT

MultiWordNet.PT

OpenWordNet.PT

PAPEL

Etc.

60

Page 61: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Recursos e ferramentas

PALAVRAS (Bick, 2000)

Rembrandt (Cardoso, 2008)

REPENTINO (Sarmento et al., 2006)

Babelfy (Moro et al., 2014)

SRL Brazilis (Hartmann et al., 2016)

61

Page 62: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Recursos e ferramentas

PropBank.Br e VerboBrasil (Duran e Aluísio, 2012)

VerbNet.Br (Scarton e Aluísio, 2012)

FrameNet.Br (Chishman e Bertoldi, 2012; Salomão et al., 2013)

LIWC (Balage Filho et al., 2013)

LX-DSemVectors (Rodrigues et al., 2016),NILC-Embeddings

CSTNews (Cardoso et al., 2011)

“O Pequeno Príncipe” em Abstract MeaningRepresentation (AMR) (Baranescu et al., 2013 )

Etc.62

Page 63: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Diversas aplicações

Extração de informação

Recuperação de informação

Sumarização automática

Tradução automática

Classificação de polaridade (Avanço e

Nunes, 2014)

Etc.

63

Page 64: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Classificação de polaridade

64

Page 65: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

65

Discurso

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Discurso

Aquilo que está além da sentença

Semântica textual

Relacionamento proposicional, correferência e expressões

referenciais, marcadores textuais, intenções,

tópicos/subtópicos, componentes retóricos, etc.

Page 66: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

66

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Page 67: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

67

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Page 68: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

68

Discurso

Ele queria jogar tênis com Janete, mas também queria

jantar com Suzana. Sua indecisão o deixou louco.

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

(Intend E (Believe L “o desejo

de fazer duas coisas

incompatíveis o deixou louco”))

Page 69: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

DiZer 2.0, CSTParser e variantes (Maziero et al., 2014, 2015)

Relações discursivas mono e multidocumento

69

Page 70: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

Coh-Metrix-Port (Scarton e Aluísio, 2010): coesão, coerência e

dificuldade de compreensão textual

Inteligibilidade

70

Page 71: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

Delimitação de subtópicos (Cardoso et al., 2017)

71

Page 72: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Analisadores

CORP – Coreference Resolution for Portuguese(Fonseca et al., 2017)

72

Page 73: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Auxílio à escrita

Tradução automática

Reconhecimento de autoria

Análise de sentimentos

Sumarização automática (Cardoso et

al., 2015)

Etc.

73

Page 74: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Aplicações

Análise e seleção de segmentos textuais mais relevantes

74

Page 75: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Córpus

CSTNews (Cardoso et al., 2011)

140 textos jornalísticos, com diversas camadas de anotação: relações discursivas, correferências, subtópicos, aspectos informativos, etc.

Summ-it (Collovini et al., 2007)

50 textos jornalísticos, com relações discursivas e correferências

Etc.

75

Page 76: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

76

Pragmática

Pragmática / Discurso

Semântica

Sintaxe

Morfologia

Pragmática

Língua em uso, interação, contexto

Fatores como força, educação, hierarquia, crença,

cooperação, atitude

Estilos de escrita e de fala

Suposições sobre produtor e receptor, nível de

conhecimento, interesses

Modelagem do usuário

Page 77: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

77

PLN

Considerações para uso por um computador

Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente

Interação entre os níveis Morfologia e sintaxe

Sintaxe e semântica

Semântica e discurso

Page 78: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

78

PLN

Considerações para uso por um computador

Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente

Interação entre níveis mais distantes Morfologia e semântica (goleiro e porteiro vs. padeiro)

Morfologia e pragmática (são carlense vs. são carlino, laranjada e limonada vs. cajuada)

Sintaxe e discurso (subordinadas)

Page 79: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

79

PLN

Trabalho em PLN (Dias da Silva, 2006)

Fase

linguística

Fase

representacional

Fase

implementacional

Page 80: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

80

PLN

Trabalho em PLN (Dias da Silva, 2006)

Fase

linguística

Fase

representacional

Fase

implementacional

Resumos de artigos

de jornais

Formalização das

regras para resumir

Desenvolvimento do

sumarizador automático

Tradução espanhol-

português

Regras de tradução,

dicionários bilíngues

Desenvolvimento do

tradutor automático

Page 81: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

81

PLN

Trabalho em PLN (Dias da Silva, 2006)

Aspectos da língua que são possíveis capturar e

automatizar

Muitas teorias linguísticas são sofisticadas demais para o

PLN... alguns recursos também (exemplo?)

Fase

linguística

Fase

representacional

Fase

implementacional

Teorias e dados

linguísticos

Formalismos/esquemas

de representação

Métodos e modelos

computacionais

Page 82: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

82

PLN & IA

Classificações... nem sempre triviais

Critérios Paradigmas

Uso de conhecimento

linguístico

Superficial, profundo e

híbrido

Representação do

conhecimento

Simbólico, não-

simbólico e híbrido

Obtenção do

conhecimento

Manual, automática e

híbrida

Page 83: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Superficial vs. profundo

Superficial Mais fácil aplicação e desenvolvimento, mais robusto Resultados piores, normalmente

Profundo De mais difícil modelagem e aquisição Resultados melhores, para domínios limitados, muitas vezes

Híbrido: como fazer?

Métodos profundos “explicam” a língua, mas alguns métodos superficiais são muito bons Por exemplo, sumarização de notícias jornalísticas

“Métodos cada vez mais sofisticados para fazer a mesma coisa” Dilema da sumarização automática

83

Page 84: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Simbolismo vs. estatística

Regras são muito “rígidas” para a fluidez e flexibilidade da língua Por exemplo, regras gramaticais para boa

formação de sentenças

Padrões mais frequentes de organização da língua podem ser aprendidos (estatisticamente)

Mas alguns tipos de regras são muito bons Regras de formação de sintagmas nominais

84

Page 85: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Abordagens conflitantes

Simbolismo/profundidade e a validação de teorias e modelos

Explicitação do conhecimento

Grande utilidade da estatística

O conhecimento está lá... “codificado”(controverso)

Dilemas da TA estatística

Funciona melhor que outras abordagens, codifica conhecimento, conhecimento pode estar errado (quem se importa?)

85

Page 86: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

História do PLN

Direcionada por correntes filosófico-

linguísticas

Às vezes complementares

Às vezes rivais até a morte

86

Page 87: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Racionalismo

1960-1985: racionalismo entre linguistas, informatas, etc. Racionalismo: crença de que parte significativa do

conhecimento humano não vem dos sentidos, mas é herdada geneticamente

Noam Chomsky Linguagem inata

Argumento: muito pouco estímulo para um aprendizado muito eficiente de algo complexo Como é possível aprender tanto a partir de tão pouca evidência

linguística?

IA: sistemas com muito conhecimento manualmente fornecido e com mecanismos de inferência

87

Page 88: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Empirismo

1920-1960: empirismo Mente não vem com princípios e procedimentos

pré-determinados

Mas vem com operações gerais de associação, reconhecimento de padrões e generalizações Importância do estímulo sensorial para o aprendizado

da língua

Ressurgimento na atualidade Córpus

Aprendizado da estrutura da linguagem com modelos de língua parametrizáveis

88

Page 89: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Abordagens: PLN

Eric Laporte (2012) - linguista

Dualidade córpus/introspecção

89

Page 90: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

História do PLN

Marcada por dicotomias

Simbolismo vs. estatística

Abordagens superficiais vs. profundas

Racionalismo vs. empirismo

90

Page 91: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Resumo da história de PLN

Avanços da área no tempo (Jurafsky e Martin, 2009)

1940-56: fundação da área Máquinas de estados finitos, gramáticas e modelos probabilísticos

1957-70: dois campos Simbolismo vs. estatística e os primeiros córpus on-line

1970-83: quatro paradigmas Estocástico, lógico, interpretação textual, discurso

1983-93: empirismo Probabilidades, avaliação, geração textual

1994-99: fortalecimento da área Modelos baseados em dados, exploração comercial, web

2000-atual: aprendizado de máquina Semissupervisão e não supervisão, aprendizado sem fim, aprendizado profundo

Competições e grandes conjuntos de dados

Modelos distribucionais 91

Page 92: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

PLN

Classificação

Recursos

Ferramentas

Aplicações

92

Page 93: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

93

Recursos

Córpus Anotação: humana e/ou automática

XML, XCES, TEI, etc.

Paralelo, comparável, alinhado, etc.

Dicionários monolíngues e bilíngues Machine readable vs. machine tractable

Léxicos Vários paradigmas

Page 94: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

94

Ferramentas

Segmentadores textuais: palavras (tokenizador), sentenças, parágrafos, tópicos

Stemmers, lematizadores, nominalizadores

Etiquetadores morfossintáticos (taggers)

Analisadores sintáticos shallow (chunkers) e deep (parsers)

Analisadores semânticos e discursivos

Alinhadores textuais: lexicais, sentenciais, etc.

Concordanceadores, word counting, etc.

Page 95: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

95

Aplicações

Tradutores automáticos

Revisores ortográficos e gramaticais

Ferramentas de auxílio à escrita

Sumarizadores automáticos

Simplificadores textuais

Page 96: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

96

Recursos, ferramentas e aplicações

Atenção

Classificação difusa, às vezes

Dependente do uso Sumarizador como passo intermediário para

recuperação da informação ferramenta

Dicionário eletrônico para consulta aplicação

Page 97: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

No Brasil e no mundo

PLN

97

Page 98: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

98

Comissão Especial de PLN

Responsável pela condução da área e representação nacional

www.sbc.org.br/ce-pln Não precisa ser membro da SBC

Page 99: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

99

Page 100: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

100

Page 101: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

101

Page 102: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

102

Page 103: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

103

Outras iniciativas

ACL anthology, listas de discussão, wiki

Linguateca Oficialmente finalizado

forum-lp

Toolkits NLTK, GATE, nlpnet, AntMover, etc.

Metashare

Etc.

Page 104: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Finalizando...

104

Page 105: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Atenção

O mundo é muito maior!

O que foi apresentado é apenas um recorte

para introdução à área

Apenas um ponto de partida!

105

Page 106: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

GloboNews/Mundo SAReportagem de 13/03/2017

Sugestão para ver em casa

A indústria por trás do uso da inteligência

artificial

http://globosatplay.globo.com/globonews/v/57

22142/

106

Page 107: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Introdução ao Processamento de

Línguas Naturais

Na parte da tarde

Uma aplicação: introdução à análise de

sentimentos

107

EBRALC 2017

Page 108: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Referências

Aires, R.V.X.; Aluísio, S.M.; Kuhn, D.C.S.; Andreeta, M.L.B.; Oliveira Jr., O.N. (2000). Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. In the Proceedings of the Brazilian Artificial Intelligence Symposium (SBIA).

Afonso, S.; Bick, E.; Haber, R.; Santos, D. (2001). Floresta sintá(c)tica: um treebank para o português. In Anais do XVII Encontro da Associação Portuguesa de Linguística.

Almeida, S.; Carvalho, A.; Fantin, L.; Stolfi, J. (2003). Selva: A New Syntactic Parser for Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 102-109.

Aluísio, S.M.; Pelizzoni, J.M.; Marchi, A.R.; de Oliveira, L.; Manenti, R.; Marquiafável, V. (2003). An account of the challenge of tagging a reference corpus for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 110-117.

Antunes, R.A.M.R. (2017) Formação de Gentílicos a partir de Topônimos: Proposta de geração automática. Dissertação de Mestrado. Universidade Federal de São Carlos.

Avanço, L.V. and Nunes, M.G.V. (2014). Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In Proceedings of the Brazilian Conference on Intelligent Systems, pp. 277-281.

Balage Filho, P.P.; Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 215-219.

Banarescu, L.; Bonial, C.; Cai, S.; Georgescu, M.; Griffitti, K.; Hermjakob, U.; Knight, K.; Koehn, P.; Palmer, M.; Schneider, N. (2013). Abstract Meaning Representation for Sembanking. In the Proceedings of Linguistic Annotation Workshop, pp. 178-186.

Bengio, Y.; Ducharme, R.; Vincent, P.; Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, Vol. 3, pp. 1137-1155.

Bick, E. (2000). The parsing system “Palavras”. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus Univ. Press.

108

Page 109: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

ReferênciasBranco, A. and Silva, J. (2004). Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In the Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), pp. 507-510.

Branco, A. and Costa, F. (2008). A computational grammar for deep linguistic processing of Portuguese: LXGram. Technical Report DI-FCUL-TR-08-17, University of Lisbon.

Brown, P.F.; Della Pietra, V.J.; Souza, P.V.; Lai, J.C.; Mercer, R.L. (1992). Class-based n-gram models of natural language. Computational Linguistics, Vol. 18, N. 4, pp. 467-479.

Cândido Jr. A.; Maziero E.; Gasperin, C.; Pardo, T.A.S.; Specia, L.; Aluisio, S.M. (2009). Supporting the Adaptation of Texts for Poor Literacy Readers: a Text Simplification Editor for Brazilian Portuguese. In the Proceedings of the NAACL HLT Workshop on Innovative Use of NLP for Building Educational Applications, pp. 34-42.

Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In C. Mota and D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, pp. 195-211.

Cardoso, P.C.F.; Maziero, E.G.; Castro Jorge, M.L.R.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. (2011). CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp. 88-105.

Cardoso, P.C.F.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2015). Exploring the Rhetorical Structure Theory for Multi-document Summarization. In the Proceedings of the 5th Workshop RST and Discourse Studies, pp. 1-10.

Cardoso, P.C.F.; Pardo, T.A.S.; Taboada, M. (2017). Subtopic annotation and automatic segmentation for news texts in BrazilianPortuguese. Corpora, Vol. 12, N. 1, pp. 23-54. Edinburgh University Press.

Chishman, R.L.O. and Bertoldi, A. (2012). A Semântica de Frames e os Recursos Lexicais Computacionais: da teoria à aplicação. A Cognição na Linguagem, pp. 140-160.

Collovini, S.; Carbonel, T.I.; Fuchs, J.T.; Coelho, J.C.; Rino, L.H.M.; Vieira, R. (2007). Summ-it: Um corpus anotado com informações discursivas visando a sumarização automática. In Anais do V Workshop em Tecnologia da Informação e da Linguagem Humana, pp. 1605-1614.

de Paiva, V.; Real, L.; Oliveira, H.G.; Rademaker, A.; Freitas, C.; Simões, A. (2016). An overview of Portuguese WordNets. In the Proceedings of the Global Wordnet Conference.

109

Page 110: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Referências

Deerwester, S.C.; Dumais, S.T.; Landauer, T.K.; Furnas, G.W.; Harshman, R.A. (1990). Indexing by latent semantics analysis. Journal of the American Society for Information Science, Vol. 41, N. 6, pp. 391-407.

Dias da Silva, B.C. (2006). O estudo Lingüístico-Computacional da Linguagem. Letras de Hoje, Vol. 41. N. 2, pp. 103-138.

Dias da Silva, B.C. (2003). Human language technology research and the development of the Brazilian Portuguese wordnet. In the Proceedings of the 17th International Congress of Linguists, pp. 1-12

Duran, M.S. and Aluísio, S.M. (2012). Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In the Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), pp. 1862-1867.

Fonseca, E.R. and Rosa, J.L.G. (2013). Mac-Morpho Revisited: Towards Robust Part-of-Speech Tagging. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 98-107.

Fonseca, E.; Sesti, V.; Antonitsch, A.; Vanin, A.; Vieira, R. (2017). CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências. LinguaMÁTICA, Vol. 9, N. 1, pp. 3-18.

Hartmann, N.S.; Duran, M.S.; Aluísio, S.M. (2016). Automatic Semantic Role Labeling on Non-revised Syntactic Trees of Journalistic Texts. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 202-212.

Jackson, P. and Moulinier, I. (2002). Natural Language Processing for Online Applications: Text retrieval, extraction and categorization. John Benjamins Publishing Company.

Jurafsky, D. and Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall.

Martins, R.T.; Hasegawa, R.; Nunes, M.G.V. (2003). Curupira: a functional parser for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 179-183.

110

Page 111: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

ReferênciasMaziero, E.G.; Pardo, T.A.S.; Di Felippo, A.; Dias-da-Silva, B.C. (2008). A Base de Dados Lexical e a Interface Web do TeP 2.0 -Thesaurus Eletrônico para o Português do Brasil. In Anais do VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL), pp. 390-392.

Maziero, E.G.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2014). Revisiting Cross-document Structure Theory for multi-document discourseparsing. Information Processing & Management, Vol. 50, N. 2, pp. 297-314.

Maziero, E.G.; Hirst, G.; Pardo, T.A.S. (2015). Semi-Supervised Never-Ending Learning in Rhetorical Relation Identification. In the Proceedings of the Recent Advances in Natural Language Processing - RANLP, pp. 436-442.

Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In the Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), pp. 3111-3119.

Moro, A.; Raganato, A.; Navigli, R. (2014). Entity Linking meets Word Sense Disambiguation: a Unified Approach. Transactions of the Association for Computational Linguistics, Vol. 2, pp. 231-244.

Muniz, M.C.M. (2004). A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto de Unitex-PB. Dissertação de Mestrado. Instituto de Ciências Matemáticas de São Carlos, Universidade de São Paulo.

Nivre, J.; Marneffe, M.C.; Ginter, F.; Goldberg, Y.; Hajič, J.; Manning, C.D.; McDonald, R.; Petrov, S.; Pyysalo, S.; Silveira, N.; Tsarfaty, R.; Zeman, D. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In the Proceedings of the Tenth International Conference on Language Resources and Evaluation, pp. 1659-1666.

Oliveira, H.G. and Gomes, P (2014). ECO and Onto.PT: A flexible approach for creating a Portuguese wordnet automatically. Language Resources and Evaluation, Vol. 48, N. 2, pp. 373-393.

Pennington, J.; Socher, R.; Manning, C.D. (2014). Glove: Global vectors for word representation. In the Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543.

Rodrigues, J.; Branco, A.; Neale, S.; Silva. J. (2016). LX-DSemVectors: Distributional Semantics Models for Portuguese. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 259-270.

111

Page 112: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]

Referências

Salomão, M.M.M.; Torrent, T.T.; Sampaio, T.F. (2013). A Linguística de Corpus Encontra a Linguística Computacional: Notícias do

Projeto FrameNet Brasil. Cadernos de Estudos Linguísticos, Vol. 55, N. 1, pp. 7-34.

Salton, G. (1971). The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice Hall.

Sarmento, L.; Pinto, A.S.; Cabral, L. (2006). REPENTINO - A Wide-Scope Gazetteer for Entity Recognition in Portuguese. In the

Proceedings of the International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 31-40.

Scarton, C.E. and Aluísio, S.M. (2010). Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural:

adaptando as métricas do Coh-Metrix para o Português. LinguaMÁTICA, Vol. 2, N.1, pp. 45-61.

Scarton, C. and Aluísio, S. (2012). Towards a cross-linguistic VerbNet-style lexicon to Brazilian Portuguese. In the Proceedings of the

LREC Workshop on Creating Cross-language Resources for Disconnected Languages and Styles, pp. 11-18.

Silva, J.; Branco, A.; Castro, S.; Reis, R. (2010). Out-of-the-Box Robust Parsing of Portuguese. In the Proceedings of the 9th

International Conference on the Computational Processing of Portuguese (PROPOR), pp. 75–85.

Vargas, F.A. and Pardo, T.A.S. (2017). Clustering and hierarchical organization of opinion aspects: a corpus study. In Anais do XIV

Encontro de Linguística de Corpus (ELC). Em publicação.

Wing, B. and Baldridge, J. (2006). Adaption of Data and Models for Probabilistic Parsing of Portuguese. In the Proceedings of the 7th

Workshop on Computational Processing of Written and Spoken Portuguese (PROPOR), pp. 140-149.

112