Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...
Transcript of Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito...
1
Introdução ao Processamento de
Línguas Naturais
Thiago A. S. Pardo
Núcleo Interinstitucional de Linguística Computacional (NILC)Departamento de Ciências de Computação
Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo
EBRALC 2017
Agenda
1. Conceitos básicos
2. Níveis de conhecimento: recursos,
ferramentas e aplicações relacionados
3. PLN no Brasil e no mundo
2
Conceitos básicos
3
4
Meta de PLN
HAL 9.000 (Heuristically programmed ALgorithmic Computer)
1968
5
Para construir um computador como
HAL
Requer um volume enorme de conhecimento de uma dada língua Reconhecimento (faz até leitura labial) e síntese de fala (fonética e
fonologia)
Conhecimento das palavras envolvidas (morfologia e vocabulário)
Significado (semântica) e como combinam (uso das palavras)
Como grupos de palavras de juntam (sintaxe)
Manter um diálogo (discurso)
É educado responder... mesmo que você queira matar alguém (HAL)
É educado ser cooperativo... mesmo que esteja fingindo (HAL)
O uso de língua natural também pressupõe conhecimento do mundo e de senso comum
6
Língua Natural
Língua humana
Em oposição às linguagens artificiais
Matemática, lógica, linguagens de programação
de computadores
7
PLN
Processamento de Língua Natural
Linguística Computacional
Processamento de Linguagem Natural
Na Computação, tradicionalmente visto como subárea da
Inteligência Artificial
Habilidade linguística é um tipo de inteligência
8
PLN
Instruir o computador a lidar com a língua (Jurafsky e Martin, 2009)
Entendimento Análise morfológica e sintática, semântica e discursiva
Geração, síntese Tradução, produção de resumos
Correção gramatical
Busca de respostas para perguntas
Recuperação de informação da Internet
Auxílio a escrita e ao aprendizado de línguas
Etc.
Multidisciplinar, envolvendo principalmente Computação
Linguística
9
PLN: um pouco de história
Nascimento na 2ª guerra mundial
Tradução automática
Possíveis nomes
Computational Linguistics
Mechanolinguistics
Automatic Language Data Processing
Natural Language Processing
10
PLN: um pouco de história
Trajetória da Inteligência Artificial
Primeiros trabalhos grande expectativa
resultados pobres desilusão e hibernação da
área novos horizontes
Relatório da ALPAC (Automatic Language Processing
Advisory Committee): Languages and Machines –
computers in translation and linguistics
11
PLN: um pouco de história
Globalização, internet, tecnologia da
informação, Google
Mais recentemente, web 2.0, redes sociais,
smartphones, big data
12
PLN
Auxílio às tarefas humanas
Não substitui o humano (ainda)
Não é possível (ainda) “automatizar” totalmente a
língua, apenas aspectos dela
O computador (ainda) é uma máquina estúpida!
13
Primórdios do PLN: Eliza
Programa psicólogo dos anos 60 Muitas versões na Internet
Parece muito esperto, mas se perde depois de algum tempo de conversa Muitas pessoas foram enganadas pelo programa!!!
Muito simples Se baseia na fala da pessoa para formular sua
pergunta/resposta
Eliza (Jackson e Moulinier, 2002)
Eliza: como vai você hoje?
P: não muito bem
Eliza: por que você diz não muito bem?
P: eu estou com alergia
Eliza: interessante
P: eu fico com manchas vermelhas
Eliza: acho que não sei do que você está falando
P: manchas vermelhas no meu rosto
Eliza: seu rosto
P: isso mesmo
Eliza: é isso mesmo?
14
Eliza (Jackson e Moulinier, 2002)
P: você é um programa, não é?
Eliza: te agrada pensar que eu sou um programa?
P: com certeza
Eliza: eu percebo
P: ok
Eliza: um pouco antes você falou de seu rosto
P: e sobre o seu rosto?
Eliza: o que é que você realmente quer saber?
P: você é meu tipo de garota?
15
Eliza (Jackson e Moulinier, 2002)
Eliza: talvez em suas fantasias eu seja seu tipo de garota
P: em minhas fantasias você é loira
Eliza: o que te faz pensar que sou loira?
P: não sei
Eliza: você realmente não sabe?
P: não
Eliza: você está dizendo não apenas para ser negativo?
P: não
Eliza: você está sendo um pouco negativo
P: não, não estou
Eliza: por quanto tempo você não tem estado?
16
Desde então...
Avanços consideráveis
Infiltrados em nosso dia a dia
Revisão ortográfica e gramatical (MS Word), Google
Translate, Siri, etc.
Algumas vezes, sem percebermos!
17
WolframAlpha
18
Qwiki
19
Qwiki
Sumariza informação da web
Não há armazenamento de informação
Sintetiza voz
Busca informação relacionada
“Experiência de informação”
Inspiração no computador de bordo de Wall-E
Vídeo
20
START
Natural Language Question Answering System
http://start.csail.mit.edu/index.php
21
Watson (IBM)
Venceu os melhores participantes humanos no show de perguntas e respostas Jeopardy!
“more than 100 different techniques are used to analyze natural language, identify sources, find and generate hypotheses, find and score evidence, and merge and rank hypotheses”
“sources of information include encyclopedias, dictionaries, thesauri, newswire articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically, DBPedia, WordNet, and Yago were used”
22
Siri (Apple)
23
24
PLN
“Conversar” com uma máquina não é tão
difícil
Fazer a máquina “entender” é um grande
desafio
Muitas pesquisas
Programas especializados
Recursos linguísticos e linguístico-computacionais
Níveis de conhecimento
25
26
PLN
Vários níveis de conhecimento
Tradicionalmente distinguidos em PLN, apesar
dos limites entre eles serem nebulosos na
maioria dos casos
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Abstração &
Complexidade
Fonética / Fonologia
27
Morfologia
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Palavra: construção, componentes de formação
Morfema, raiz, afixo (prefixo, sufixo, etc.), flexão,
derivação, etc.
Aplicações
Novas palavras, neologismos
Criações próprias, importação, etc.
Pré-processamento em geral
Lematização, radicalização, nominalização, etc.
Gentílicos
Antunes (2017) “Gramado” “gramadense” (e não gramadiano)
28
Recursos e ferramentas relacionados
Unitex-PB (Muniz, 2004)
Lematizador do NILC
Projeto Snowball: radicalizadores, stoplists, etc.
29
30
Morfossintaxe
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Interação entre morfologia e sintaxe: classes
gramaticais ou etiquetas morfossintáticas
Substantivo/nome, verbo, adjetivo, advérbio, pronome,
preposição, conjunção, interjeição, etc.
31
Exemplo
Ele queria jogar
tênis com Janete,
mas também queria
jantar com Suzana.
Sua indecisão o
deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Ele [ele] PERS M 3S NOM
queria [querer] <fmc> V IMPF 3S IND VFIN
jogar [jogar] V INF
tênis [tênis] N M S/P
com [com] PRP
Janete [Janete] PROP M/F S
,
mas "mas" <co-vfin> <co-fmc> KC
também [também] ADV
queria [querer] <fmc> V IMPF 3S IND VFIN
jantar [jantar] V INF
com [com] PRP
Suzana [Suzana] PROP F S
.
Sua [seu] <poss 3S> DET F S
indecisão [indecisão] N F S
o [ele] PERS M 3S ACC
deixou [deixar] <fmc> V PS 3S IND VFIN
louco [louco] ADJ M S
.
Analisadores
MXPOST (Aires et al., 2000)
PALAVRAS (Bick, 2000)
LX-Tagger (Branco e Silva, 2004)
Semântica distribucional (Fonseca e Rosa, 2013)
Etc.
32
Aplicações
Em praticamente todas as iniciativas, em
algum nível
Revisores gramaticais
Tradutores automáticos
Sumarizadores de textos
Extração de termos
Extração de aspectos de opinião (Vargas e
Pardo, 2017)
Etc.
33
Aspectos de opinião
34
Córpus anotado
Mac-Morpho (Aluísio et al., 2003)
1,1 milhão de palavras manualmente anotadas
35
36
Sintaxe
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Como as sentenças são formadas, como as
palavras podem se combinar
Função/dependência: sujeito, predicado, objetos,
predicativos, etc.
Estruturação/constituição: sintagma nominal, sintagma
verbal, etc.
37
Exemplo
Ele queria jogar
tênis com Janete,
mas também
queria jantar com
Suzana. Sua
indecisão o
deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Analisadores
PALAVRAS (Bick, 2000)
Curupira (Martins et al., 2003)
Selva (Almeida et al., 2003)
MSTParser (Wing e Baldridge, 2006)
LX-Parser (Silva et al., 2010)
Etc.
38
Aplicações
Diversas aplicações
Revisão gramatical
Tradução automática
Sumarização compressiva
Simplificação textual (Cândido Jr. et al.
2009)
Etc.
39
Simplificação Textual
40
Córpus
Bosque, subconjunto da Floresta
Sintá(c)tica (Afonso et al., 2001) revisado
manualmente
9.368 sentenças
CINTIL Treebank (Branco e Costa, 2008)
10.039 sentenças
41
Universal Dependenciesuniversaldependencies.org
Iniciativa de uniformização dos níveis da morfossintaxe e da
sintaxe para diferentes línguas (Nivre et al., 2016)
Experiências prévias de Stanford, Google, etc.
Inclui português
42
43
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Significado
Palavras, expressões, orações, sentenças,
textos
44
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Traços semânticos
Mesa Cavalo Garota Mulher
Animado - + + +
Humano - - + +
Fêmea - - + +
Adulto - + - +
45
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Classificações ontológicas
Desambiguação lexical de sentido
Wikificação
46
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Papéis semânticos/temáticos
Agente, tema, instrumento, experienciador,
fonte, etc.
[O menino]AGENTE chutou [a bola]TEMA
47
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Classes/categorias/tipos semânticos
Humano, local, data, organização, etc.
O [menino]HUMANO chutou a bola
Entidades nomeadas
48
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Relações “lexicais”
Sinonímia, antonímia, hiperonímia/hiponímia,
meronímia/holonímia, etc.
49
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Diversos fenômenos
Metáforas, expressões idiomáticas, polissemia
Qual a diferença entre polissemia e homonímia?
Banco (assento vs. instituição financeira) é
polissêmico, mas manga (camisa vs. fruta) não é
50
Semântica
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
“Ele”, “Janete” e “Suzana” = humanos.
Jogar tênis = praticar o esporte tênis ≠ arremessar o calçado.
...
Semântica sentencial
51
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Semântica sentencial
queria(exper(ele),objetivo(jogar(tênis),comutativo(Janete)))...
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Semântica
Inspiração no modelo do espaço vetorial de Salton (1971), originalmente aplicado para Recuperação de Informação
Word embeddings
Sofisticação e eficiência recentes
Grande poder computacional disponível
Grande volume de dados para “aprendizado”
52
Semântica
Palavras que ocorrem no mesmo
contexto tendem a ter o mesmo
sentido
53
A bottle of tesgüino is on the table
Everybody likes tesgüino
Tesgüino makes you drunk
We make tesgüino out of corn.
bebida alcóolica
Semântica
Ocorrência de palavras em 4 obras literárias
Cada documento é representado por um vetor
54
Matriz termo-documento
Dois documentos são similares se seus vetores são similares
Semântica
Para representar palavras, entretanto, é mais usual
ter matriz termo-contexto, ou termo-termo
55
Palavras são similares se seus contextos são similares!
Semântica
Até então, vetores muito esparsos Muito grandes (20.000 a 50.000 elementos nas
linhas e colunas... podendo haver muito mais), com muitos zeros
Tentativas de torna-los mais densos Eficiência de representação: apenas
“termos”/“dimensões” mais significativas 200 a 1.000 termos, aproximadamente
Eficiência computacional
Muitas variações disponíveis
56
Métodos
3 abordagens tradicionais
SVD – Singular Value Decomposition LSA (Deerwester et al., 1990)
Redes neurais (Bengio et al., 2003) e modelos preditivos Skip-grams e continuous bag of words (Mikolov et al., 2013)
Métodos incorporados no pacote word2vec
Concorrente: GloVe (Pennington et al., 2014), que não é preditivo, mas baseado em “contagem”
Brown clustering (Brown et al., 1992)57
Exemplos
Mikolov et al. (2013)
58
Exemplos famosos
• vector(‘king’) - vector(‘man’) + vector(‘woman’) ≈ vector(‘queen’)
• vector(‘Paris’) - vector(‘France’) + vector(‘Italy’) ≈ vector(‘Rome’)
Recursos e ferramentas
OntoLP: Portal de Ontologiashttp://ontolp.inf.pucrs.br
59
Recursos e ferramentas
TeP 2.0 (Maziero et al., 2008) e Wordnet.Br (Dias da Silva, 2003)
Wordnets para o português e variantes (de Paiva et al., 2016)
Onto.PT
Wordnet.PT
MultiWordNet.PT
OpenWordNet.PT
PAPEL
Etc.
60
Recursos e ferramentas
PALAVRAS (Bick, 2000)
Rembrandt (Cardoso, 2008)
REPENTINO (Sarmento et al., 2006)
Babelfy (Moro et al., 2014)
SRL Brazilis (Hartmann et al., 2016)
61
Recursos e ferramentas
PropBank.Br e VerboBrasil (Duran e Aluísio, 2012)
VerbNet.Br (Scarton e Aluísio, 2012)
FrameNet.Br (Chishman e Bertoldi, 2012; Salomão et al., 2013)
LIWC (Balage Filho et al., 2013)
LX-DSemVectors (Rodrigues et al., 2016),NILC-Embeddings
CSTNews (Cardoso et al., 2011)
“O Pequeno Príncipe” em Abstract MeaningRepresentation (AMR) (Baranescu et al., 2013 )
Etc.62
Aplicações
Diversas aplicações
Extração de informação
Recuperação de informação
Sumarização automática
Tradução automática
Classificação de polaridade (Avanço e
Nunes, 2014)
Etc.
63
Classificação de polaridade
64
65
Discurso
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Discurso
Aquilo que está além da sentença
Semântica textual
Relacionamento proposicional, correferência e expressões
referenciais, marcadores textuais, intenções,
tópicos/subtópicos, componentes retóricos, etc.
66
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
67
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
68
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
(Intend E (Believe L “o desejo
de fazer duas coisas
incompatíveis o deixou louco”))
Analisadores
DiZer 2.0, CSTParser e variantes (Maziero et al., 2014, 2015)
Relações discursivas mono e multidocumento
69
Analisadores
Coh-Metrix-Port (Scarton e Aluísio, 2010): coesão, coerência e
dificuldade de compreensão textual
Inteligibilidade
70
Analisadores
Delimitação de subtópicos (Cardoso et al., 2017)
71
Analisadores
CORP – Coreference Resolution for Portuguese(Fonseca et al., 2017)
72
Aplicações
Auxílio à escrita
Tradução automática
Reconhecimento de autoria
Análise de sentimentos
Sumarização automática (Cardoso et
al., 2015)
Etc.
73
Aplicações
Análise e seleção de segmentos textuais mais relevantes
74
Córpus
CSTNews (Cardoso et al., 2011)
140 textos jornalísticos, com diversas camadas de anotação: relações discursivas, correferências, subtópicos, aspectos informativos, etc.
Summ-it (Collovini et al., 2007)
50 textos jornalísticos, com relações discursivas e correferências
Etc.
75
76
Pragmática
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Pragmática
Língua em uso, interação, contexto
Fatores como força, educação, hierarquia, crença,
cooperação, atitude
Estilos de escrita e de fala
Suposições sobre produtor e receptor, nível de
conhecimento, interesses
Modelagem do usuário
77
PLN
Considerações para uso por um computador
Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente
Interação entre os níveis Morfologia e sintaxe
Sintaxe e semântica
Semântica e discurso
78
PLN
Considerações para uso por um computador
Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente
Interação entre níveis mais distantes Morfologia e semântica (goleiro e porteiro vs. padeiro)
Morfologia e pragmática (são carlense vs. são carlino, laranjada e limonada vs. cajuada)
Sintaxe e discurso (subordinadas)
79
PLN
Trabalho em PLN (Dias da Silva, 2006)
Fase
linguística
Fase
representacional
Fase
implementacional
80
PLN
Trabalho em PLN (Dias da Silva, 2006)
Fase
linguística
Fase
representacional
Fase
implementacional
Resumos de artigos
de jornais
Formalização das
regras para resumir
Desenvolvimento do
sumarizador automático
Tradução espanhol-
português
Regras de tradução,
dicionários bilíngues
Desenvolvimento do
tradutor automático
81
PLN
Trabalho em PLN (Dias da Silva, 2006)
Aspectos da língua que são possíveis capturar e
automatizar
Muitas teorias linguísticas são sofisticadas demais para o
PLN... alguns recursos também (exemplo?)
Fase
linguística
Fase
representacional
Fase
implementacional
Teorias e dados
linguísticos
Formalismos/esquemas
de representação
Métodos e modelos
computacionais
82
PLN & IA
Classificações... nem sempre triviais
Critérios Paradigmas
Uso de conhecimento
linguístico
Superficial, profundo e
híbrido
Representação do
conhecimento
Simbólico, não-
simbólico e híbrido
Obtenção do
conhecimento
Manual, automática e
híbrida
Superficial vs. profundo
Superficial Mais fácil aplicação e desenvolvimento, mais robusto Resultados piores, normalmente
Profundo De mais difícil modelagem e aquisição Resultados melhores, para domínios limitados, muitas vezes
Híbrido: como fazer?
Métodos profundos “explicam” a língua, mas alguns métodos superficiais são muito bons Por exemplo, sumarização de notícias jornalísticas
“Métodos cada vez mais sofisticados para fazer a mesma coisa” Dilema da sumarização automática
83
Simbolismo vs. estatística
Regras são muito “rígidas” para a fluidez e flexibilidade da língua Por exemplo, regras gramaticais para boa
formação de sentenças
Padrões mais frequentes de organização da língua podem ser aprendidos (estatisticamente)
Mas alguns tipos de regras são muito bons Regras de formação de sintagmas nominais
84
Abordagens conflitantes
Simbolismo/profundidade e a validação de teorias e modelos
Explicitação do conhecimento
Grande utilidade da estatística
O conhecimento está lá... “codificado”(controverso)
Dilemas da TA estatística
Funciona melhor que outras abordagens, codifica conhecimento, conhecimento pode estar errado (quem se importa?)
85
História do PLN
Direcionada por correntes filosófico-
linguísticas
Às vezes complementares
Às vezes rivais até a morte
86
Racionalismo
1960-1985: racionalismo entre linguistas, informatas, etc. Racionalismo: crença de que parte significativa do
conhecimento humano não vem dos sentidos, mas é herdada geneticamente
Noam Chomsky Linguagem inata
Argumento: muito pouco estímulo para um aprendizado muito eficiente de algo complexo Como é possível aprender tanto a partir de tão pouca evidência
linguística?
IA: sistemas com muito conhecimento manualmente fornecido e com mecanismos de inferência
87
Empirismo
1920-1960: empirismo Mente não vem com princípios e procedimentos
pré-determinados
Mas vem com operações gerais de associação, reconhecimento de padrões e generalizações Importância do estímulo sensorial para o aprendizado
da língua
Ressurgimento na atualidade Córpus
Aprendizado da estrutura da linguagem com modelos de língua parametrizáveis
88
Abordagens: PLN
Eric Laporte (2012) - linguista
Dualidade córpus/introspecção
89
História do PLN
Marcada por dicotomias
Simbolismo vs. estatística
Abordagens superficiais vs. profundas
Racionalismo vs. empirismo
90
Resumo da história de PLN
Avanços da área no tempo (Jurafsky e Martin, 2009)
1940-56: fundação da área Máquinas de estados finitos, gramáticas e modelos probabilísticos
1957-70: dois campos Simbolismo vs. estatística e os primeiros córpus on-line
1970-83: quatro paradigmas Estocástico, lógico, interpretação textual, discurso
1983-93: empirismo Probabilidades, avaliação, geração textual
1994-99: fortalecimento da área Modelos baseados em dados, exploração comercial, web
2000-atual: aprendizado de máquina Semissupervisão e não supervisão, aprendizado sem fim, aprendizado profundo
Competições e grandes conjuntos de dados
Modelos distribucionais 91
PLN
Classificação
Recursos
Ferramentas
Aplicações
92
93
Recursos
Córpus Anotação: humana e/ou automática
XML, XCES, TEI, etc.
Paralelo, comparável, alinhado, etc.
Dicionários monolíngues e bilíngues Machine readable vs. machine tractable
Léxicos Vários paradigmas
94
Ferramentas
Segmentadores textuais: palavras (tokenizador), sentenças, parágrafos, tópicos
Stemmers, lematizadores, nominalizadores
Etiquetadores morfossintáticos (taggers)
Analisadores sintáticos shallow (chunkers) e deep (parsers)
Analisadores semânticos e discursivos
Alinhadores textuais: lexicais, sentenciais, etc.
Concordanceadores, word counting, etc.
95
Aplicações
Tradutores automáticos
Revisores ortográficos e gramaticais
Ferramentas de auxílio à escrita
Sumarizadores automáticos
Simplificadores textuais
96
Recursos, ferramentas e aplicações
Atenção
Classificação difusa, às vezes
Dependente do uso Sumarizador como passo intermediário para
recuperação da informação ferramenta
Dicionário eletrônico para consulta aplicação
No Brasil e no mundo
PLN
97
98
Comissão Especial de PLN
Responsável pela condução da área e representação nacional
www.sbc.org.br/ce-pln Não precisa ser membro da SBC
99
100
101
102
103
Outras iniciativas
ACL anthology, listas de discussão, wiki
Linguateca Oficialmente finalizado
forum-lp
Toolkits NLTK, GATE, nlpnet, AntMover, etc.
Metashare
Etc.
Finalizando...
104
Atenção
O mundo é muito maior!
O que foi apresentado é apenas um recorte
para introdução à área
Apenas um ponto de partida!
105
GloboNews/Mundo SAReportagem de 13/03/2017
Sugestão para ver em casa
A indústria por trás do uso da inteligência
artificial
http://globosatplay.globo.com/globonews/v/57
22142/
106
Introdução ao Processamento de
Línguas Naturais
Na parte da tarde
Uma aplicação: introdução à análise de
sentimentos
107
EBRALC 2017
Referências
Aires, R.V.X.; Aluísio, S.M.; Kuhn, D.C.S.; Andreeta, M.L.B.; Oliveira Jr., O.N. (2000). Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. In the Proceedings of the Brazilian Artificial Intelligence Symposium (SBIA).
Afonso, S.; Bick, E.; Haber, R.; Santos, D. (2001). Floresta sintá(c)tica: um treebank para o português. In Anais do XVII Encontro da Associação Portuguesa de Linguística.
Almeida, S.; Carvalho, A.; Fantin, L.; Stolfi, J. (2003). Selva: A New Syntactic Parser for Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 102-109.
Aluísio, S.M.; Pelizzoni, J.M.; Marchi, A.R.; de Oliveira, L.; Manenti, R.; Marquiafável, V. (2003). An account of the challenge of tagging a reference corpus for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 110-117.
Antunes, R.A.M.R. (2017) Formação de Gentílicos a partir de Topônimos: Proposta de geração automática. Dissertação de Mestrado. Universidade Federal de São Carlos.
Avanço, L.V. and Nunes, M.G.V. (2014). Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In Proceedings of the Brazilian Conference on Intelligent Systems, pp. 277-281.
Balage Filho, P.P.; Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 215-219.
Banarescu, L.; Bonial, C.; Cai, S.; Georgescu, M.; Griffitti, K.; Hermjakob, U.; Knight, K.; Koehn, P.; Palmer, M.; Schneider, N. (2013). Abstract Meaning Representation for Sembanking. In the Proceedings of Linguistic Annotation Workshop, pp. 178-186.
Bengio, Y.; Ducharme, R.; Vincent, P.; Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, Vol. 3, pp. 1137-1155.
Bick, E. (2000). The parsing system “Palavras”. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus Univ. Press.
108
ReferênciasBranco, A. and Silva, J. (2004). Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In the Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), pp. 507-510.
Branco, A. and Costa, F. (2008). A computational grammar for deep linguistic processing of Portuguese: LXGram. Technical Report DI-FCUL-TR-08-17, University of Lisbon.
Brown, P.F.; Della Pietra, V.J.; Souza, P.V.; Lai, J.C.; Mercer, R.L. (1992). Class-based n-gram models of natural language. Computational Linguistics, Vol. 18, N. 4, pp. 467-479.
Cândido Jr. A.; Maziero E.; Gasperin, C.; Pardo, T.A.S.; Specia, L.; Aluisio, S.M. (2009). Supporting the Adaptation of Texts for Poor Literacy Readers: a Text Simplification Editor for Brazilian Portuguese. In the Proceedings of the NAACL HLT Workshop on Innovative Use of NLP for Building Educational Applications, pp. 34-42.
Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In C. Mota and D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, pp. 195-211.
Cardoso, P.C.F.; Maziero, E.G.; Castro Jorge, M.L.R.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. (2011). CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp. 88-105.
Cardoso, P.C.F.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2015). Exploring the Rhetorical Structure Theory for Multi-document Summarization. In the Proceedings of the 5th Workshop RST and Discourse Studies, pp. 1-10.
Cardoso, P.C.F.; Pardo, T.A.S.; Taboada, M. (2017). Subtopic annotation and automatic segmentation for news texts in BrazilianPortuguese. Corpora, Vol. 12, N. 1, pp. 23-54. Edinburgh University Press.
Chishman, R.L.O. and Bertoldi, A. (2012). A Semântica de Frames e os Recursos Lexicais Computacionais: da teoria à aplicação. A Cognição na Linguagem, pp. 140-160.
Collovini, S.; Carbonel, T.I.; Fuchs, J.T.; Coelho, J.C.; Rino, L.H.M.; Vieira, R. (2007). Summ-it: Um corpus anotado com informações discursivas visando a sumarização automática. In Anais do V Workshop em Tecnologia da Informação e da Linguagem Humana, pp. 1605-1614.
de Paiva, V.; Real, L.; Oliveira, H.G.; Rademaker, A.; Freitas, C.; Simões, A. (2016). An overview of Portuguese WordNets. In the Proceedings of the Global Wordnet Conference.
109
Referências
Deerwester, S.C.; Dumais, S.T.; Landauer, T.K.; Furnas, G.W.; Harshman, R.A. (1990). Indexing by latent semantics analysis. Journal of the American Society for Information Science, Vol. 41, N. 6, pp. 391-407.
Dias da Silva, B.C. (2006). O estudo Lingüístico-Computacional da Linguagem. Letras de Hoje, Vol. 41. N. 2, pp. 103-138.
Dias da Silva, B.C. (2003). Human language technology research and the development of the Brazilian Portuguese wordnet. In the Proceedings of the 17th International Congress of Linguists, pp. 1-12
Duran, M.S. and Aluísio, S.M. (2012). Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In the Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), pp. 1862-1867.
Fonseca, E.R. and Rosa, J.L.G. (2013). Mac-Morpho Revisited: Towards Robust Part-of-Speech Tagging. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 98-107.
Fonseca, E.; Sesti, V.; Antonitsch, A.; Vanin, A.; Vieira, R. (2017). CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências. LinguaMÁTICA, Vol. 9, N. 1, pp. 3-18.
Hartmann, N.S.; Duran, M.S.; Aluísio, S.M. (2016). Automatic Semantic Role Labeling on Non-revised Syntactic Trees of Journalistic Texts. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 202-212.
Jackson, P. and Moulinier, I. (2002). Natural Language Processing for Online Applications: Text retrieval, extraction and categorization. John Benjamins Publishing Company.
Jurafsky, D. and Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall.
Martins, R.T.; Hasegawa, R.; Nunes, M.G.V. (2003). Curupira: a functional parser for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 179-183.
110
ReferênciasMaziero, E.G.; Pardo, T.A.S.; Di Felippo, A.; Dias-da-Silva, B.C. (2008). A Base de Dados Lexical e a Interface Web do TeP 2.0 -Thesaurus Eletrônico para o Português do Brasil. In Anais do VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL), pp. 390-392.
Maziero, E.G.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2014). Revisiting Cross-document Structure Theory for multi-document discourseparsing. Information Processing & Management, Vol. 50, N. 2, pp. 297-314.
Maziero, E.G.; Hirst, G.; Pardo, T.A.S. (2015). Semi-Supervised Never-Ending Learning in Rhetorical Relation Identification. In the Proceedings of the Recent Advances in Natural Language Processing - RANLP, pp. 436-442.
Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In the Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), pp. 3111-3119.
Moro, A.; Raganato, A.; Navigli, R. (2014). Entity Linking meets Word Sense Disambiguation: a Unified Approach. Transactions of the Association for Computational Linguistics, Vol. 2, pp. 231-244.
Muniz, M.C.M. (2004). A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto de Unitex-PB. Dissertação de Mestrado. Instituto de Ciências Matemáticas de São Carlos, Universidade de São Paulo.
Nivre, J.; Marneffe, M.C.; Ginter, F.; Goldberg, Y.; Hajič, J.; Manning, C.D.; McDonald, R.; Petrov, S.; Pyysalo, S.; Silveira, N.; Tsarfaty, R.; Zeman, D. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In the Proceedings of the Tenth International Conference on Language Resources and Evaluation, pp. 1659-1666.
Oliveira, H.G. and Gomes, P (2014). ECO and Onto.PT: A flexible approach for creating a Portuguese wordnet automatically. Language Resources and Evaluation, Vol. 48, N. 2, pp. 373-393.
Pennington, J.; Socher, R.; Manning, C.D. (2014). Glove: Global vectors for word representation. In the Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543.
Rodrigues, J.; Branco, A.; Neale, S.; Silva. J. (2016). LX-DSemVectors: Distributional Semantics Models for Portuguese. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 259-270.
111
Referências
Salomão, M.M.M.; Torrent, T.T.; Sampaio, T.F. (2013). A Linguística de Corpus Encontra a Linguística Computacional: Notícias do
Projeto FrameNet Brasil. Cadernos de Estudos Linguísticos, Vol. 55, N. 1, pp. 7-34.
Salton, G. (1971). The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice Hall.
Sarmento, L.; Pinto, A.S.; Cabral, L. (2006). REPENTINO - A Wide-Scope Gazetteer for Entity Recognition in Portuguese. In the
Proceedings of the International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 31-40.
Scarton, C.E. and Aluísio, S.M. (2010). Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural:
adaptando as métricas do Coh-Metrix para o Português. LinguaMÁTICA, Vol. 2, N.1, pp. 45-61.
Scarton, C. and Aluísio, S. (2012). Towards a cross-linguistic VerbNet-style lexicon to Brazilian Portuguese. In the Proceedings of the
LREC Workshop on Creating Cross-language Resources for Disconnected Languages and Styles, pp. 11-18.
Silva, J.; Branco, A.; Castro, S.; Reis, R. (2010). Out-of-the-Box Robust Parsing of Portuguese. In the Proceedings of the 9th
International Conference on the Computational Processing of Portuguese (PROPOR), pp. 75–85.
Vargas, F.A. and Pardo, T.A.S. (2017). Clustering and hierarchical organization of opinion aspects: a corpus study. In Anais do XIV
Encontro de Linguística de Corpus (ELC). Em publicação.
Wing, B. and Baldridge, J. (2006). Adaption of Data and Models for Probabilistic Parsing of Portuguese. In the Proceedings of the 7th
Workshop on Computational Processing of Written and Spoken Portuguese (PROPOR), pp. 140-149.
112