Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...

Post on 05-Oct-2020

0 views 0 download

Transcript of Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...

Enriquecimento Semântico

Workshop: Representações SemanticamenteEnriquecidas

Roberta Akemi Sinoara

roberta.sinoara@ifsp.edu.br

20 de janeiro de 2020

Importância da semântica

Abordagens para enriquecimento semântico de

representações

Alguns resultados

Trabalhos futuros

2

Agenda

Faces do Processamento de Textos

3(Grobelnik, 2011)

Fonte: http://videolectures.net/wims2011_grobelnik_processing/

- A interação entre

as diferentes áreas

é essencial para a

resolução do

problema

Semântica

É um tema é bastante abrangente e não há consenso

entre os pesquisadores da Linguística sobre os limites da

Semântica (Riemer, 2010; Fossile, 2009; Araújo, 2007).

Nosso interesse está na representação e no uso do

significado (ou sentido) de itens linguísticos (palavras,

expressões ou documentos completos) para melhorar os

resultados da Mineração de Textos4

Significado de Textos

Para se entender o significado de textos é necessário conhecer:

o Vocabulário

o Gramática do idioma

o Relações semânticas entre os itens linguísticos

o Conhecimento de mundo e do contexto no qual os textos foram escritos

Fenômenos linguísticos podem alterar o significado composicional

do que é dito (Riemer, 2010)

o Ambiguidade

o Sarcasmo

o Ironia5

Mineração de Textos

O tratamento adequado da semântica dos textos pode levar

a resultados mais apropriados em determinadas aplicações

Por exemplo: permite a diferenciação de documentos que,

apesar de utilizarem o mesmo vocabulário, apresentam

ideias diferentes sobre o mesmo assunto

6

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

7

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

A bag-of-words já é suficiente?

8

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

A bag-of-words já é suficiente? DEPENDE do problema!

9

Semântica na Organização de DocumentosExemplo 1

10

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

11

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

12

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

13

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi

por três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

o Cada esporte possui seus termos específicos

o Documentos de um mesmo esporte usam palavras similares

o A classe pode ser determinada em grande parte pelo vocabulário utilizado

14

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

15

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

16

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

o É necessário saber- Guga e Massa são atletas brasileiros

- “ser campeão” representa vitória

- “abandonar a prova” representa derrota

Semântica na Organização de DocumentosExemplo 2

17

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

18

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por produto

19

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto

quente no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por produto

o Termos específicos para cada tipo de produto

o Vocabulário tem grande contribuição na diferenciação das classes

20

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por polaridade da opinião

21

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto

quente no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por polaridade da opinião

o Limitação das palavras de sentimentos (dependência de domínio)

o Presença de sentiment shifters (palavras de negação, por exemplo)

o Sarcasmo

o Opiniões implícitas

o...

Níveis de complexidade semântica de problemas de classificação

1º. nível: Organização por tópico

o Problemas que dependem basicamente do vocabulário

o Cada classe possui termos bastante característicos

o Documentos podem ser diferenciados em grande parte pelas palavras utilizadas

2º. nível: Organização semântica

o Problemas que necessitam mais do que apenas o vocabulário para serem resolvidos

o Classes distintas podem usar o mesmo vocabulário

o Requerem uma análise mais profunda 22

Semântica na Organização de DocumentosExemplo

23

bag-of-words

7 algoritmos de

classificação; 105

configurações

10-fold cross-

validationA

curá

cia

desemp. atletaesporte produto polaridade(Sinoara, 2018)

Enriquecimento Semântico de Representação de TextosAbordagens

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

24

Enriquecimento Semântico de Representação de TextosAbordagens

Conceitos identificados em fontes externas (Spanakis et al.,

2012; Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

25

Mineração de Textos e Semântica

26

Fontes de conhecimento

identificadas em um

mapeamento sistemático da

literatura sobre a Semântica

na Mineração de Textos

(Sinoara et al., 2017)

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

27

Algumas Tarefas deProcessamento de Língua Natural

Correção gramatical

Anotação de etiquetas morfossintáticas

Análise sintática

o funcional

o de constituinte

Reconhecimento de entidades nomeadas

28

Anotação de papéis

semânticos

Desambiguação lexical de

sentidos

Similaridade semântica

Resolução de

correferências

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012;

Liu et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

29

Métodos de modelagem de tópicos

Encontram os tópicos que compõem os documentos

o Espaço semântico

Tópicos:

o Atributos em um espaço de menor dimensionalidade

− Redução de dimensionalidade

o Clusters

− Agrupamento

30

Uso de métodos de modelagem de tópicos

Latent Dirichlet Allocation (LDA) na organização de documentos (Sinoara et al., 2017b)

o Coleção de notícias sobre esportes em português

o Análise qualitativa dos grupos com apoio de um especialista

o Avaliação do LDA como método de agrupamento

− LDA vs K-means

o Avaliação do LDA como método de redução de dimensionalidade / extração de termos

− LDA vs bag-of-words31

LDAAnálise do especialista

No geral, os tópicos encontrados foram bons

No entanto...

o Documentos de esportes diferentes foram colocados no mesmo

grupo

o Documentos de um mesmo esporte foram colocados em grupos

diferentes

32

LDAAnálise do especialista

Exemplo: notícias de Formula 1

91 documentos 8 grupos

33

LDAAnálise do especialista

Notícias de Formula 1 (91 documentos em 8 grupos)

o 3 grupos com apenas documentos de Formula 1

34

LDAAnálise do especialista

35

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1 e da extinta Fórmula 3000

Notícias de Formula 1 (91 documentos em 8 grupos)

o 2 grupos com documentos de Formula 1 e MotoGP

LDAAnálise do especialista

36

LDAAnálise do especialista

37

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1, de outros esportes a motor e

de Futebol

LDAAnálise do especialista

38

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1, Futebol, Boxe, Esgrima e

Hipismo

LDAAvaliação experimental (Fscore)

LDA vs bag-of-words

39

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

full topic semantic topic-semantic

LDA K-means

BOW K-means (cosine)

LDA vs K-means (bag-of-words)

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

full topic semantic topic-semantic

LDA

BOW K-means (cosine)

LDA emCenários semanticamente mais complexos

Agrupamento por esporte vs Agrupamento por desempenho de atleta

brasileiro

40

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

topic semantic

LDA K-means

BOW K-means (cosine)

BOW K-means (random)

LDA emCenários semanticamente mais complexos

Agrupamento por esporte vs Agrupamento por desempenho de atleta

brasileiro

41

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

topic semantic

LDA K-means

BOW K-means (cosine)

BOW K-means (random)

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et

al., 2019)

42

Semântica Distribucional

Área de pesquisa que estuda e desenvolve teorias e métodos para o

cálculo de similaridade semântica entre itens linguísticos

Modelos de semântica distribucional baseiam-se na hipótese

distribucional (Turney e Pantel, 2010)

43

Distributional hypothesis:

palavras que ocorrem em

contextos similares tendem

a ter significados similares

o Palavras podem ser representadas

por vetores cujas dimensões são

contextos

o Palavras cujos vetores são

similares tendem a ter sentidos

similares

Modelos de Semântica DistribucionalDistributional Semantic Models

Modelos de contagem

o Baseados na contagem de contextos

Modelos preditivos / neural language models / embeddings

o Gerados por redes neurais artificiais

44

Modelos de Semântica Distribucional

Modelos preditivos / neural language

models / embeddings

o Inicialmente desenvolvidos para

modelagem de língua

− Predizer uma palavra dado um contexto

o Apresentam melhores resultados em

diferentes tarefas de semântica lexical (Baroni et al., 2014)

45Modelo CBOW

Fonte: (Rong, 2016)

Embeddings

Word2Vec (Mikolov et al., 2013)

Glove (Pennington et al., 2014)

fastText (Bojanowski et al., 2017)

node2Vec (Grover e Leskovec, 2016)

o Representação de nós de redes

NASARI (Camacho-Collados et al., 2016)

o Representação de conceitos e entidades (synsets)46

Embeddings

Representação de Palavras x Synsets

Exemplo: Representação vetorial de “São Paulo”

O que está sendo representado?

47

Uso de representação de documentos baseada em Embeddings

Avaliação na classificação de documentos e no cálculo de

similaridade semântica (Sinoara et al., 2019)

o Bag-of-words

o LDA

o Word2Vec

o Babel2Vec (desambiguação + Word2Vec)

o NASARI+Babel2Vec (desambiguação + NASARI + Word2Vec)

48

Uso de representação de documentos baseada em Embeddings

Alguns resultados -

classificação (Macro-

F1)

49Fonte: (Sinoara et al., 2019)

1- NASARI+Babel2Vec

2- Babel2Vec

3- Bag-of-words

4- LDA

5- Word2Vec

Uso de representação de documentos baseada em Embeddings

Alguns resultados – similaridade

semântica

o Correlação entre julgamentos de humanos

e similaridade entre vetores

50(Sinoara et al., 2019)

Representações PropostasAspectos Semânticos Abordados

Conhecimento do domínio

o gBoED (Scheicher et al., 2016)

Sentidos (termos desambiguados) e hiperônimos

o Uni-based (Sinoara, 2018)

Papéis semânticos

o SR-based Terms e SR-based Sentences (Sinoara et al., 2016)

Sentidos (termos desambiguados) e representações distribuídas de itens

linguísticos

o NASARI2DocVec, Babel2Vec e NASARI+Babel2Vec (Sinoara et al., 2019)51

Representações PropostasAspectos Semânticos Abordados

Representações baseadas em conhecimento do domínio,

hiperônimos ou papéis semânticos

o Apresentaram desempenho de classificação mais baixo

o Apresentam atributos mais expressivos

52

Representações PropostasAspectos Semânticos Abordados

Representações baseadas em embeddings

o Apresentaram performance de classificação superiores a bag-of-

words, LDA e Doc2Vec

o Apresentam atributos pouco expressivos, porém podem ser

interpretadas por meio dos vetores vizinhos

53

Próximos passos...

Projeto “Representações Semanticamente Enriquecidas para Mineração de Textos em Português: Modelos e Aplicações”

Exploração de diferentes aspectos semânticos, de acordo com os problemas a serem tratados

Aplicações em diferentes tarefas de Mineração de Textos

Foco na interpretabilidade e explicabilidade dos resultados, além do desempenho dos modelos

Exploração do conhecimento do domínio54

Referências

56

ARAÚJO, I. L. Por uma concepção semântico-pragmática da linguagem. Revista Virtual deEstudos da Linguagem, v. 5, n. 8, p. 1–26, 2007.

BARONI, M.; DINU, G.; KRUSZEWSKI, G. Don’t count, predict! a systematic comparison ofcontext-counting vs. context-predicting semantic vectors. In: ACL 2014: Proceedings of the52nd Annual Meeting of the Association for Computational Linguistics. 2014. p. 238–247.

BOJANOWSKI, P.; GRAVE, E.; JOULIN, A.; MIKOLOV, T. Enriching word vectors withsubword information, Transactions of the Association for Computational Linguistics 5 (2017)135-146.

CAMACHO-COLLADOS, J.; PILEHVAR, M. T.; NAVIGLI, R. Nasari: Integrating explicitknowledge and corpus statistics for a multilingual representation of concepts and entities.Artificial Intelligence, v. 240, p. 36–64, 2016.

FOSSILE, D. K. Semântica & pragmática: Campos independentes. VOOS RevistaPolidisciplinar Eletrôntica da Faculdade Guairacá, v. 2, p. 40–58, 2009.

GABRILOVICH, E.; MARKOVITCH, S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. In: IJCAI-07: Proceedings of the 20th International JointConference on Artifical Intelligence. 2007. p. 1606–1611.

GROBELNIK, M. Many faces of text processing. In: WIMS’11: Proceedings of theInternational Conference on Web Intelligence, Mining and Semantics. 2011. p. 5.

57

GROVER, A.; LESKOVEC, J. node2vec: Scalable Feature Learning for Networks. ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.

LE, Q.; MIKOLOV, T. Distributed representations of sentences and documents. In: ICML-14:Proceedings of the 31st International Conference on Machine Learning. 2014. p. 1188–1196.

LIU, Z.; LI, M.; LIU, Y.; PONRAJ, M. Performance evaluation of latent dirichlet allocation intext mining. In: FSKD 2011: Proceedings of the Eighth International Conference on FuzzySystems and Knowledge Discovery. 2011. v. 4, p. 2695–2698.

LU, Y.; MEI, Q.; ZHAI, C. Investigating task performance of probabilistic topic models: Anempirical study of PLSA and LDA. Information Retrieval, v. 14, n. 2, p. 178–203, 2011.

MIKOLOV, T.; CHEN, K.; CORRADO, G.; DEAN, J. (2013). Efficient estimation of wordrepresentations in vector space. In Proceedings of International Conference on LearningRepresentations Workshop (ICLR-2013).

PENNINGTON, J.; SOCHER, R.; MANNING, C. D. (2014). Glove: Global vectors for wordrepresentation. Proceedings of the 2014 Conference on Empiricial Methods in NaturalLanguage Processing (EMNLP-2014), 12:1532–1543.

PERSSON, J.; JOHANSSON, R.; NUGUES, P. Text categorization using predicate-argument structures. In: NODALIDA 2009: Proceedings of the 17th Nordic Conference ofComputational Linguistics. 2009. p. 142–149.

58

RIEMER, N. Introducing Semantics. Cambridge University Press, 2010. (CambridgeIntroductions to Language and Linguistics).

RONG, X. word2vec parameter learning explained. arXiv preprint arXiv:1411.2738v4,2016.

SCHEICHER, R. B.; SINOARA, R. A.; KOGA, N. J.; REZENDE, S. O. Uso de expressõesdo domínio na classificação automática de documentos. In: ENIAC 2016: Anais do XIIIEncontro Nacional de Inteligência Artificial e Computacional. 2016. p. 625–636.

SHEHATA, S.; KARRAY, F.; KAMEL, M. S. An efficient model for enhancing textcategorization using sentence semantics. Computational Intelligence, Wiley Online Library,v. 26, n. 3, p. 215–231, 2010.

SINOARA, R. A.; CAMACHO-COLLADOS, J.; ROSSI, R. G.; NAVIGLI, R.; REZENDE, S.O. Knowledge-enhanced document embeddings for text classification. Knowledge-basedSystems, 163:955–971, 2019.

SINOARA, Roberta Akemi. Aspectos semânticos na representação de textos paraclassificação automática. São Carlos : Instituto de Ciências Matemáticas e deComputação, Universidade de São Paulo, 2018. Tese de Doutorado em Ciências deComputação e Matemática Computacional.

SINOARA, R. A.; ANTUNES, J.; REZENDE, S. O. Text mining and semantics: a systematicmapping study. Journal of the Brazilian Computer Society, v. 23, n. 9, p. 1–20, 2017.

59

SINOARA, R. A.; SCHEICHER, R. B.; REZENDE, S. O. Evaluation of latent dirichletallocation for document organization in different levels of semantic complexity. In: CIDM’17:Proceedings of the 2017 IEEE Symposium on Computational Intelligence and Data Mining.2017. p. 2057–2064.

SINOARA, R. A.; ROSSI, R. G.; REZENDE, S. O. Semantic role-based representations intext classification. In: ICPR 2016: Proceedings of the 23rd International Conference onPattern Recognition. 2016. p. 2314–2319.

SPANAKIS, G.; SIOLAS, G.; STAFYLOPATIS, A. Exploiting wikipedia knowledge forconceptual hierarchical clustering of documents. Computer Journal, v. 55, n. 3, p. 299–312,2012.

TURNEY, P. D.; PANTEL, P. From frequency to meaning: Vector space models ofsemantics. Journal of Artificial Intelligence Research, AI Access Foundation, USA, v. 37, n.1, p. 141–188, 2010.

ZRIGUI, M.; AYADI, R.; MARS, M.; MARAOUI, M. Arabic text classification frameworkbased on latent dirichlet allocation. Journal of Computing and Information Technology, v. 20,n. 2, p. 125–140, 2012.