Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...

59
Enriquecimento Semântico Workshop: Representações Semanticamente Enriquecidas Roberta Akemi Sinoara [email protected] 20 de janeiro de 2020

Transcript of Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...

Page 1: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Enriquecimento Semântico

Workshop: Representações SemanticamenteEnriquecidas

Roberta Akemi Sinoara

[email protected]

20 de janeiro de 2020

Page 2: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Importância da semântica

Abordagens para enriquecimento semântico de

representações

Alguns resultados

Trabalhos futuros

2

Agenda

Page 3: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Faces do Processamento de Textos

3(Grobelnik, 2011)

Fonte: http://videolectures.net/wims2011_grobelnik_processing/

- A interação entre

as diferentes áreas

é essencial para a

resolução do

problema

Page 4: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Semântica

É um tema é bastante abrangente e não há consenso

entre os pesquisadores da Linguística sobre os limites da

Semântica (Riemer, 2010; Fossile, 2009; Araújo, 2007).

Nosso interesse está na representação e no uso do

significado (ou sentido) de itens linguísticos (palavras,

expressões ou documentos completos) para melhorar os

resultados da Mineração de Textos4

Page 5: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Significado de Textos

Para se entender o significado de textos é necessário conhecer:

o Vocabulário

o Gramática do idioma

o Relações semânticas entre os itens linguísticos

o Conhecimento de mundo e do contexto no qual os textos foram escritos

Fenômenos linguísticos podem alterar o significado composicional

do que é dito (Riemer, 2010)

o Ambiguidade

o Sarcasmo

o Ironia5

Page 6: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Mineração de Textos

O tratamento adequado da semântica dos textos pode levar

a resultados mais apropriados em determinadas aplicações

Por exemplo: permite a diferenciação de documentos que,

apesar de utilizarem o mesmo vocabulário, apresentam

ideias diferentes sobre o mesmo assunto

6

Page 7: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

7

Page 8: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

A bag-of-words já é suficiente?

8

Page 9: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Mineração de Textos

É necessário ter um modelo de representação de textos

que possibilite a representação adequada do problema

o Modelo espaço-vetorial

o Redes

A bag-of-words já é suficiente? DEPENDE do problema!

9

Page 10: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Semântica na Organização de DocumentosExemplo 1

10

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Page 11: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

11

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

Page 12: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

12

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

Page 13: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

13

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi

por três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por esporte

o Cada esporte possui seus termos específicos

o Documentos de um mesmo esporte usam palavras similares

o A classe pode ser determinada em grande parte pelo vocabulário utilizado

Page 14: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

14

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

Page 15: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

15

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

Page 16: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

16

D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por

três sets a zero no jogo final.

D2: Hamilton larga na pole position e vence o Grande Prêmio do

Canadá. Após colisão, Massa abandona a prova.

Coleção de notícias de vários esportes

Objetivo: Classificar por desempenho de atleta brasileiro

o É necessário saber- Guga e Massa são atletas brasileiros

- “ser campeão” representa vitória

- “abandonar a prova” representa derrota

Page 17: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Semântica na Organização de DocumentosExemplo 2

17

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Page 18: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

18

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por produto

Page 19: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

19

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto

quente no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por produto

o Termos específicos para cada tipo de produto

o Vocabulário tem grande contribuição na diferenciação das classes

Page 20: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

20

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente

no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por polaridade da opinião

Page 21: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

21

D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto

quente no inverno, cama confortável...

D2: Fila grande, prato pequeno, cerveja quente e atendimento

demorado. Foi uma experiência péssima!

Coleção de textos de opinião de vários produtos e serviços

Objetivo: Classificar por polaridade da opinião

o Limitação das palavras de sentimentos (dependência de domínio)

o Presença de sentiment shifters (palavras de negação, por exemplo)

o Sarcasmo

o Opiniões implícitas

o...

Page 22: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Níveis de complexidade semântica de problemas de classificação

1º. nível: Organização por tópico

o Problemas que dependem basicamente do vocabulário

o Cada classe possui termos bastante característicos

o Documentos podem ser diferenciados em grande parte pelas palavras utilizadas

2º. nível: Organização semântica

o Problemas que necessitam mais do que apenas o vocabulário para serem resolvidos

o Classes distintas podem usar o mesmo vocabulário

o Requerem uma análise mais profunda 22

Page 23: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Semântica na Organização de DocumentosExemplo

23

bag-of-words

7 algoritmos de

classificação; 105

configurações

10-fold cross-

validationA

curá

cia

desemp. atletaesporte produto polaridade(Sinoara, 2018)

Page 24: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Enriquecimento Semântico de Representação de TextosAbordagens

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

24

Page 25: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Enriquecimento Semântico de Representação de TextosAbordagens

Conceitos identificados em fontes externas (Spanakis et al.,

2012; Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

25

Page 26: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Mineração de Textos e Semântica

26

Fontes de conhecimento

identificadas em um

mapeamento sistemático da

literatura sobre a Semântica

na Mineração de Textos

(Sinoara et al., 2017)

Page 27: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

27

Page 28: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Algumas Tarefas deProcessamento de Língua Natural

Correção gramatical

Anotação de etiquetas morfossintáticas

Análise sintática

o funcional

o de constituinte

Reconhecimento de entidades nomeadas

28

Anotação de papéis

semânticos

Desambiguação lexical de

sentidos

Similaridade semântica

Resolução de

correferências

Page 29: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012;

Liu et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,

2019)

29

Page 30: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Métodos de modelagem de tópicos

Encontram os tópicos que compõem os documentos

o Espaço semântico

Tópicos:

o Atributos em um espaço de menor dimensionalidade

− Redução de dimensionalidade

o Clusters

− Agrupamento

30

Page 31: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Uso de métodos de modelagem de tópicos

Latent Dirichlet Allocation (LDA) na organização de documentos (Sinoara et al., 2017b)

o Coleção de notícias sobre esportes em português

o Análise qualitativa dos grupos com apoio de um especialista

o Avaliação do LDA como método de agrupamento

− LDA vs K-means

o Avaliação do LDA como método de redução de dimensionalidade / extração de termos

− LDA vs bag-of-words31

Page 32: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

No geral, os tópicos encontrados foram bons

No entanto...

o Documentos de esportes diferentes foram colocados no mesmo

grupo

o Documentos de um mesmo esporte foram colocados em grupos

diferentes

32

Page 33: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

Exemplo: notícias de Formula 1

91 documentos 8 grupos

33

Page 34: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

Notícias de Formula 1 (91 documentos em 8 grupos)

o 3 grupos com apenas documentos de Formula 1

34

Page 35: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

35

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1 e da extinta Fórmula 3000

Page 36: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Notícias de Formula 1 (91 documentos em 8 grupos)

o 2 grupos com documentos de Formula 1 e MotoGP

LDAAnálise do especialista

36

Page 37: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

37

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1, de outros esportes a motor e

de Futebol

Page 38: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAnálise do especialista

38

Notícias de Formula 1 (91 documentos em 8 grupos)

o 1 grupo com documentos de Formula 1, Futebol, Boxe, Esgrima e

Hipismo

Page 39: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDAAvaliação experimental (Fscore)

LDA vs bag-of-words

39

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

full topic semantic topic-semantic

LDA K-means

BOW K-means (cosine)

LDA vs K-means (bag-of-words)

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

full topic semantic topic-semantic

LDA

BOW K-means (cosine)

Page 40: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDA emCenários semanticamente mais complexos

Agrupamento por esporte vs Agrupamento por desempenho de atleta

brasileiro

40

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

topic semantic

LDA K-means

BOW K-means (cosine)

BOW K-means (random)

Page 41: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

LDA emCenários semanticamente mais complexos

Agrupamento por esporte vs Agrupamento por desempenho de atleta

brasileiro

41

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

topic semantic

LDA K-means

BOW K-means (cosine)

BOW K-means (random)

Page 42: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representação de TextosAbordagens semânticas

Conceitos identificados em fontes externas (Spanakis et al., 2012;

Gabrilovich e Markovitch, 2007)

Técnicas de Processamento de Língua Natural (Shehata et al.,

2010; Persson et al., 2009)

Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu

et al., 2011)

Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et

al., 2019)

42

Page 43: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Semântica Distribucional

Área de pesquisa que estuda e desenvolve teorias e métodos para o

cálculo de similaridade semântica entre itens linguísticos

Modelos de semântica distribucional baseiam-se na hipótese

distribucional (Turney e Pantel, 2010)

43

Distributional hypothesis:

palavras que ocorrem em

contextos similares tendem

a ter significados similares

o Palavras podem ser representadas

por vetores cujas dimensões são

contextos

o Palavras cujos vetores são

similares tendem a ter sentidos

similares

Page 44: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Modelos de Semântica DistribucionalDistributional Semantic Models

Modelos de contagem

o Baseados na contagem de contextos

Modelos preditivos / neural language models / embeddings

o Gerados por redes neurais artificiais

44

Page 45: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Modelos de Semântica Distribucional

Modelos preditivos / neural language

models / embeddings

o Inicialmente desenvolvidos para

modelagem de língua

− Predizer uma palavra dado um contexto

o Apresentam melhores resultados em

diferentes tarefas de semântica lexical (Baroni et al., 2014)

45Modelo CBOW

Fonte: (Rong, 2016)

Page 46: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Embeddings

Word2Vec (Mikolov et al., 2013)

Glove (Pennington et al., 2014)

fastText (Bojanowski et al., 2017)

node2Vec (Grover e Leskovec, 2016)

o Representação de nós de redes

NASARI (Camacho-Collados et al., 2016)

o Representação de conceitos e entidades (synsets)46

Page 47: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Embeddings

Representação de Palavras x Synsets

Exemplo: Representação vetorial de “São Paulo”

O que está sendo representado?

47

Page 48: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Uso de representação de documentos baseada em Embeddings

Avaliação na classificação de documentos e no cálculo de

similaridade semântica (Sinoara et al., 2019)

o Bag-of-words

o LDA

o Word2Vec

o Babel2Vec (desambiguação + Word2Vec)

o NASARI+Babel2Vec (desambiguação + NASARI + Word2Vec)

48

Page 49: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Uso de representação de documentos baseada em Embeddings

Alguns resultados -

classificação (Macro-

F1)

49Fonte: (Sinoara et al., 2019)

1- NASARI+Babel2Vec

2- Babel2Vec

3- Bag-of-words

4- LDA

5- Word2Vec

Page 50: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Uso de representação de documentos baseada em Embeddings

Alguns resultados – similaridade

semântica

o Correlação entre julgamentos de humanos

e similaridade entre vetores

50(Sinoara et al., 2019)

Page 51: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representações PropostasAspectos Semânticos Abordados

Conhecimento do domínio

o gBoED (Scheicher et al., 2016)

Sentidos (termos desambiguados) e hiperônimos

o Uni-based (Sinoara, 2018)

Papéis semânticos

o SR-based Terms e SR-based Sentences (Sinoara et al., 2016)

Sentidos (termos desambiguados) e representações distribuídas de itens

linguísticos

o NASARI2DocVec, Babel2Vec e NASARI+Babel2Vec (Sinoara et al., 2019)51

Page 52: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representações PropostasAspectos Semânticos Abordados

Representações baseadas em conhecimento do domínio,

hiperônimos ou papéis semânticos

o Apresentaram desempenho de classificação mais baixo

o Apresentam atributos mais expressivos

52

Page 53: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Representações PropostasAspectos Semânticos Abordados

Representações baseadas em embeddings

o Apresentaram performance de classificação superiores a bag-of-

words, LDA e Doc2Vec

o Apresentam atributos pouco expressivos, porém podem ser

interpretadas por meio dos vetores vizinhos

53

Page 54: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Próximos passos...

Projeto “Representações Semanticamente Enriquecidas para Mineração de Textos em Português: Modelos e Aplicações”

Exploração de diferentes aspectos semânticos, de acordo com os problemas a serem tratados

Aplicações em diferentes tarefas de Mineração de Textos

Foco na interpretabilidade e explicabilidade dos resultados, além do desempenho dos modelos

Exploração do conhecimento do domínio54

Page 55: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

Referências

Page 56: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

56

ARAÚJO, I. L. Por uma concepção semântico-pragmática da linguagem. Revista Virtual deEstudos da Linguagem, v. 5, n. 8, p. 1–26, 2007.

BARONI, M.; DINU, G.; KRUSZEWSKI, G. Don’t count, predict! a systematic comparison ofcontext-counting vs. context-predicting semantic vectors. In: ACL 2014: Proceedings of the52nd Annual Meeting of the Association for Computational Linguistics. 2014. p. 238–247.

BOJANOWSKI, P.; GRAVE, E.; JOULIN, A.; MIKOLOV, T. Enriching word vectors withsubword information, Transactions of the Association for Computational Linguistics 5 (2017)135-146.

CAMACHO-COLLADOS, J.; PILEHVAR, M. T.; NAVIGLI, R. Nasari: Integrating explicitknowledge and corpus statistics for a multilingual representation of concepts and entities.Artificial Intelligence, v. 240, p. 36–64, 2016.

FOSSILE, D. K. Semântica & pragmática: Campos independentes. VOOS RevistaPolidisciplinar Eletrôntica da Faculdade Guairacá, v. 2, p. 40–58, 2009.

GABRILOVICH, E.; MARKOVITCH, S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. In: IJCAI-07: Proceedings of the 20th International JointConference on Artifical Intelligence. 2007. p. 1606–1611.

GROBELNIK, M. Many faces of text processing. In: WIMS’11: Proceedings of theInternational Conference on Web Intelligence, Mining and Semantics. 2011. p. 5.

Page 57: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

57

GROVER, A.; LESKOVEC, J. node2vec: Scalable Feature Learning for Networks. ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.

LE, Q.; MIKOLOV, T. Distributed representations of sentences and documents. In: ICML-14:Proceedings of the 31st International Conference on Machine Learning. 2014. p. 1188–1196.

LIU, Z.; LI, M.; LIU, Y.; PONRAJ, M. Performance evaluation of latent dirichlet allocation intext mining. In: FSKD 2011: Proceedings of the Eighth International Conference on FuzzySystems and Knowledge Discovery. 2011. v. 4, p. 2695–2698.

LU, Y.; MEI, Q.; ZHAI, C. Investigating task performance of probabilistic topic models: Anempirical study of PLSA and LDA. Information Retrieval, v. 14, n. 2, p. 178–203, 2011.

MIKOLOV, T.; CHEN, K.; CORRADO, G.; DEAN, J. (2013). Efficient estimation of wordrepresentations in vector space. In Proceedings of International Conference on LearningRepresentations Workshop (ICLR-2013).

PENNINGTON, J.; SOCHER, R.; MANNING, C. D. (2014). Glove: Global vectors for wordrepresentation. Proceedings of the 2014 Conference on Empiricial Methods in NaturalLanguage Processing (EMNLP-2014), 12:1532–1543.

PERSSON, J.; JOHANSSON, R.; NUGUES, P. Text categorization using predicate-argument structures. In: NODALIDA 2009: Proceedings of the 17th Nordic Conference ofComputational Linguistics. 2009. p. 142–149.

Page 58: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

58

RIEMER, N. Introducing Semantics. Cambridge University Press, 2010. (CambridgeIntroductions to Language and Linguistics).

RONG, X. word2vec parameter learning explained. arXiv preprint arXiv:1411.2738v4,2016.

SCHEICHER, R. B.; SINOARA, R. A.; KOGA, N. J.; REZENDE, S. O. Uso de expressõesdo domínio na classificação automática de documentos. In: ENIAC 2016: Anais do XIIIEncontro Nacional de Inteligência Artificial e Computacional. 2016. p. 625–636.

SHEHATA, S.; KARRAY, F.; KAMEL, M. S. An efficient model for enhancing textcategorization using sentence semantics. Computational Intelligence, Wiley Online Library,v. 26, n. 3, p. 215–231, 2010.

SINOARA, R. A.; CAMACHO-COLLADOS, J.; ROSSI, R. G.; NAVIGLI, R.; REZENDE, S.O. Knowledge-enhanced document embeddings for text classification. Knowledge-basedSystems, 163:955–971, 2019.

SINOARA, Roberta Akemi. Aspectos semânticos na representação de textos paraclassificação automática. São Carlos : Instituto de Ciências Matemáticas e deComputação, Universidade de São Paulo, 2018. Tese de Doutorado em Ciências deComputação e Matemática Computacional.

SINOARA, R. A.; ANTUNES, J.; REZENDE, S. O. Text mining and semantics: a systematicmapping study. Journal of the Brazilian Computer Society, v. 23, n. 9, p. 1–20, 2017.

Page 59: Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica É um tema é bastante abrangente e não há consenso entre os pesquisadores da Linguística

59

SINOARA, R. A.; SCHEICHER, R. B.; REZENDE, S. O. Evaluation of latent dirichletallocation for document organization in different levels of semantic complexity. In: CIDM’17:Proceedings of the 2017 IEEE Symposium on Computational Intelligence and Data Mining.2017. p. 2057–2064.

SINOARA, R. A.; ROSSI, R. G.; REZENDE, S. O. Semantic role-based representations intext classification. In: ICPR 2016: Proceedings of the 23rd International Conference onPattern Recognition. 2016. p. 2314–2319.

SPANAKIS, G.; SIOLAS, G.; STAFYLOPATIS, A. Exploiting wikipedia knowledge forconceptual hierarchical clustering of documents. Computer Journal, v. 55, n. 3, p. 299–312,2012.

TURNEY, P. D.; PANTEL, P. From frequency to meaning: Vector space models ofsemantics. Journal of Artificial Intelligence Research, AI Access Foundation, USA, v. 37, n.1, p. 141–188, 2010.

ZRIGUI, M.; AYADI, R.; MARS, M.; MARAOUI, M. Arabic text classification frameworkbased on latent dirichlet allocation. Journal of Computing and Information Technology, v. 20,n. 2, p. 125–140, 2012.