Matéria: Desenho e desenvolvimento de tecnologias...

Post on 30-Mar-2021

5 views 0 download

Transcript of Matéria: Desenho e desenvolvimento de tecnologias...

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Dificuldades da análise automática: Prácticas avançadas

Pablo Gamallo Otero

Departamento de Língua EspanholaUniversidade de Santiago de Compostela

Matéria: Desenho e desenvolvimento de tecnologiaslinguísticas

Mestrado em Linguística e as suas aplicações

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Significado distribucional

Hipótese distribucional (Zellig Harris and J.R. Firth)As palavras com contextos similares têm significadossimilares

Há uma correlação entre similaridade distribucional(mesmos contextos) com similaridade semântica ou designificados.

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Como inferimos o significado lexical?

I found a cute, hairy wampimuksleeping behind the tree

(Examplo de McDonald & Ramscar 2001)

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Modelos vectoriais do significadoO significado das palavras pode representar-se mediante matrizes de co-ocorrênciasextraídas de grandes corpus textuais, onde cada linha é um vector representando umapalavra, e as dimensões é a informação contextual (co-ocorrências com outraspalavras, dependências sintácticas...)

< N_subj_run > < N_subj_eat > < red_mod_N >car 3 0 10

horse 7 15 0moto 6 0 7cat 12 9 0

Cuadro: Vectores de “car”, “horse”, “motorbike”, e “cat”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Tipos de modelos distribucionaisSingular Value Decomposition: Latent Semantics Analysis (Landauer, 1998)

Redes neuronais:

Representações estáticas: word embeddings, word2vec (Mikolov, 2013),embeddings de dependências, wordf2vec (Levy and Goldberg 2014)

Representações contextualizadas: Transformers (Devlin et al. 2019):

BERT, ELMO, GPT-3...

Modelos sintácticos contextualizadas: composicionais em constituintes (Baroni,

2013), composicionais em dependências (Gamallo 2019)

Gamallo Pablo and Stefan Bordag (2011) “Is Singular Value Decomposition Useful for Word SimilarityExtraction?” Language Resources and Evaluation, 45(2).

Gamallo, Pablo (2016) “Comparing explicit and predictive distributional semantic models endowed withsyntactic contexts”, Language Resources and Evaluation.

Gamallo, Pablo (2019) “A dependency-based approach to word contextualization using compositionaldistributional semantics”, Journal of Language Modelling.

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Tipos de modelos distribucionaisSingular Value Decomposition: Latent Semantics Analysis (Landauer, 1998)

Redes neuronais:

Representações estáticas: word embeddings, word2vec (Mikolov, 2013),embeddings de dependências, wordf2vec (Levy and Goldberg 2014)

Representações contextualizadas: Transformers (Devlin et al. 2019):

BERT, ELMO, GPT-3...

Modelos sintácticos contextualizadas: composicionais em constituintes (Baroni,

2013), composicionais em dependências (Gamallo 2019)

Gamallo Pablo and Stefan Bordag (2011) “Is Singular Value Decomposition Useful for Word SimilarityExtraction?” Language Resources and Evaluation, 45(2).

Gamallo, Pablo (2016) “Comparing explicit and predictive distributional semantic models endowed withsyntactic contexts”, Language Resources and Evaluation.

Gamallo, Pablo (2019) “A dependency-based approach to word contextualization using compositionaldistributional semantics”, Journal of Language Modelling.

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Advérbios de quantidade

“ese neno é moi lindo”

“ese neno é hoxe lindo”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Advérbios de quantidade

“ese neno é moi lindo”

“ese neno é hoxe lindo”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Advérbios de quantidadeClasses lexicais

Ficheiro de configuração: classes_lexicais.conf

$Variável = lema1, lema2, lema3, ...

$Quant = moi, moito, menos, máis, pouco, bastante, enormemente, lixeiramente

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Advérbios de quantidadeUso das classes lexicais

AdjnL: ADV<lemma:$Quant> ADJ%

AdjnR: VERB ADV%

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Posição não canónica

“aconteceu un accidente terríbel”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Posição não canónica

“aconteceu un accidente terríbel” (SUJEITO)

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Ambiguidade estrutural (1)Desambiguação

No parsing determinístico, escolhe-se sempre umainterpretação entre todas as possíveis.

“aconteceu un accidente terríbel na estrada”

“aconteceu un accidente terríbel de coche”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Ambiguidade estrutural (1)Desambiguação

No parsing determinístico, escolhe-se sempre umainterpretação entre todas as possíveis.

“aconteceu un accidente terríbel na estrada”

“aconteceu un accidente terríbel de coche”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Desambiguação

aconteceu_VERB un_DET accidente_NOUN terríbel_ADJ en_PRP a_DET estrada_NOUN

SubjR

CircR

aconteceu_VERB un_DET accidente_NOUN terríbel_ADJ de_PRP coche_NOUN

SubjRCprepR

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Ambiguidade estrutural (2)Desambiguação

No parsing determinístico, escolhe-se sempre umainterpretação entre todas as possíveis.

“presidente do goberno con coleta”

“a filla da veciña de María”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Ambiguidade estrutural (2)Desambiguação

No parsing determinístico, escolhe-se sempre umainterpretação entre todas as possíveis.

“presidente do goberno con coleta”

“a filla da veciña de María”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Pronomes relativos, verbos subordinados, aposições...

“A cativa que ten un gato xoga no parque”

“Marta pensa que o viciño é un político imputado”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Pronomes relativos, verbos subordinados, aposições...

“A cativa que ten un gato xoga no parque”

“Marta pensa que o viciño é un político imputado”

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Estruturas recursivas

a cativa_NOUN que_PR ten_VERB un gato_NOUN xoga_VERB en_PRP o parque_NOUN

AdjnR

SubjL

SubjL

Marta_NOUN pensa_VERB que o viciño_NOUN é un político_NOUN imputado_ADJ

AdjnR

NexoR

SubjL

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Índice

1 Dependências e semântica distribucional

2 Advérbios

3 Posição sintáctica

4 Ambiguidade estrutural

5 Recursividade

6 Erros gramaticais

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Erros gramaticaisDetecção de erros gramaticais

Confusão subjunctivo/indicativo em subordinadas,confusão ser/estar, ir+a+infinitivo, etc.

“Quero que vienes”“Pepa está bombeira”“Vou a comer”

Regras com dependencias Err1R e Err2R

Tecnologias Linguísticas Tema 4

Dependências e semântica distribucionalAdvérbios

Posição sintácticaAmbiguidade estrutural

RecursividadeErros gramaticais

Erros gramaticaisDetecção de erros gramaticais

Confusão subjunctivo/indicativo em subordinadas,confusão ser/estar, ir+a+infinitivo, etc.

“Quero que venir+mod=S”“Pepa es bombeira”“Vou comer”

Regras com dependencias Err1R e Err2R

Tecnologias Linguísticas Tema 4