Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Post on 20-Jul-2015

53 views 2 download

Transcript of Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Concebendo e construindo um corpus

para a questão do acento no Português Brasileiro

Bruno Ferrari Guide

Orientação: Marcelo Barra Ferreira

Universidade de São Paulo

2015

Objetivos

Apresentar a questão do acento no Português Brasileiro: Perfil do acento no PB

Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))

Alcance das teorias

Abordagem computacional: Criação e Implementação de modelos

Extração de padrões de copora diversos

Construindo um corpus: Fala versus Escrita

Os diferentes registros

Apontamentos

O Acento no PB

Restrito as últimas três sílabas da palavra: Oxítonas: ‘caqui’, ‘sordidez’ Paroxítonas: ‘corda’, ‘beleza’ Proparoxítonas: ‘último’, ‘metódico’

Comportamento previsível: ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’ Flexões verbais;

Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.

Levando em conta o peso silábico: Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.

O Acento no PB - perfil

Corpus ortográfico wikipedia:

Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual.

Total 40924 100%

Oxítonas 10183 25%

Paroxítonas 25967 63%

Proparoxítonas 4774 12%

O acento no PB - perfil

Maioria das palavras se encaixa nesses dois grupos: Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]

Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]

Aproximadamente 70% do total das palavras está representado aqui.

Paroxítonas 25967 100%

Paroxítonas terminadas em V. 20886 80%

Oxítonas 10183 100%

Oxítonas terminadas em C. 7888 77%

O acento no PB – perfil

Dos 30% que sobram:

12% são proparóxitonas

6% são oxítonas terminadas em vogal [consoante subjacente?]

12% são paroxítonas terminadas em consoantes [plural]

O acento no PB - Teorias

Abordagens teóricas (Bisol (1992), Lee (1995))

Bisol (1992):Padrão- Sílaba pesada final atrai o acento. Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à

esquerda (troqueu) partindo da borda direita da palavra.

Lee (1995):

Padrão (Verbos):

Na forma final da palavra, faça constituintes binários.

Elemento proeminente é o mais a esquerda do pé.

(Paroxítonas e proparoxítonas)

Exceções (Verbos):

Na forma final da palavra, o acento vai cair no elemento mais à direita.

(Oxítonas)

O acento no PB - Teorias

Abordagen teórica (Lee (1995)) Não verbos:

Padrão:

Elemento mais a direita do radical da palavra.

(Paroxítonas terminadas em vogal, oxítonas)

Exceções:

No radical da palavra, derivar constituintes binários.

O item proeminente do constituinte é o mais a esquerda do pé. (iambo)

(Paroxítonas terminadas em consoante, proparoxítonas)

Abordagem de Lee exige informações morfológicas, dá um novo sentido mas não elimina a marcação arbitrária.

O acento no PB - Teorias

Abordagen teórica (Hermans & Wetzels (2012))

Os autores apresentam uma investigação sobre o acento baseada na observação do comportamento dos falantes diantes de palavras novas (neologismos).

A partir disso, entendem o funcionamento do acento através das noções de padrão produtivo e padrão improdutivo.

Padrão produtivo obedece ao peso silábico, o improdutivo não.

Abordagem Computacional

Criação de modelos Implementar as teorias a fim de fundamentar uma discussão quantitativa.

(Alcance das teorias)

Extração de padrões de copora diversos Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?

A análise de um grande volume de dados, porém, exige um grande volume de dados

Concebendo e construindo um corpus fonológico Necessidade de automatização

Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.

Fala versus Escrita – algumas diferenças

Correspondência entre sons e escrita:

Epêntese – “Capta” é paroxítona?

Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...

Letra representando mais de um som: ‘r’, ‘s’, ‘x’...

Concebendo e construindo um corpus fonológico Construindo um transcritor: Programação e Chave de transcrição

Python Linguagem de programação simples e poderosa.

Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.

NLTK, Scikit-Learn, Pandas...

Chave de transcrição baseada em Guide (2013): Cada caractere representa um som.

Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais

Codificação ASCII

Concebendo e construindo um corpus fonológico Construindo o Corpus:

Textos Escritos

Artigos Acadêmicos (342.847 palavras)

Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)

Blogs (215.126 palavras)

Textos Falados

ProjetoSP: (230.116 palavras)

60 entrevistas com diferentes perfis sociolinguisticos

Iboruna (corpus recebendo tratamento) :

151 entrevistas com diferentes perfis sociolinguisticos

11 de diário de campo

Total: 2005339 palavras

Apontamentos

Esse corpus servirá para a extração de padrões para alimentar algumas abordagens probabilísticas para a questão do acento: Acentuador baseado em n-gramas.

Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento

Acentuador baseado em um classificador bayesiano ingênuo. Traços para a classificação podem incluir classe morfológica, frequência da palavra,

informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...

Bibliografia

JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.

LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado –UNICAMP

BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.

GUIDE, B, F. (2013). Construção de um silabificador probabilístico para o

português brasileiro. Iniciação científica pela Universidade de São Paulo.

Wetzels, W. L. and Hermans, B. Productive and Unproductive stress patterns in brazilian portuguese. (2012) Revista Letras & Letras. v. 28.

BYBEE, Joan. (2001). Phonology and language use. Cambridge: Cambridge University Press.

BERBER SARDINHA, Tony. "O que é um corpus representativo." Direct Papers44 (2000).

Obrigado pela atenção!