Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto...

32
Criação de um Ambiente para o Processamento de Córpus de Português Histórico Arnaldo Candido Junior Orientadora: Sandra Maria Aluísio CTDIA - Salvador - 25 de Outubro de 2008

Transcript of Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto...

Page 1: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Criação de um Ambiente para o Processamento de Córpusde Português Histórico

Arnaldo Candido Junior

Orientadora:Sandra Maria Aluísio

CTDIA - Salvador - 25 de Outubro de 2008

Page 2: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

2II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Roteiro

Contexto do Trabalho de Mestrado O projeto DHPB

Objetivos Desenvolvimento do trabalho

Córpus e Glossários Ferramentas Ambiente

Conclusão

Page 3: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

3II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Cenário de usos de Córpus

Lingüística (fonética, lexicografia, sintaxe, semântica, etc)

Processamento de Língua Natural Construção de ferramentas e recursos

(engenharia da linguagem) Ensino de idiomas Sociologia e História

Page 4: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

4II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

O projeto DHPB Dicionário Histórico de Português do Brasil

O primeiro do gênero Português brasileiro começou a divergir do

Português europeu (cultura, fauna, flora) Período pré-imprensa do Brasil (1500-1808)

Baseado em um grande córpus de textos históricos

Autores brasileiros ou portugueses que viveram no Brasil por um longo período

Page 5: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

5II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Objetivos do Trabalho

Construção de um ambiente para o processamento de córpus históricos

Aplicado a um projeto maior (DHPB) para a construção de um dicionário de português histórico

Metodologias, recursos e ferramentas

Page 6: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

6II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Carta do padre Manuel da Nóbrega ao padre Simão Rodrigues (1549)

Page 7: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

7II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

Dados do Córpus

2.5 mil textos 7.5 milhões de palavras 369 mil palavras únicas 82 MB (UTF-16LE)

Page 8: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

8NILC - Núcleo Interinstitucional de Lingüística Computacional

Textos por século (%)

XVI XVII XVIII XIX

0

10

20

30

40

50

60

70

6,24

26,39

59,78

7,596,3

18,32

64,34

11,04

7,6

20,18

62,57

9,6511,1

25,08

48,8

15,03

Textos Sentenças Formas simples Fomas simples únicas

Page 9: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

9NILC - Núcleo Interinstitucional de Lingüística Computacional

Desafios encontradas no projeto DHPB

Metadados (uso do padrão TEI)

Ausência de hifenização (tratamento manual)

Símbolos tipográficos incomuns (uso do Unicode)

Junções de palavras como “éamor” (criação de manual de um glossário)

Abreviaturas (glossário com informações do dicionário FLEXOR)

Variações de grafia (detecção automática – dicionários)

Problemas similares aos levantados por Rydberg-Cox (2003)

Page 10: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

10NILC - Núcleo Interinstitucional de Lingüística Computacional

Símbolos tipográficos incomunsAcentos combinados Símbolos em geral

Page 11: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

11NILC - Núcleo Interinstitucional de Lingüística Computacional

Abreviaturas, junções, variantes

Exemplo Abreviatura Junção VarianteX X

X XX X

X X X

Sarg.José (Sargento José)abaſe (a base)Suppte (supostamente)héalagadacommtos

(é alagada com muitos)

Page 12: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

12NILC - Núcleo Interinstitucional de Lingüística Computacional

Abreviaturas

Expansões de Bo: bairro, Bartolomeu, bastardo, beco, bento, Bernardo, etc.

Abreviaturas de janeiro: jan., jan.ro, janro, janr.o, jan.o, etc.

Glossário F: criado manualmente a partir de Flexor (1991)

Glossário C: extraído do córpus através de heurísticas

Page 13: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

13NILC - Núcleo Interinstitucional de Lingüística Computacional

Heurísticas

Presença de sobrescrito: ant.o, cid.e, p.a (61%)

Ponto interno sucedido por até 4 símbolos: cid.e, embg.e, ex.mo (24%)

Palavras terminadas por algumas consoantes: cap, reg, liv, v (15%)

Page 14: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

14NILC - Núcleo Interinstitucional de Lingüística Computacional

Abreviaturas

Glossário CGlossário F

7.0452.47316.067

∣F∩C∣∣F∣ =15%

∣F∩C∣∣C∣ =35%

∣F∩C∣∣F∣ =15%

∣F∩C∣∣C∣ =35%

Page 15: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

15NILC - Núcleo Interinstitucional de Lingüística Computacional

Variantes de grafia

Inexistência de um sistema ortográfico unificado em textos históricos

Exemplo: villa, vyla, vjlla, vylla, vjla Abordagem 1: regras de transformação

(Giusti et al., 2007) Abordagem 2: Distância de edição

(Philologic + Agrep)

Page 16: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

16NILC - Núcleo Interinstitucional de Lingüística Computacional

Regras de transformação

Exemplo: (e[ao] e ei) "e[ao]" cobre “aldea”, “meo”, “cheas”,

etc "e" subcadeia a ser substituída (aldea,

meo, cheas, etc) "ei" cadeia de substituição (resultado

em aldeia, meio, cheias, etc) 43 regras de transformação, 18.082

agrupamentos e 41.170 variantes

Page 17: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

17NILC - Núcleo Interinstitucional de Lingüística Computacional

Ferramentas

Protew: pré-processamento do córpus * Protej: pré-processamento do córpus e dos

glossários * Siaconf: detecção de variantes de grafia Unitex: acesso a córpus Philologic: acesso a córpus Procorph: redação de verbetes * * nilc.icmc.usp.br/nilc/projects/procorph/

Page 18: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

18NILC - Núcleo Interinstitucional de Lingüística Computacional

Protew-lite

Page 19: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

19NILC - Núcleo Interinstitucional de Lingüística Computacional

Protej

Page 20: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

20NILC - Núcleo Interinstitucional de Lingüística Computacional

Protej – Córpus Philologic

Page 21: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

21NILC - Núcleo Interinstitucional de Lingüística Computacional

Philologic

Page 22: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

22NILC - Núcleo Interinstitucional de Lingüística Computacional

Unitexhttp://www-igm.univ-mlv.fr/~unitex/

Page 23: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

23NILC - Núcleo Interinstitucional de Lingüística Computacional

Procorph

Dados gerais Variantes

Page 24: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

24NILC - Núcleo Interinstitucional de Lingüística Computacional

Procorph

Abonações Acepções Referências

Page 25: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

25NILC - Núcleo Interinstitucional de Lingüística Computacional

Procorph

Relacionados Observações Primeira

datação

Page 26: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

26NILC - Núcleo Interinstitucional de Lingüística Computacional

Procorph Visualização (açucar)

Page 27: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

27NILC - Núcleo Interinstitucional de Lingüística Computacional

Concordâncias

Page 28: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

28NILC - Núcleo Interinstitucional de Lingüística Computacional

Arquitetura 1: compilação de córpus e criação de glossários

Detecçãode erros

Textosanotados

Textosdigitalizados

Limpeza eanotação

Geração deversões

Textosprocessados

Extração deabreviaturas

Extraçãode variações

de grafia

Glossário deabreviaturas

Glossário devariações de

grafias

Extração demetadados

Metadados

Page 29: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

29NILC - Núcleo Interinstitucional de Lingüística Computacional

Arquitetura 2: acesso a córpus e criação de verbetes

Textosprocessados

Interface de acesso acórpus

Interface de edição deverbetes

Interface deacesso a

glossários

Lado servidor(back-end)

Usuário

Lado cliente(Front-end)

Base de dados de verbetes

Sistema de gerenciamento

de verbetes

Sistema de processamento

de córpus

Sistema deacesso a

glossários

Base de dados de lexias

Page 30: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

30NILC - Núcleo Interinstitucional de Lingüística Computacional

Conclusões

O ambiente pode ser facilmente adaptado para uso em projetos semelhantes ao DHPB

Contribuições: Metodologia para tratamento de córpus

históricos Ferramentas (Protew, Protej, Procorph) Recursos (córpus e glossários)

Page 31: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

31NILC - Núcleo Interinstitucional de Lingüística Computacional

ReferênciasATKINS, S.; CLEAR, J.; OSTLER, N. Corpus design criteria. Journal of Literary and Linguistic Computing, v. 7, n. 1, 1992.

ARCHER, D., ERNST-GERLACH A., KEMPKEN S., PILZ T., RAYSON P. The identification of spelling variants in English and German historical texts: manual or automatic. In: Digital Humanities, 2006, Paris: Sorbonne, 2006. p. 3-5.

FLEXOR, M. H. O. Abreviaturas: Manuscritos dos séculos xvi ao xix. 2. ed. [S.l.]: UNESP, 1991. 468 p.

GIOULI, V.; PIPERIDIS, S.. Corpora and HLT: Current trends in corpus processing and annotation. Disponível em: <http://www.larflast.bas.bg/balric/eng_files/corpus_deliverable_final.htm>. Acesso em: 25 fev. 2008.

GIUSTI, R.; CANDIDO JR, A.; MUNIZ, M. C. M.; CUCATTO, L. A.; ALUÍSIO, S. M. Automatic detection of spelling variation in historical corpus: An application to build a Brazilian Portuguese spelling variants dictionary. In: Corpus Linguistics, 2007, Londres. Corpus Linguistics, 2007.

HIROHASHI, A. S. Aprendizado de regras de substituição para normatização de textos históricos. Dissertação (Mestrado) — Instituto de Matemática e Estatística, USP, São Paulo, 2004.

Page 32: Criação de um Ambiente para o Processamento de Córpus de ... · II Workshop do Projeto Dicionário Histórico do Português do Brasil - 24 a 26 de julho de 2006 - Unesp Araraquara

32NILC - Núcleo Interinstitucional de Lingüística Computacional

Referências

RAYSON, P., D. ARCHER AND N. SMITH.VARD versus Word: A comparison of the UCREL variant detector and modern spell checkers on English historic corpora, In Proceedings of Corpus Linguistics 2005, vol. 1, no. 1. Birmingham: Birmingham University.

SARDINHA, T. B. Lingüística de Corpus. Barueri, SP: Manole, 2004.

SINCLAIR, J. Preliminary recommendations on Corpus Typology. EAGLES, 1996. Disponível em: <http://www.ilc.cnr.it/EAGLES96/pub/eagles/corpora/corpustyp.ps.gz>. Acesso em: 16 fev. 2007.

UNIVERSITÉ DE GENÈVE. The ISO 9126 Standard. 2006. Disponível <http://www.issco.unige.ch/ewg95/node1.html>. Acesso em: 14 nov. 2006.

VALE, O. A. ; CANDIDO JUNIOR, A. ; Muniz ; BENGTSON, C. G. ; Cucatto ; ALMEIDA, G. M. B. ; BIDERMAN, M. T. ; Aluísio . Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora. In: American Association for Corpus Linguistics, 2008, AACL 2008.

WYNNE, M. (Ed.). Developing Linguistic Corpora: a guide to good practice. Oxford: Oxbow Books, 2005. Disponível em: <http://ahds.ac.uk/linguistic-corpora/>. Acesso em: 23 fev. 2007.