Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

50
Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp

description

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas. Sandra Maria Aluísio. Fórum  de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp. Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004. - PowerPoint PPT Presentation

Transcript of Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

Page 1: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

Sandra Maria Aluísio

Fórum  de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp

Page 2: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

2

Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004

Está em curso uma verdadeira revolução no pensamento lingüístico, com implicações sérias sobre como respondemos a questões fundamentais, tais como o que é língua, como ela é organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revolução é a tecnologia, mais especificamente o computador.

...

Para entender essa revolução, é preciso acompanhar a Lingüística de Corpus, uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüísticas provindas de corpora eletrônicos, a Lingüística de Corpus questiona os paradigmas estabelecidos dos estudos lingüísticos e mostra novos caminhos para o lingüista, o tradutor, o lexicógrafo, e muitos outros profissionais.

Page 3: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

3

Há 15 anos atrás ...

A comunidade internacional que trabalha com Lingüística Computacional e Processamento de Língua Natural (PLN) teve o mesmo entusiasmo com métodos empíricos e estatísticos para análise da linguagem.

Entretanto, esse interesse em métodos estatísticos baseado em córpus reacendeu todas as velhas controvérsias: filosofias racionalistas vs. empiristas, metodologias baseadas em teoria vs. dirigidas por dados, técnicas simbólicas vs. estatísticas.

Page 4: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

4

Com uma análise histórica do que aconteceu no eixo Estados Unidos – Europa podemos aprender e encurtar caminhos para colocar o processamento e o estudo da língua

portuguesa do Brasil mais próximos dos avanços de outras, principalmente o inglês.

Além disso, quanto a criação de córpus, podemos aproveitar para aprender com os erros no desenvolvimento do BNC discussões, ferramentas e padrões que estão sendo

utilizados atualmente no desenvolvimento do ANC e alavancar o Português do Brasil, trazendo-o para o

cenário mundial das pesquisas em Lingüística de Córpus

Page 5: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

5

Continuando no prefácio...

A influência mais visível no mundo contemporâneo está na preparação de dicionários. Hoje, todos os grandes dicionários da língua inglesa (de Oxford até Cambridge, Collins, Longman) são feitos com base em Lingüística de Corpus.

Page 6: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

6

Para o português do Brasil ...

Temos também um dicionário com ocorrências reais: o “Dicionário de Usos do Português do Brasil” (DUP), do Prof. Borba e equipe, lançado em 2002.

Entretanto, o córpus que deu base ao dicionário: diferentemente dos para a língua inglesa, não foi construído

como um consórcio entre editoras e/ou empresas de software, governo e academia

possui somente textos escritos não está livremente e extensivamente disponível (ou a um baixo

custo) para consulta/pesquisa, agora que o dicionário está pronto.

Page 7: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

7

Estrutura da Apresentação

Um pouco de História Exemplos de trabalhos e forma de trabalho

no NILC Lácio-Web Mestrado em Estudos Lingüísticos na

UFSCar com três linhas de pesquisa (submetido à Capes): Linguagem e Discurso, Ensino e Aprendizagem de Língua e Linguagem Humana e Tecnologia

Page 8: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

8

Algumas definições ...

Divisão histórica: Lingüística Computacional na Lingüística, Processamento de Língua Natural na Computação, Reconhecimento/Tratamento da Fala (TF) na Engenharia Elétrica, Psico-lingüística Computacional* (psicologia cognitiva) na Psicologia

Lingüística Computacional é o estudo científico da linguagem a partir de uma perspectiva

computacional. Interesse em modelos computacionais de vários tipos de fenômenos

lingüísticos. Processamento de Língua Natural (PLN)

é uma ciência da computação que usa computadores para processar linguagem escrita e falada para aplicações práticas.

Inclui métodos e teorias para as fases de processamento, como é o caso da tradução de língua natural: análise fonético-fonológica , morfológica, sintática, semântica, pragmático-discursiva.

Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingüística Computacional.

Page 9: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

9

Análises empíricas e estatísticas da LN eram populares Havia uma grande comunidade de lingüistas trabalhando com dados

quantitativos nos EUA e Europa, estudando métodos para aprender informações léxicas e sintáticas de córpus

Depois da II Guerra Mundial

Gramática Gerativa: fins dos 50’s inicio dos 60’s A ênfase em julgamentos intuitivos sobre a gramaticalidade de textos

ocasionou um confronto com os lingüistas quantitativos Primeiro, Chomsky defendeu que lingüistas não deveriam ser

meramente descritivos, mas sim Segundo, Chomsky argumentou contra o aprendizado de uma língua a

partir de córpus, pois acreditava que partes principais da linguagem são inatas e não aprendidas

A abordagem empirista também postula que existe alguma habilidade cognitiva presente no cérebro. A diferença entre as abordagens não é absoluta mas de grau

Polarização de opiniões; nenhuma interação produtiva

Page 10: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

10

70’s e 80’s Poucos grupos de PLN persistiram na abordagem probabilística A abordagem baseada em regras dominou o campo, mesmo nas

equipes industriais que trabalhavam com PLN A comunidade de TF amadureceu e deu ênfase para a indução de

modelos estatísticos da língua a partir de dados de treinamento

Fim dos 80’s e começo dos 90’s O campo de PLN deu um giro radical devido a duas razões:

incentivo da DARPA para a união das 2 abordagens o aumento da disponibilidade de textos eletrônicos

Os problemas da comunidade de lingüistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de córpus em vez de construir manualmente regras para tratar estes problemas

A princípio, o interesse por métodos estatísticos baseados em corpus

esquentou as controvérsias entre racionalismo vs. empirismo; as técnicas simbólicas vs. estatísticas

Page 11: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

11

1994: The Balancing Act Workshop nos EUA Foi planejado quando havia grande alvoroço nas duas comunidades:

mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, não havia entrosamento para mostrarem os resultados.

Começou a busca pela combinação de abordagens.

Fillmore 1992 in Svartvik (ed), p.35 I don’t think there can be any corpora, however large, that contain

information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate

Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way

My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.

Page 12: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

12

Por que as coisas mudaram???

Cada comunidade precisa da experiência da outra: abordagens quantitativas facilitam

a aquisição automatizada ou semi-automatizada de conhecimento, somam robustez e cobertura a sistemas de PLN restritos, e permitem a extensão ou transporte para um novo conjunto de

dados, nova tarefa ou domínio abordagens quantitativas são dependentes da natureza dos

dados utilizados e assim precisam também de conhecimento lingüístico; métodos indutivos tem melhor desempenho quando guarnecidos

com conhecimento inicial preciso

Computadores mais rápidos, armazenagem mais barata e iniciativas para a construção de córpus se tornaram regra e não exceção.

Page 13: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

13

Necessidade da construção de sistemas que trabalham no mundo real e não mais os tradicionais sistemas de PLN que trabalhavam em domínios restritos. Esta virada pede as vantagens de métodos quantitativos, pois

essas aplicações trabalham com dados incorretos e, ao mesmo tempo os usuários estão se ajustando para aceitar resultados menos perfeitos.

Com as mudanças políticas e econômicas ocorridas no mundo, há uma grande ênfase em resultados e avaliações caso das avaliações conjuntas e da disponibilização na Web

de dados de treinamento para comparação de abordagens.

O próprio pêndulo intelectual, mesmo em outras áreas de pesquisa, está voltando para o empirismo, procurando a construção de modelos da língua que levem em

conta a incerteza e a variabilidade.

Page 14: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

14

E a Lingüística de Córpus? O que ela pode oferecer aos lingüistas tradicionais?

Começo dos anos 90´s: utilizava-se os termos “abordagem baseada em córpus” ou Análise Textual

Atualmente, existem várias conferências, incluindo a bianual “Corpus Linguistics” nas quais o público alvo é diverso: tanto da computação como lingüística; livros; córpus em várias línguas e ferramentas disponíveis na Web.

Essa área oferece uma oportunidade para: Lingüistas tradicionais trabalharem de uma nova forma com as velhas

disciplinas (como faz o lingüista computacional) e juntamente com pesquisadores de PLN em outras tarefas que

provavelmente nunca pensou em trabalhar!

Áreas de Pesquisa: compilação de córpus (crus ou anotados); desenvolvimento de ferramentas; descrição da linguagem; aplicação de córpus (ensino de línguas, reconhecimento de voz, tradução, etc.)

É uma área onde todos tem muito a aprender – pode ser a melhor chance que temos de começar a trabalhar de forma diferente

Page 15: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

15

Bibliografia

Brill, E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p. 13-24.

Klavans, J. and Resnik, P. The Balancing Act - Combining Symbolic and Statistical Approaches to Language, The MIT Press, 1996.

Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, 1993.

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.

Page 16: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

16

Exemplos de trabalhos e forma de trabalho no NILC

The Núcleo Interinstitucional de Lingüística Computacional (NILC) wascreated in 1993 to foster research and development projects in ComputationalLinguistics and Natural Language Processing, such as Corpus and LexiconDevelopment, Automatic Summarization, Machine Translation, WritingSupporting Tools. Though it was originally conceived by scientists from theDepartment of Computer Science and Institute of Physics from theUniversidade de São Paulo (USP) in São Carlos, it now includes computerscientists, linguists and research fellows from Universidade Federal de SãoCarlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara.

O ReGra foi a aplicação que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agências do governo

Page 17: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

17

ReGra

Treinamento de Etiquetadores Morfossintáticos (taggers) a partir de grandes córpus

Extração Automática de Terminologia

Aprendizado Automático dos elementos da Estrutura Esquemática de Artigos Científicos

Todos os trabalhos acima utilizaram córpus de formas diferentes:

controlar a intuição lingüística; avaliação; anotar características manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extração de informação.

Comentários sobre os trabalhos

Page 18: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

18

ReGra Corretor gramatical (baseado na gramática normativa) inserido no

Office

Criado um córpus (o Córpus NILC com 35 milhões de ocorrências) com uma organização especial em 3 conjuntos:

textos corrigidos textos semicorrigidos textos não-corrigidos

Gramática do ReGra: criada manualmente segundo a abordagem simbólica (regras).

A gramática do ReGra será usada em uma ferramenta para criação de um córpus de desvio para anotar automaticamente os erros e permitir a sub-classificação manual deles e assim diminuir o tempo de anotação. É usada na ferramenta de suporte à escrita SCIPO

Córpus: usado para levantamento de padrões e avaliação do desempenho

Page 19: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

19

Taggers do Lácio-Web Anotam automaticamente as sentenças de um texto com categorias

gramaticais.

Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milhão. O Mac-Morpho (Lácio-Web) possui ~ 1,2 milhões de palavras

Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinação de classificadores para salientar os acertos dos 3 e evitar os seus erros.

Um dos modelos é simbólico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legível por humanos, comparado com grandes matrizes de probabilidades)

Córpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotação manual de cada palavra do córpus de treinamento (80%)

Não foi feita nenhuma inclusão de conhecimento lingüístico para pós-processamento ou melhorar a marcação de palavras desconhecidas

Page 20: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

20

Extração automática de terminologia

Extração de listas de candidatos a termos de um dado córpus de textos técnicos/científicos.

Existem 3 tipos de métodos: estatísticos, lingüísticos e híbridos (combinação dos 2 primeiros)

Projeto ExPorTer avaliou algoritmos dos 3 métodos; híbrido teve melhor desempenho em 2 córpus diferentes.

Córpus: usado como fonte da extração. Não há aprendizado da tarefa.

No método estatístico, há o cálculo de medidas estatísticas de associação para n-gramas (informação mútua, log-like, etc.)

No método lingüístico, há a aplicação de taggers, uso de padrões lingüísticos (subs-adj, subs-prep-subs) e padrões de definição/descrição para localizar o ponto de extração

Page 21: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

21

Classificador da estrutura esquemática de artigos

Anota automaticamente uma seção de um artigo com os elementos de uma estrutura esquemática pré-definida

Dada uma estrutura esquemática de uma seção do artigo, por exemplo o Resumo:

Contexto, Lacuna, Propósito, Metodologia, Resultado, Conclusão, Estrutura

o classificador utiliza um córpus com suas sentenças manualmente anotadas com os elementos acima, mas não trabalha com as sentenças diretamente e sim com vetores de atributos dessas sentenças:

Tamanho, localização, presença de citações, presença de expressões formulaicas, tempo, voz, presença de auxiliar modal, histórico

Córpus: usado para treinar o modelo de anotação com um aprendizado supervisionado; as sentenças são também processadas para criação dos atributos e nessa fase

são utilizadas várias fontes de conhecimento lingüístico como taggers, regras sintáticas, listas de expressões padrões, etc.

Page 22: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

22

O Projeto Lácio-Web (LW) (1)

Objetivos: Desenvolvimento e distribuição gratuita na Web de vários tipos

de córpus; Elaboração de ferramentas de análise de lingüística:

Análise Qualitativa: construção de dicionários, descrição da língua, etc.; Análise Quantitativa: estatísticas dos dados para etiquetadores, extratores,

corretores, etc.;

Principais características: Tipologia ortogonal e quadripartida de classificação de textos:

privilegia o Gênero, Tipo de Texto, Domínio e Meio de Distribuição; Autorização de uso dos textos; Interfaces de pesquisa e montagem de subcórpus via Web.

Projeto de 30 meses, financiado pelo CNPq e concluído em junho/ 2004

Page 23: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

23

O Projeto Lácio-Web (LW) (2)

Lácio-Ref Mac-Morpho Par-C Comp-C Lácio-Sint Lácio-Dev

LW – 6 córpus

aberto, sincrônico, PB contemporâneo

fechado, anotado morfossintaticamente

(manualmente)

aberto, paralelo (inglês-português)

aberto, comparável (textos jurídicos

inglês-português)

fechado, etiquetado aut. com lemas, etiquetas

morfossintáticas e

sintáticas. aberto, textos não

revisados em relação à norma

culta

Todos implementados com cabeçalhos em XML com classificações tipológicas e bibliográficas e informações sobre o

conjunto de caracteres.

Não implementados.

Futuras pesquisas de mestrado e

doutoradoLácio-Sint Lácio-Dev

fechado, etiquetado aut. com lemas, etiquetas

morfossintáticas e

sintáticas. aberto, textos não

revisados em relação à norma

culta

Page 24: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

24

O Projeto Lácio-Web (LW) (3)

Interfaces de Pesquisa e Montagem de Subcórpus: Pesquisa Simples: é a mais genérica e considera

apenas 3 campos de pesquisa (Meio de Distribuição, Supergenêro e Gênero) ;

Pesquisa Avançada: é a intermediária e permite um refinamento dos campos de pesquisa;

Pode apresentar até 6 campos; Pesquisa Personalizada: é a mais refinada e permite

um recorte específico do subcórpus. Pode apresentar até 15 campos;

Page 25: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

25

O Projeto Lácio-Web (LW) (4)

Interfaces de Ferramentas para aplicação nos subcórpus montados: Contadores de Freqüência:

“Padrão” e “Por Palavra”: tratamento de lexia complexa (nomes próprios e palavras compostas);

Concordanciadores; Etiquetadores Morfossintáticos: TreeTagger, Bril e

MXPost;

Page 26: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

26

Material do LW e Disponibilizações Públicas

Material Institucional: Fundação Victor Civita - Editora Abril, Fapesp, Associação Brasileira de Cerâmica, Folha de São Paulo, USP, Editora Guanabara Koogan, and Revista Brasil de Literatura Editora.

Material Individual: teses e dissertações - site SABER Pesquisadores do NILC (com artigos, teses e relatórios técnicos).

Primeira disponibilização em 20/1/2004; segunda em 30/6/2004; anúncio em várias listas relacionadas a córpus, por exemplo [email protected]

Existe ainda material autorizado para ser disponibilizado.

Page 27: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

27

Página Principal do Portal (em Português)

Page 28: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

28

Os corpora disponíveis

Page 29: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

29

Tipos de Pesquisa e Arquivos Disponíveis

Page 30: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

30

Pesquisa Simples

Page 31: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

31

Informações adicionais

Page 32: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

32

Montagem de um subcorpus

Page 33: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

33

Finalizando o subcorpus

Page 34: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

34

Download e Ferramentas

Page 35: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

35

Contadores de Freqüência

Page 36: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

36

Tela de resultado dos Contadores de Freqüência

Estou coletando a fala de seis crianças com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo é formar um banco de dados longitudinal para descrever aspectos da aquisição lexical, tais como freqüência, vizinhança, essas coisas, que poderão ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em ...

Paralelo a isto, porém, estou fazendo uma descrição do vocabulário das crianças em termos de freqüência, campo semântico, classe gramatical, tonicidade, número de sílabas e tipo de sílabas. É nesses aspectos que gostaria de utilizar os dados que acho que vcs dispõe, a fim de comparar a aquisição lexical infantil com dados do português como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical é mais freqüente? Existem mais palavras dissílabas ou trissílabas? Qual a porcentagem de paroxítonas? essas coisas.

Page 37: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

37

O Concordanciador

Page 38: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

38

Resultado do Concordanciador

Page 39: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

39

Contexto ampliado do Concordanciador

Page 40: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

40

LW em Números Lácio-Ref – pretende ser um grande córpus de Referência do PB,

funcionando, por exemplo, como córpus de controle para comparação com um dado córpus de estudo. 4,278 arquivos 8,291,818 ocorrências

Par-C (córpus paralelo) 646 arquivos em inglês e 646 in Português da Revista Pesquisa Fapesp 893,283 ocorrências

Comp-C (gerador de córpus comparáveis) Textos originais em Inglês e Português – obtidos com uma ferramenta de

busca Córpus de Referencia de Textos em Inglês (Ref-Ig) para o domínio

jurídico 29 arquivos e 61,149 ocorrências

No total, LW tem 5,708 files e 10,413,524 ocorrências

Page 41: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

41

Distribuição Final dos Textos no LW

Page 42: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

42

O Lácio-Web é hoje: um Portal de acesso a córpus que disponibiliza gratuitamentegratuitamente:

4 tipos distintos de córpus; ferramentas lingüístico-computacionais para aplicação em subcórpus; 3 tipos de interfaces de pesquisa e montagem de subcórpus; ambiente de navegação dinâmica e didática que incentiva o uso de córpus

Futuramente, o Lácio-Web receberá ferramentas desenvolvidas em projetos do NILC como alinhadores de sentença, extratores de termos etc.

Será que precisamos de um Córpus Nacional do Português Brasileiro, seguindo os moldes dos megacórpus BNC e ANC?

Page 43: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

43

Contribuem para:

Descrição e ensino da língua Desenvolvimento de Ferramentas de PLN Criação de recursos (gramáticas e dicionários)

Como o custo de criar e anotar córpus é muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agências finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuição mundial.

O alto custo também força o desenvolvimento de arquiteturas de dados, formatos de codificação e formalismos de anotação para os recursos de língua que possibilitarão o intercâmbio

Um exemplo é o padrão XCES, (usa XML) que está sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criação do megacórpus

Projetos de Megacórpus

Page 44: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

44

Tipos de informações relevantes para codificação

1 – Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc.

2 – Primary data

1.1 – Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc.

1.2 – Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc.3 – Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts.

CES

XCES valida a arquitetura de dados CES, na qual anotação lingüística (incluindo o cabeçalho) são mantidas em documentos separados que apontam o original, gerando um “hiperdocumento” composto do texto origina e todas as anotações

Page 45: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

45

Codificação dos Córpus do LW

Lácio-Ref Mac-Morpho Par-C Comp-C

Córpus do LW

fechado, anotado morfossintaticamente

(manualmente)

aberto, paralelo (inglês-português)

aberto, comparável (textos jurídicos

inglês-português)

Lácio-Ref, Par-C e Comp-C: cabeçalho XML com info bibliográfica e tipologias, conjunto de carcateres e codificação. Inserido manualmente

Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, título, subtítulo, parágrafo, sentença; 2) treinamento de taggers --- pares palavra–tag separados por linhas

Aberto, síncrono, PB contemporâneo

Fechado, anotado manualmente com

etiquetas POS

Aberto, paralelo (Inglês-Português)

aberto, comparável (textos jurídicos P-I)

Lácio-ref + Ref-Ig

Page 46: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

46

Cabeçalho de classificação em XML: Informações Tipológicas:

Supergênero, Gênero, Subgênero, Tipo de Texto, Meio de Distribuição, Domínio, Subdomínio;

Informações Bibliográficas: Nome do Autor, Editor, Local de Publicação, Data, Titulo, Subtítulo,

Língua, Número de Páginas, Número de Palavras etc.;

<?xml version="1.0" encoding="ISO-8859-1"?>

<header>

<>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title><>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification></header>

Cabeçalho do LW

Conjunto de caracteres e codificação

Parte da Descrição Bibliográfica

Gênero e Sub-gênero

Tipo de Texto

Meio de DistribuiçãoDomínio e Sub-domínio

Page 47: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

47

<?xml version="1.0" encoding="ISO-8859-1"?>

<header>

<>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title><>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification></header>

X Y Z K C N ... ...

X ...Genre

Y ...Subgenre

Z ...Text type

K ...Dist.

N ...Domain

C ...Subdomain

Text

Base de Dados

Cabeçalho do LW

Page 48: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

48

Corpo do Texto - LW

Texto e cabeçalho estão juntos em um arquivo

Não estamos seguindo a arquitetura de dados usada no XCES.

Não anotamos em XML vários elementos da gross structure, por exemplo, capítulos, parágrafos, sub-parágrafos, notas de rodapé

Esses elementos estão formatados e padronizados para permitir visualização fácil com quebra de linhas, caixa-alta, etc.

Somente a anotação de elementos gráficos, bibliografia, palavras-chave e resumo foram feitas em XML

Palavras com ênfase foram perdidas quando o texto foi convertido no formato txt (foi uma opção de projeto)

Page 49: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

49

Mestrado em Estudos Lingüísticos na UFSCar

Em julgamento pela CAPES; resposta no próximo dia 21/12

A linha “Linguagem Humana e Tecnologia”, começa com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lúcia Helena Machado Rino e Sandra Maria Aluísio) e foi pré-avaliada com elogios por trazer um diferencial.

Aceitará alunos da Computação e da Lingüística trabalhando com as abordagens baseada em córpus e simbólica e, principalmente, com a combinação dessas

Disciplinas Iniciais: Introdução a Metodologias Baseadas em Conhecimento Lingüística de Corpus Introdução ao Processamento de Línguas Naturais (PLN) Terminologia e Ferramentas Computacionais Sumarização Automática (SA) Seminários de Linguagem Humana e Tecnologia

Page 50: Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

50

Links interessantes

Site do NILC:http://www.nilc.icmc.usp.br/nilc/index.html

Arquivo das mensagen das lista corpora:http://nora.hd.uib.no/corpora/archive.html

Site da Linguateca – córpus e ferramentas:www.linguateca.pt

Obrigada!