Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

28
Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Transcript of Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Page 1: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Criando corpora pessoais Corpógrafo – presente e

futuroBelinda Maia

Page 2: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

PRESENTE

Page 3: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Corpógrafo

Um conjunto de ferramentas que permitem:• Criar corpora

• Analisar corpora

• Extrair e catalogar itens linguísticos

• Armazenar o material estudado

• Exportar os resultados

Page 4: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Corpógrafo

Versão online:• Tem todas as funções

• Cada pessoa ou grupo trabalha num espaço próprio

• O trabalho de cada espaço é privado

Versão descarregável• Tem de pedir licenças para certas funções

• Não compatível com Windows

Page 5: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Criar corpora

Colecção de textos Limpeza de formatação –

e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata

• Referências bibliográficas, fontes, etc

• Classificação - ‘medium’, género, domínio

• Língua

Page 6: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Criar corpora

Organização – e reorganização - de textos em corpora

Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

Page 7: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Analisar corpora

Concordância frase – frase inteira Concordância Janela – até 15 átomos de

cada lado Concordância KWIC – até 15 átomos ou

100 caráteres N-grams – até 15 – ordem alfabética /

frequência

Page 8: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Concordâncias

Pode ver• Metadata do texto fonte

• Estatísticas do átomo / frase no corpus

• Outra forma de concordância

Em concordância janela – pode reorganizar por colunas à esquerda ou direita

Page 9: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Tipos de pesquisa

Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou

Português• Utiliza dicionários etiquetados

Por sequências de expressões regulares ou gramáticas NooJ

Page 10: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Centro de conhecimento

Bases de dados terminológicas• Objectivo original – extracção de terminologia

Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e

classificação de• Itens do léxico geral

• Expressões multi-palavras

Page 11: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Bases de dados terminólogicas

BDs - multilingual Ferramentas:

• n-gram com filtros para extracção de ‘candidatos a termos’

• Possibilidade de pesquisar definições e relações semânticas

• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia

Page 12: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Informação em BD

Geração de estatísticas dos termos• Frequência

• Co-ocurrência em textos

Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos

Concordância de corpora comparáveis Criação de relações semânticas pelo

pesquisador

Page 13: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

BDs Fraseológicas

Algumas funções iguais ou semelhantes às BDs terminológicas

MAS Pesquisa com gramáticas NooJ – resultados >

BD Relações discursivos (Rhetorical Structure

Theory) Possibilidade de criar classificações do

investigador

Page 14: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Exportação de dados

Exportação de corpora Exportação de BDs

Page 15: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

FUTURO

Page 16: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Funcionamento

Acelerar processamento Tornar possível manuseamento de maior

quantidade de dados Permitir mais interacção entre áreas

privadas quando desejado Criar possibilidade de projectos em

grupo mais sofisticados

Page 17: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Textos e corpora

Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos

Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc

Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc

Melhorar sistema de limpeza de textos

Page 18: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Listas do léxico

Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus

Criar• ‘standard wordlists’ para comparação

• + sistema estatística relacionado

• Etiquetagem PoS automática + ferramentas de correcção

Page 19: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Pesquisa de corpora

My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas

Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação

Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

Page 20: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Outras Ideias

Aumentar possibilidades de criar relações• Sintácticos

• Semânticos Criar possibilidades de visualizar as

relações estabelecidos Usar métodos estatísticos para criar ‘word

clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

Page 21: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Aproveitar

Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar

a linguagem …… Sistemas informáticos > word clouds

Page 22: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Por exemplo

http://news.bbc.co.uk/2/hi/americas/7813432.stm

What words did George Bush use most during this eight-year presidency?

Page 23: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.
Page 24: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.

Wortschatz – Univ. Leipzig

http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational

• Linguistics

• Artificial

• Intelligence

Page 25: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.
Page 26: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.
Page 27: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.
Page 28: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia.