Criando corpora pessoais Corpógrafo – presente e futuro

28
Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

description

Criando corpora pessoais Corpógrafo – presente e futuro. Belinda Maia. PRESENTE. Corpógrafo. Um conjunto de ferramentas que permitem: Criar corpora Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados. Corpógrafo. Versão online: - PowerPoint PPT Presentation

Transcript of Criando corpora pessoais Corpógrafo – presente e futuro

Page 1: Criando corpora pessoais Corpógrafo – presente e futuro

Criando corpora pessoais Corpógrafo – presente e

futuroBelinda Maia

Page 2: Criando corpora pessoais Corpógrafo – presente e futuro

PRESENTE

Page 3: Criando corpora pessoais Corpógrafo – presente e futuro

Corpógrafo

Um conjunto de ferramentas que permitem:• Criar corpora

• Analisar corpora

• Extrair e catalogar itens linguísticos

• Armazenar o material estudado

• Exportar os resultados

Page 4: Criando corpora pessoais Corpógrafo – presente e futuro

Corpógrafo

Versão online:• Tem todas as funções

• Cada pessoa ou grupo trabalha num espaço próprio

• O trabalho de cada espaço é privado

Versão descarregável• Tem de pedir licenças para certas funções

• Não compatível com Windows

Page 5: Criando corpora pessoais Corpógrafo – presente e futuro

Criar corpora

Colecção de textos Limpeza de formatação –

e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata

• Referências bibliográficas, fontes, etc

• Classificação - ‘medium’, género, domínio

• Língua

Page 6: Criando corpora pessoais Corpógrafo – presente e futuro

Criar corpora

Organização – e reorganização - de textos em corpora

Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

Page 7: Criando corpora pessoais Corpógrafo – presente e futuro

Analisar corpora

Concordância frase – frase inteira Concordância Janela – até 15 átomos de

cada lado Concordância KWIC – até 15 átomos ou

100 caráteres N-grams – até 15 – ordem alfabética /

frequência

Page 8: Criando corpora pessoais Corpógrafo – presente e futuro

Concordâncias

Pode ver• Metadata do texto fonte

• Estatísticas do átomo / frase no corpus

• Outra forma de concordância

Em concordância janela – pode reorganizar por colunas à esquerda ou direita

Page 9: Criando corpora pessoais Corpógrafo – presente e futuro

Tipos de pesquisa

Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou

Português• Utiliza dicionários etiquetados

Por sequências de expressões regulares ou gramáticas NooJ

Page 10: Criando corpora pessoais Corpógrafo – presente e futuro

Centro de conhecimento

Bases de dados terminológicas• Objectivo original – extracção de terminologia

Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e

classificação de• Itens do léxico geral

• Expressões multi-palavras

Page 11: Criando corpora pessoais Corpógrafo – presente e futuro

Bases de dados terminólogicas

BDs - multilingual Ferramentas:

• n-gram com filtros para extracção de ‘candidatos a termos’

• Possibilidade de pesquisar definições e relações semânticas

• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia

Page 12: Criando corpora pessoais Corpógrafo – presente e futuro

Informação em BD

Geração de estatísticas dos termos• Frequência

• Co-ocurrência em textos

Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos

Concordância de corpora comparáveis Criação de relações semânticas pelo

pesquisador

Page 13: Criando corpora pessoais Corpógrafo – presente e futuro

BDs Fraseológicas

Algumas funções iguais ou semelhantes às BDs terminológicas

MAS Pesquisa com gramáticas NooJ – resultados >

BD Relações discursivos (Rhetorical Structure

Theory) Possibilidade de criar classificações do

investigador

Page 14: Criando corpora pessoais Corpógrafo – presente e futuro

Exportação de dados

Exportação de corpora Exportação de BDs

Page 15: Criando corpora pessoais Corpógrafo – presente e futuro

FUTURO

Page 16: Criando corpora pessoais Corpógrafo – presente e futuro

Funcionamento

Acelerar processamento Tornar possível manuseamento de maior

quantidade de dados Permitir mais interacção entre áreas

privadas quando desejado Criar possibilidade de projectos em

grupo mais sofisticados

Page 17: Criando corpora pessoais Corpógrafo – presente e futuro

Textos e corpora

Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos

Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc

Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc

Melhorar sistema de limpeza de textos

Page 18: Criando corpora pessoais Corpógrafo – presente e futuro

Listas do léxico

Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus

Criar• ‘standard wordlists’ para comparação

• + sistema estatística relacionado

• Etiquetagem PoS automática + ferramentas de correcção

Page 19: Criando corpora pessoais Corpógrafo – presente e futuro

Pesquisa de corpora

My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas

Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação

Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

Page 20: Criando corpora pessoais Corpógrafo – presente e futuro

Outras Ideias

Aumentar possibilidades de criar relações• Sintácticos

• Semânticos Criar possibilidades de visualizar as

relações estabelecidos Usar métodos estatísticos para criar ‘word

clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

Page 21: Criando corpora pessoais Corpógrafo – presente e futuro

Aproveitar

Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar

a linguagem …… Sistemas informáticos > word clouds

Page 22: Criando corpora pessoais Corpógrafo – presente e futuro

Por exemplo

http://news.bbc.co.uk/2/hi/americas/7813432.stm

What words did George Bush use most during this eight-year presidency?

Page 23: Criando corpora pessoais Corpógrafo – presente e futuro
Page 24: Criando corpora pessoais Corpógrafo – presente e futuro

Wortschatz – Univ. Leipzig

http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational

• Linguistics

• Artificial

• Intelligence

Page 25: Criando corpora pessoais Corpógrafo – presente e futuro
Page 26: Criando corpora pessoais Corpógrafo – presente e futuro
Page 27: Criando corpora pessoais Corpógrafo – presente e futuro
Page 28: Criando corpora pessoais Corpógrafo – presente e futuro