Linguística de Corpus e ferramentas computacionais para ...

78
Linguística de Corpus e ferramentas computacionais para análise do léxico Profa. Dra. Liliane Barreiros (DLA-UEFS)

Transcript of Linguística de Corpus e ferramentas computacionais para ...

Page 1: Linguística de Corpus e ferramentas computacionais para ...

Linguística de Corpus e ferramentas computacionais para análise do léxico

Profa. Dra. Liliane Barreiros

(DLA-UEFS)

Page 2: Linguística de Corpus e ferramentas computacionais para ...

Linguística computacional e Linguística de Corpus

Page 3: Linguística de Corpus e ferramentas computacionais para ...

Linguística ComputacionalA Linguística Computacional é a parte da ciência

linguística que se preocupa com o tratamento computacional

da linguagem. Pode ser entendida como “a área de

conhecimento que explora as relações entre a linguística e a

informática, tornando possível a construção de sistemas com

capacidade de reconhecer e produzir informação apresentada

em linguagem natural” (VIEIRA; LIMA, 2001).

Page 4: Linguística de Corpus e ferramentas computacionais para ...

A Linguística Computacional pode ser didaticamente dividida em duas subáreas:

Linguística de Corpus; e

Processamento de Linguagem Natural (PLN).

Essa divisão nem sempre é nítida, uma vez que hámuitos trabalhos que envolvem as duas áreas.

Page 5: Linguística de Corpus e ferramentas computacionais para ...

Linguística de CorpusA Linguística de Corpus preocupa-se basicamente com o

trabalho a partir de corpora eletrônicos que contenham

amostras de linguagem natural. Essas amostras podem ser de

diferentes fontes. Por isso, podemos encontrar os mais

variados bancos de corpora eletrônicos: há corpora de

linguagem falada, corpora de linguagem escrita literária,

corpora com textos de jornal, corpora compostos

exclusivamente por falas de crianças em estágio de

desenvolvimento linguístico etc.

Page 6: Linguística de Corpus e ferramentas computacionais para ...

Linguística de CorpusOs trabalhos envolvendo corpora linguísticos nem

sempre têm como objetivo produzir algum software ou

aplicativo. Normalmente, eles estão voltados para o estudo de

determinados fenômenos linguísticos e sua ocorrência em

grandes amostras de uma determinada língua (ou de uma

variedade, dialeto ou modalidade dela).

Page 7: Linguística de Corpus e ferramentas computacionais para ...

Processamento de Linguagem Natural (PLN)

A área de Processamento de Linguagem Natural, por

outro lado, preocupa-se diretamente com o estudo da

linguagem voltado para a construção de softwares, aplicativos

e sistemas computacionais específicos, como tradutores

automáticos, reconhecedores automáticos de voz, geradores

automáticos de resumos etc.

Page 8: Linguística de Corpus e ferramentas computacionais para ...

Processamento de Linguagem Natural (PLN)

Cabe à área de PLN justamente a construção de

programas capazes de interpretar e/ou gerar informações em

linguagem natural. Além disso, de acordo com Vieira (2002, p.

20), “para o processamento da língua natural, vários

subsistemas são necessários para dar conta dos diferentes

aspectos da língua: sons, palavras, sentenças e discurso nos

níveis estruturais, de significado e de uso”.

Page 9: Linguística de Corpus e ferramentas computacionais para ...

Áreas de conhecimento Linguística

Computacional

Lexicologia Lexicografia

Terminologia Terminografia

Tradução

Análise do Discurso

Sociolinguística Psicolinguística

Linguística Histórica

Estilística

Ensino de Línguas

Sintaxe Semântica Pragmática

A Linguística Computacional

envolve as diferentes áreas

de pesquisa

tradicionalmente conhecidas

em Linguística Teórica e

Aplicada. Todo esse

conhecimento é utilizado

para tentar processar, ou

seja, “compreender e

produzir” as línguas naturais

em corpora linguísticos.

Page 10: Linguística de Corpus e ferramentas computacionais para ...

CORPUS

O que é?

Para que serve?

Como organizar?

Page 11: Linguística de Corpus e ferramentas computacionais para ...

Diferentes tipos de corpus/corpora

Page 12: Linguística de Corpus e ferramentas computacionais para ...

Para a linguística, um corpus é...

“Conjunto finito de dados linguísticos tomados como ponto de

partida da descrição linguística ou como meio de verificação

de hipóteses sobre a língua a estudar, e que poderão

eventualmente conduzir à elaboração de um modelo

explicativo dessa língua. Segundo a investigação pretendida,

trata-se de uma coleção de documentos, quer orais

(registrados e/ou transcritos), quer escritos, quer orais e

escritos. As dimensões do corpus e o conjunto de enunciados

característicos do fenômeno a estudar variam com o objetivo

do investigador” (XAVIER; MATEUS, 1992, p.116).

Page 13: Linguística de Corpus e ferramentas computacionais para ...

O corpus para a Linguística de Corpus

Conjunto de dados linguísticos

(orais ou escritos) sistematizados segundo

determinados critérios, representativos

do uso linguístico, dispostos de tal modo

que possam ser processados por

computador (BERBER SARDINHA, 2004).

Page 14: Linguística de Corpus e ferramentas computacionais para ...

Uso de corpus/corpora em língua portuguesa

Page 15: Linguística de Corpus e ferramentas computacionais para ...

Vocabulário Portuguez e Latino

Elaborado pelo Pe. Rafael Bluteau

Publicado entre 1712-1728

10 volumes (caráter enciclopédico)

Abonações com indicação da referência

1º Utilizou um corpus de uso linguístico - cerca de 406

obras de autores dos séculos XV a XVII.

Bluteau em seu Prólogo ao leitor :

“[...] não temos outra prova da propriedade das

palavras, que o uso delas, e deste uso não há

evidência mais certa, e permanente, que a que

nos fica nas obras dos Autores, ou manuscritos

ou impressos”.

Page 16: Linguística de Corpus e ferramentas computacionais para ...

Dicionário da Língua Portuguesa, de1789

Elaborado por Antonio de Moraes Silva

Baseou-se em 203 autores dos séculos XV aXVIII

1º Dicionário de língua que registrou ovocabulário mais usual na língua escrita e oralda época, indicando os diferentes níveis delinguagem e a área de conhecimento

• 2ª edição (1813) – considerada como um

modelo básico da Lexicografia Portuguesa

• Estrutura do verbete do dicionário (entrada,

classe gramatical, definição com exemplos

tirados de autores, com indicação da

referência: obra, capítulo, tomo, página etc.)

Page 17: Linguística de Corpus e ferramentas computacionais para ...

Quando começouo uso de ferramentas

computacionais para análise da língua

portuguesa?

Page 18: Linguística de Corpus e ferramentas computacionais para ...

Roberto Busa (1949)No âmbito das ciências humanas, o

primeiro pesquisador a utilizar recursos da

informática foi o padre italiano Roberto

Busa. Em 1949, ele realizou um trabalho

monumental com a obra de Santo Tomás

de Aquino que somente foi possível com o

auxílio dos primeiros computadores. Até

então, as máquinas recém inventadas

pela International Business

Machines (IBM) não tinham nenhuma

aplicação no campo das humanidades.

Page 19: Linguística de Corpus e ferramentas computacionais para ...

Em 1960...Pesquisadores do Brasil, Estados Unidos e França;

Linhas de interesse:

1) fins literários e/ou estilísticos;

2) fins linguísticos e

3) Informáticos.

Geralmente, eram voltadas para o ensino

da língua.CDC 6600, lançado em 1964.

O primeiro corpus linguístico eletrônico foi lançado em 1964, o corpus Brown, que

continha uma quantidade invejável de dados para a época: 1 milhão de palavras.

Page 20: Linguística de Corpus e ferramentas computacionais para ...

Em 1980... Popularização dos computadores pessoais

Desenvolvimento da Linguística de Corpus > Linguística Computacional

Tratamento computacional dos dados linguísticos

Teoria Método LC

Page 21: Linguística de Corpus e ferramentas computacionais para ...

Criação de

softwares para o estudo de

fenômenos linguísticos e a sua ocorrência, a partir da constituição de grandes bancos de dados eletrônicos.

Engenheiros da

computação

Linguistas

Page 22: Linguística de Corpus e ferramentas computacionais para ...

As pesquisas passam a priorizar a descrição da língua e a

análise de grande quantidade de dados torna-se mais

confiável.

Confronto da teoria com os dados empíricos da língua.

Page 23: Linguística de Corpus e ferramentas computacionais para ...

Os benefícios:

Permite coletar, selecionar, registrar, analisar, aperfeiçoar,

recuperar os dados e gerar documentos publicáveis com

baixo custo;

Velocidade na execução das atividades;

Ampla capacidade de armazenamento de dados;

Favorece o progresso das pesquisas linguísticas de

diversas áreas, atrelando produtividade, com qualidade e

acessibilidade.

Page 24: Linguística de Corpus e ferramentas computacionais para ...

Linguística de corpus serve para...

Explorar estatisticamente elementos lexicais

Observar combinatórias de palavras

Caracterizar gêneros textuais

Identificar perfis de práticas textuais

Localizar padrões de uso (leitura vertical)

Compreender sentidos (leitura horizontal)

Page 25: Linguística de Corpus e ferramentas computacionais para ...

Ao revelar uma quantidade surpreendente de

evidências linguísticas provindas de corpora

eletrônicos, a Linguística de Corpus questiona os

paradigmas estabelecidos dos estudos linguísticos

e mostra novos caminhos para o linguista, o

tradutor, o lexicógrafo, e muitos outros profissionais

(BERBER SARDINHA, 2004).

Page 26: Linguística de Corpus e ferramentas computacionais para ...

COMO UTILIZARAS FERRAMENTAS COMPUTACIONAIS

PARA ANÁLISE LINGUÍSTICA?

Page 27: Linguística de Corpus e ferramentas computacionais para ...

1º Passo – definir o corpus

Page 28: Linguística de Corpus e ferramentas computacionais para ...

O formato eletrônico do corpus (pode ser

manipulado de forma mais rápida e enriquecido com

informações extras); e

A disponibilização para outras pesquisas (reutilização

do corpus).

Page 29: Linguística de Corpus e ferramentas computacionais para ...

Pré-requisitos para a formação de um corpus eletrônico:

Origem – textos em linguagem natural(não devem ser produzidos para a análise)

Autenticidade – textos escritos por falantes nativos

Conteúdo – deve corresponder às características desejadas

Representatividade – deve ter uma extensão representativa

Page 30: Linguística de Corpus e ferramentas computacionais para ...

Representatividade do corpus

(BERBER SARDINHA, 2004).

Conclusão: Tamanho não é documento!

Finalidadedo trabalho

Objetivosda

pesquisa

Perguntas/

Respostas

Page 31: Linguística de Corpus e ferramentas computacionais para ...

Tipos de CORPUS/CORPORA

Modo

Falado

Escrito

Tempo

Sincrônico:

um período

Diacrônico:

vários períodos

Contemporâneo:

tempo corrente

Histórico:

Um período de tempo passado

Conteúdo

Especializado

Regional ou Dialetal

Monolíngue

Multilíngue

Autoria

Aprendiz

Falante nativo

Tradutor

Finalidade

De estudo

De referência

Corpus

paralelo

Page 32: Linguística de Corpus e ferramentas computacionais para ...

O que é um corpus de referência?

Também conhecido como corpus de controle, funciona como

termo de comparação para a análise;

Sua função é fornecer uma norma com a qual se fará a

comparação das frequências do corpus de estudo;

As palavras com frequências significativas no corpus de

estudo são consideradas chave.

Page 33: Linguística de Corpus e ferramentas computacionais para ...

Características de um corpus de referência

Não deve conter o corpus de estudo;

Um corpus de um gênero específico, igual ao do corpus deestudo, tende a filtrar os elementos comuns;

Um corpus de referência geral, incluindo vários gêneros,não excluirá as palavras genéricas (relativas a um gênero);

Tamanho mínimo necessário para resultados significativos(mínimo de 2 a 5 vezes o corpus de estudo).

Page 34: Linguística de Corpus e ferramentas computacionais para ...

2º passo – compilação do corpus

Compilação – consiste noarmazenamento em arquivosde todos os textos relevantespara a pesquisa.

Page 35: Linguística de Corpus e ferramentas computacionais para ...

3º passo – conversão DO corpus

Conversão – converter osarquivos em formato .doc,.html ou .pdf para o formatode extensão .txt (= bloco denotas).

Page 36: Linguística de Corpus e ferramentas computacionais para ...

COMO CONVERTER:

Disponível em: <http://www.laurenceanthony.net/software/antfileconverter/>.

Page 37: Linguística de Corpus e ferramentas computacionais para ...

1

Page 38: Linguística de Corpus e ferramentas computacionais para ...

2

Page 39: Linguística de Corpus e ferramentas computacionais para ...

3

Page 40: Linguística de Corpus e ferramentas computacionais para ...
Page 41: Linguística de Corpus e ferramentas computacionais para ...

AntFileConverter Salva o arquivo em .txt direto na pasta de origem, otimizando ainserção dos mesmos no programa de análise.

Page 42: Linguística de Corpus e ferramentas computacionais para ...

4º passo – limpeza e formatação do corpus

Limpeza – excluir tabelas, gráficos, fórmulas, cálculos, imagens e

legendas, números de página, referências, ou seja, toda a informação

que não esteja no corpo do texto.

Formatação – formatar cada texto no modo desejado para a pesquisa.

Page 43: Linguística de Corpus e ferramentas computacionais para ...

Arquivo pronto! Próximo passo,

analisar!

Page 44: Linguística de Corpus e ferramentas computacionais para ...

Como usar o AntConc

Foi desenvolvido pelo pesquisador Laurence Anthony daFaculdade de Ciências e Engenharia da Universidade deWaseda no Japão.

É executável em versões para o Windows, Linux eMacintocsh. Seu arquivo tem aproximadamente

4Mb, por isso é considerado leve e

dispensa a necessidade de instalação.

1ª versão publicada em 22 dezembro de

2014

Page 45: Linguística de Corpus e ferramentas computacionais para ...

Disponível em: <http://www.laurenceanthony.net/software/antconc/>.

Page 46: Linguística de Corpus e ferramentas computacionais para ...

Versão atualizada em 23 de abril de 2018

Page 47: Linguística de Corpus e ferramentas computacionais para ...
Page 48: Linguística de Corpus e ferramentas computacionais para ...

O que o AntConc permite fazer: Listas de palavras (Word List);

Listas de concordâncias (Concordance);

Listas de palavras-chaves (KeyWord); e

Gerar gráficos com os dados analisados.

É possível descobrir como umapalavra ocorre, o quanto ocorre,em que contextos e quais aacompanha;

Encontrar padrões e variáveis deuso na escrita; e

Levantamento terminológico.

Os usos semânticos e gramaticais atestam o que está ocorrendo de fato na língua.

Page 49: Linguística de Corpus e ferramentas computacionais para ...

Funcionalidade do AntConc

Page 50: Linguística de Corpus e ferramentas computacionais para ...

1º - Carregar os arquivos que serão analisados

Fechar

Limpar

Salvar

Restaurar

Page 51: Linguística de Corpus e ferramentas computacionais para ...

2º - Antes de ativar qualquer função de análise, é preciso configurar a língua

Page 52: Linguística de Corpus e ferramentas computacionais para ...

Marcar a opção (tratar todos

os dados como minúsculas)

nas categorias Clusters/N-

Grams, Collocates, Word

List e Keyword List, para

evitar exaustividade nos

resultados, gerando duas

entradas.

3º - Configurar Tool Preferences > Treat all data as lowercase

Page 53: Linguística de Corpus e ferramentas computacionais para ...

Menu principal

Concordance: mostra os resultados da pesquisa em um formato KeyWord In Context

39 ocorrências

Eulálio Motta

assinou como Liota

no período de

1931, 1932 e 1933,

nos jornais Mundo

Novo e O Lidador.

Page 54: Linguística de Corpus e ferramentas computacionais para ...

Concordance Plot: é uma ferramenta de plotografia de concordância

Ao clicar em cada linha do

gráfico, o usuário é remetido

ao contexto da ocorrência.

Page 55: Linguística de Corpus e ferramentas computacionais para ...

Após correção no arquivo do

computador, o programa corrigiu

automaticamente o seu arquivo,

consequentemente alterou os

dados.

Page 56: Linguística de Corpus e ferramentas computacionais para ...

File View: mostra o texto bruto de arquivos individuais

Page 57: Linguística de Corpus e ferramentas computacionais para ...

Clusters/N-Grams: gera uma lista

com o resultado da pesquisa,

conforme a ordem escolhida

(alfabética, de frequência, de

probabilidade ou de terminações).

Page 58: Linguística de Corpus e ferramentas computacionais para ...

Search Term: opções de filtros

Outras opções:

• Busca por ‘sequência de caracteres’ desativando a opção Words;

• Busca ‘sensível a maiúsculas e minúsculas’, ativando a opção Case;

• Busca por expressões regulares cheias (com caracteres) ativando a opção Regex.

Busca

padrão

Page 59: Linguística de Corpus e ferramentas computacionais para ...

Collocates: pesquisa padrões não sequenciais na língua e gera listas das palavras

próximas ao termo pesquisado, chamadas de colocados

Média estatística, que mede o nível de relação

entre o termo pesquisado e o colocado.

Mantém o tamanho mínimo e

máximo do intervaloBase da

colocação

Page 60: Linguística de Corpus e ferramentas computacionais para ...

Visualizando os Resultados

Page 61: Linguística de Corpus e ferramentas computacionais para ...

Word List:Lista de palavras por

ordem de frequência

Page 62: Linguística de Corpus e ferramentas computacionais para ...

Word List:Lista de palavras

por ordem

alfabética

Page 63: Linguística de Corpus e ferramentas computacionais para ...

Keyword List:gera uma lista de palavras-

chave, comparando a frequência

das palavras do arquivo em

análise com a frequência das

palavras do corpus de referência

Keyness > Chavicidade

Permite identificar palavras

características no corpus de

estudo como parte de um

gênero ou de uma variedade

linguística.

Page 64: Linguística de Corpus e ferramentas computacionais para ...

FINALIDADE DA LISTA DE PALAVRAS-CHAVE (análise da chavicidade)

Identificar os campos semânticos que apontem para atemática do corpus de estudo;

Descrever a organização interna dos textos;

Localizar marcas indicativas de posicionamento ideológico ea possibilidade de traçar um perfil lexical de um autor(BERBER SARDINHA, 2009).

Page 65: Linguística de Corpus e ferramentas computacionais para ...

1º passo para gerar uma Keyword list

Definir um corpus de referência

Opção: Novo Diccionário da Língua Portuguesa, de Cândido de

Figueiredo (1913), disponível online no formato PDF > conversão em

TXT.

Page 66: Linguística de Corpus e ferramentas computacionais para ...

12

3

4

56

7

8

9

Como inserir um

corpus de referência

Configuração padrão (log de probabilidade)

Limite para exibição do nº de palavras-chave

‘Palavras-chave negativas’ – são as palavras do arquivo

em análise com uma frequência baixa em comparação

com a frequência no corpus de referência

Page 67: Linguística de Corpus e ferramentas computacionais para ...
Page 68: Linguística de Corpus e ferramentas computacionais para ...
Page 69: Linguística de Corpus e ferramentas computacionais para ...
Page 70: Linguística de Corpus e ferramentas computacionais para ...
Page 71: Linguística de Corpus e ferramentas computacionais para ...
Page 72: Linguística de Corpus e ferramentas computacionais para ...
Page 73: Linguística de Corpus e ferramentas computacionais para ...
Page 74: Linguística de Corpus e ferramentas computacionais para ...

Clone Results: cópia dos resultados

O botão Clone Results permite criar uma cópia dos resultados para que possam

ser comparados, em janelas independentes. Essa função é importante, quando se

tem interesse em confrontar o conjunto dos dados obtidos.

Page 75: Linguística de Corpus e ferramentas computacionais para ...

Clone results

Page 76: Linguística de Corpus e ferramentas computacionais para ...

Reiniciando a análise

Limpa

r

Page 77: Linguística de Corpus e ferramentas computacionais para ...

Mais informações sobre o AntConc No site da ferramenta, tem um canal de suporte para o

usuário com manual, tutoriais em vídeo e grupos de discussão

traduzidos do japonês para o inglês.

Page 78: Linguística de Corpus e ferramentas computacionais para ...

Referências básicasBARBOSA, Maria Aparecida. Dicionário, vocabulário, glossário: concepções. In: ALVES,Ieda Maria. (Org.). A constituição da normalização terminológica no Brasil. 2. ed. SãoPaulo: FFLCH/CITRAT, 2001, p. 23-45.

BARREIROS, Liliane L. S. O uso de ferramentas computacionais na elaboração doVocabulário de Eulálio Motta: AntConc e FLEx. A Cor das Letras. Feira de Santana:UEFS, v. 18, n. 2, p. 216-241, maio-ago. 2017.

BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004.

BIDERMAN, Maria Tereza C. Teoria lingüística: teoria lexical e lingüísticacomputacional. 2 ed. São Paulo: Martins Fontes, 2001.

HAENSCH, Günther. Tipología de las obras lexicográficas. In: HAENSCH, G. et al. Lalexicografia: de la linguística teórica a la lexicografia práctica. Madrid: Gredos, 1982, p.95-187.

OTHERO, Gabriel de A.; MENUZZI, Sérgio de M. Linguística computacional: teoria eprática. São Paulo: Parábola, 2005.