Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto...
Transcript of Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto...
![Page 1: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/1.jpg)
Visão geral da Lingüística de
Corpus
Discente: Flávia Orci FernandesDocente: Prof. Dr. Roberto Gomes
Camacho
![Page 2: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/2.jpg)
IntroduçãoPrimeiro corpus lingüístico eletrônico: Brown University Standard Corpus of
Present-day American English 1964 1 milhão de palavras Primeiro corpus eletrônico de linguagem
falada: 220 mil palavras – atribuído a Sinclair
![Page 3: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/3.jpg)
Objetivos do texto Apresentar uma retrospectiva da
Lingüística de Corpus
Apresentar os principais marcos de sua história
Discutir algumas questões teóricas e práticas subjacentes à área
![Page 4: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/4.jpg)
1.1. A Lingüística de Corpus e seu histórico Ocupação: coleta e exploração de corpora
com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística.
Exploração da linguagem por meio de evidências empíricas, extraídas por computador.
![Page 5: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/5.jpg)
Sentido original de “corpus”: CORPO Grécia antiga: definição do Corpus
Helenístico por Alexandre, o Grande Antigüidade e Idade Média: produção de
corpora de citações bíblicas Século XX: corpus coletados, mantidos e
analisados manualmente, com ênfase no ensino de línguas
![Page 6: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/6.jpg)
Corpus não-computadorizado que deu feição aos atuais:
SEU (Survey of English Usage) Londres, a partir de 1959 1 milhão de palavras Organizado em fichas de papel Base para o desenvolvimento dos
etiquetadores computadorizados contemporâneos
1989: London-Lund Corpus – parte falada computadorizada
![Page 7: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/7.jpg)
Anos 50: teorias racionalistas da linguagem Críticas à LC: corpora “gigantescos” não
eram confiáveis Invenção do computador tornou possível a
compilação de maior quantidade de dados 1960: mainframe 1980: fitas magnéticas e
microcomputadores pessoais
![Page 8: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/8.jpg)
Atualidade: Grã-Bretanha – um dos centros de
pesquisa mais desenvolvidos (Birminghan, Brighton, Lancaster, Liverpool, Londres)
Países escandinavos Fora da Europa a LC não está tão
desenvolvida EUA: força da lingüística gerativa-transformacional
![Page 9: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/9.jpg)
EUA: desenvolvimento avançado na pesquisa em Processamento de Linguagem Natural (PLN)
Brasil: estágios iniciais voltados à PLN e à Lingüística Compuatacional
Parcerias entre empresas (finalidades comerciais) e universidades: pesquisas em LC ligadas à editoras
Pioneiro: Cobuild – Universidade de Birmingham com a editora Collins
![Page 10: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/10.jpg)
1.2. Corpora de língua inglesa
Corpus Ano Palavras Composição
Corpus of Spoken American English
1991 2 milhões Inglês americano falado
BCN (British National Corpus)
1995 100 milhões Inglês britânico, escrito e falado
Longman Written American Corpus
1997 100 milhões Inglês americano escrito (jornais e livros)
Bank of EnglishBank of English 19871987 450 450 milhõesmilhões
Inglês Inglês britânicobritânico
![Page 11: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/11.jpg)
1.3. Corpora de língua portuguesaCorpus Palavras Comp. Loc.
Corpus UNESP/AraraquaraUsos do Português
200 milhões
PB escrito UNESP,Araraquara
NURC (Projeto de Estudo da Norma Lingüística e Letras)
570 mil PB falado USP, UFRJ, UFBA, UFPE, UFRGS
PHPB (Projeto para a História do Português Brasileiro)
Não disponível
Port. Escrito
UFPE, UFPBA, UFMG, UFRJ, EFSC, UFPB, USP
Tycho Brahe Parsed Corpus of Historical Portuguese
1,o milhão Port. Antigo (1550 a 1850)
Unicamp
VARSUL (Variação Lingüística Urbana da Região Sul)
Não disponível
Port. Falado
UFSC, UFRGS, UFPR
![Page 12: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/12.jpg)
Corpus Ano Palavras Composição
IBORUNAIBORUNA 20072007 Aprox.Aprox.
1 milhão1 milhãoPortuguês Português falado falado riopretanoriopretano
![Page 13: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/13.jpg)
1.4. Corpora de outras línguas
Corpus Língua Palavras
COSMAS (corpus Access Storage and Maintenance System)
Alemão 1, 7 bilhão
Frantext Francês 3.500 obras, do século XVI ao século XX, 80% literatura
![Page 14: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/14.jpg)
1.5. Marcos da Lingüística de Corpus “A história da Lingüística de Corpus está
condicionada à tecnologia, que permite não somente o armazenamento de corpora, mas também a sua exploração e, por isso, está relacionada à disponibilidade de ferramentas computacionais para análise de corpus, dentre as quais se destacam as seguintes.” (p. 15)
![Page 15: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/15.jpg)
1.6. Definição de corpus Nem todo conjunto de dados é
considerado corpus Arquivo Biblioteca eletrônica Corpus: uma parte da biblioteca
eletrônica, construído a partir de um desenho explícito, com objetivos específicos
Subcorpus: uma parte do corpus
![Page 16: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/16.jpg)
“Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” (p. 18)
![Page 17: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/17.jpg)
Origem Propósito Composição Formatação Representatividade Extensão
![Page 18: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/18.jpg)
Quatro pré-requisitos para a formação de um corpus computadorizado:
1) O corpus deve ser composto de textos autênticos, em linguagem natural.
2) Autenticidade dos textos subentende textos escritos por falantes nativos.
3) O conteúdo do corpus deve ser escolhido criteriosamente.
4) Representatividade.
![Page 19: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/19.jpg)
1.7. Tipologia de Corpus MODO: falado; escrito TEMPO: sincrônico; diacrônico; contemporâneo;
histórico SELEÇÃO: de amostragem; monitor; dinâmico ou
orgânico; estático; equilibrado CONTEÚDO: especializado; regional ou dialetal;
multilíngüe AUTORIA: de aprendiz; de língua nativa DISPOSIÇÃO INTERNA: paralelo; alinhado FINALIDADE: de estudo; de referência; de
treinamento ou teste
![Page 20: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/20.jpg)
Pluralidade de autoria Origem da autoria Meio Integralidade Especificidade Dialeto Equilíbrio Fechamento Renovação Temporalidade Tradução Intercalação
![Page 21: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/21.jpg)
1.8. Representatividade de corpus “Não há critérios para a determinação da
representatividade.” (p. 23) “A representatividade está ligada à
questão da probabilidade.” (p. 23) Número de palavras Número de textos Número de gêneros
![Page 22: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/22.jpg)
1.9. Extensão do corpus Abordagens: 1) Impressionística 2) Histórica 3) Estatística
![Page 23: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/23.jpg)
1.10. Especificidade do corpus “Um modo de atingir a representatividade
total de um corpus é incluir nele toda a linguagem.” (p. 27)
“Os corpora gerais podem ser usados como fonte para criação de corpora especializados.” (p. 28)
“(...) normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos subcorpora dos corpora gerais.” (p. 28)
![Page 24: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/24.jpg)
1.11. Adequação do corpus “A adequação do corpus é tomada como
dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas feitas sejam adequados aos propósitos da investigação. Sem isso, a pesquisa não tem sentido.” (p. 29)
Questionamento da validade de corpora gerais.
![Page 25: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/25.jpg)
1.12. Teorias de linguagem e Lingüística de Corpus Lingüística Empírica = Abordagem
empirista + linguagem como sistema probabilístico
Oposição entre Halliday (probabilidade) e Chomsky (possibilidade)
“A visão da linguagem como sistema probabilístico pressupõe que, embora muitos traços lingüísticos sejam possíveis teoricamente, ocorrem com a mesma freqüência.” (p. 31)
Padronização
![Page 26: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/26.jpg)
1.12. Teorias de linguagem e Lingüística de Corpus Lingüística de Corpus x lingüística
chomskyana: Foco no desempenho lingüístico, em vez
de competência Foco na descrição lingüística, em vez de
universais lingüísticos Foco numa visão mais empirista do que
racionalista da pesquisa científica
![Page 27: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/27.jpg)
1.13. Estatuto da Lingüística de Corpus A LC é uma disciplina ou uma
metodologia? Não se dedica a um assunto definido e não
se resume a um conjunto de ferramentas: assim poderíamos classificá-la como PERSPECTIVA:
“(...) é uma maneira de se checar a linguagem, e faz alusão ao conceito de teoria lingüística como janela que molda como enxergamos a linguagem.” (p. 37)
![Page 28: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/28.jpg)
1.14. Tipos de pesquisa privilegiados São empíricos e analisam os padrões reais
de uso em textos naturais. Utilizam coletâneas grandes e criteriosas
de textos naturais, conhecidas por corpus, como a base da análise.
Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas.
Dependem de técnicas quantitativas e qualitativas.
![Page 29: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/29.jpg)
1.14. Tipos de pesquisa privilegiados 1) Compilação de corpus 2) Desenvolvimento de ferramentas 3) Descrição da linguagem 4) Aplicação de corpora
![Page 30: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/30.jpg)
1.15. Padrões de linguagem Quais os padrões lexicais dos quais a
palavra faz parte? Em que estruturas ela aparece?
Padronização como regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens (lexical, gramatical, sintática, etc). Podem ser formalizados em colocação, coligação, prosódia semântica.
![Page 31: Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho.](https://reader035.fdocumentos.com/reader035/viewer/2022062512/552fc100497959413d8bc6d8/html5/thumbnails/31.jpg)
1.16. Comentários finais Painel geral do campo de investigação da
Lingüística de Corpus Dificuldades: quantidades de trabalhos
novos e debate de cunho teórico Proposta da Psicologia Cognitiva de
Langacker – alternativa para explicação da padronização
“todo corpus me ensinou coisas sobre a linguagem que eu não teria descoberto de nenhum outro modo” (FILLMORE, p. 35)