PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Ramos... · Agradeço ao meu sogro, Sr....

i

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP

Etelvo Ramos Filho

ARTIGOS ACADÊMICOS EM LÍNGUA INGLESA: UMA ABORDAGEM MULTIDIMENSIONAL

DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

SÃO PAULO 2014

ii

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP

Etelvo Ramos Filho

ARTIGOS ACADÊMICOS EM LÍNGUA INGLESA: UMA ABORDAGEM MULTIDIMENSIONAL

Tese apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo PUC-SP, como requisto parcial para a obtenção do título de DOUTOR em Linguística Aplicada e Estudos da Linguagem, sob a orientação de Dr. Antônio Paulo Berber Sardinha.

DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

SÃO PAULO 2014

iii

AUTORIZAÇAO

Na condição de autor, autorizo, somente para fins acadêmicos, a reprodução total ou parcial desta tese.

iv

Tese defendida e aprovada em ___ /___ /____

BANCA EXAMINADORA

_______________________________

_______________________________

_______________________________

_______________________________

_______________________________

v

Dedico este trabalho ao Seu Etelvo Melo Ramos, que partiu para o outro lado no meu percurso rumo ao doutorado, a meu filho,

Rodrigo, minha mãe, Dona Aryta e minha esposa, Flávia.

vi

AGRADECIMENTOS

Não é discurso, mas sinto orgulho de ter feito o doutorado na PUC, uma

grande instituição, que me deu oportunidade de crescer profissionalmente e conhecer

gente muito bacana e fazer amigos.

Gostaria de agradecer, em primeiro lugar, ao professor Tony Berber Sardinha,

orientador deste trabalho, por todo o conhecimento que ele dividiu comigo nos quatro

anos de convivência. Agradeço também pela paciência, profissionalismo, prontidão em

atender aos pedidos de ajuda, tolerância e “grand” senso de humor que ele sempre

“esteve tendo”, ao ministrar as disciplinas no LAEL e ao conduzir os estudos do GELC

(vou “estar sentindo” saudades do grupo).

Agradeço imensamente aos membros da banca pela ajuda: Profa. Célia Maria

Magalhães, que, com humildade, foi direta e profissional nas suas sugestões e

comentários enriquecedores; Profa. Cida Caltabiano, que com humildade, doçura,

profissionalismo e discernimento, pontuou o que deveria ser melhorado; Profa. Beth

Brait que, prontamente, aceitou participar da minha Banca, trazendo sua experiência,

alegria e expertise. Tive também a sorte de ter como membro da Banca a Profa. Renata

Condi de Souza, que sempre esteve pronta para ajudar, com boas ideias e muito

conhecimento da Análise Multidimensional, que recheavam meus textos com anotações.

Agradeço imensamente a Maria Lúcia e Márcia Martins, que, mesmo

ocupadas, estão sempre prontas a nos dar atenção e apoio no LAEL.

Agradeço aos amigos Profa. Karina Bersan e Prof. Antônio Carlos Gomes,

pelo incentivo; Christine Almeida, por ajudar o seu amigo aqui com orientações sobre o

preenchimento de formulários, e Juliana Ferrari, pelo empréstimo do livro que estava

esgotado.

Meus agradecimentos vão para Rosana de Barros Silva e Teixeira, pela grande

ajuda com seus conhecimentos de Linguística de Corpus e acolhimento quando cheguei

ao LAEL.

Wendel Mendes Dantas, obrigado pelo acolhimento quando cheguei ao

vii

LAEL.

Denise Delegá-Lúcio, sou muito grato a você por ter participado do meu

segundo exame de qualificação. Muito obrigado pelas anotações e sugestões de AMD.

Miss Carol Zuppardo, muito thanks por toda a ajuda e amizade, as caronas and

great time we spent talking about school, life in the USA, music, planes, and life in

general.

Eduardo (Mr.) Cassimiro, muito obrigado pela ajuda com o preenchimento de

formulários e incentivo. You’re a great guy!

Carlos (Mr.) Kauffmann, agradeço pelo profissionalismo na revisão do texto

final.

Meu agradecimento vai para todos os colegas e amigos do Grupo GELC:

Flávia Silva, Cristina Acunzo, Telma de Lurdes, Maria Cecília Lopes, Márcia Veirano,

Juliana Barreto, Helenice Serikaku, Agnes Scaramuzzi, Bárbara Silva, Alexandre (Mr.)

Trigo, Zé Lourenço (you are the man!) e Deutschlehrerin Cris Alberts. (Mr. Trigo, Zé

and Cris, just remember, guys, coffee is life!). Todos vocês me ajudaram muito.

Dona Alina da Silva Bonella, muito obrigado pelas revisões de texto, feitas

com grande expertise.

Meus agradecimentos vão também para a grande amiga Ciomara de Freitas

Gonçalves pelo apoio e acompanhamento com sessões de coaching.

Agradeço ao meu sogro, Sr. Gelço Ribeiro, por me levar ao aeroporto

inúmeras vezes e à Dona Onorita, minha sogra, uma segunda mãe. Obrigado por ajudar

a cuidar de meu filho em minha ausência.

Flávia, obrigado pela paciência, compreensão e dedicação, cuidando do nosso

filho, nossa casa, e nossos akitas – Suki e Aiko –, na minha ausência.

Agradeço aos meus pais, Seu Etelvo e Dona Aryta, que, com esforço, me

proporcionaram estudar inglês na adolescência, quando isso “era coisa para rico”.

Por fim, sou muito grato à Coordenação de Aperfeiçoamento de Pessoal de

Nível Superior (CAPES) pela concessão da bolsa.

viii

There are people in the world for whom "ʺcoming along"ʺ is a perpetual process,

people who are destined never to arrive.

James Baldwin, Go Tell It on the Mountain (1953)

ix

SUMÁRIO

INTRODUÇÃO ........................................................................................................................... 1 Justificativa ............................................................................................................................... 5

Objetivos e perguntas de pesquisa ......................................................................................... 11

Objetivo geral ..................................................................................................................... 11

Objetivos específicos .......................................................................................................... 11

Perguntas de pesquisa: ....................................................................................................... 11

1. CONTEXTUALIZAÇÃO ...................................................................................................... 12 2. FUNDAMENTAÇÃO TEÓRICO-METODOLÓGICA ........................................................ 24

2.1 O artigo acadêmico ........................................................................................................... 24

2.2 Linguística de Corpus ...................................................................................................... 30

2.2.1 Definição e premissas da Linguística de Corpus ...................................................... 32

2.2.2 Breve histórico .......................................................................................................... 34

2.2.3 Corpus: definição e tipologia .................................................................................... 40

2.2.4 Tipologia do corpus .................................................................................................. 44

2.2.5 Ferramentas usadas na LC ......................................................................................... 48

2.2.6 Padronização ............................................................................................................. 54

2.2.6.1 Colocação ........................................................................................................... 55

2.2.6.2 Coligação ............................................................................................................ 56

2.2.6.3 Prosódia semântica ............................................................................................. 57

2.2.6.4 Princípio idiomático e princípio da livre escolha ............................................... 58

2.3. Análise Multidimensional (AMD) .................................................................................. 58

2.3.1 Definições .................................................................................................................. 59

2.3.1.1 Traços ................................................................................................................. 59

2.3.1.2 Características .................................................................................................... 59

2.3.1.3 Registro e gênero ................................................................................................ 60

2.3.1.4 Tipos de texto ..................................................................................................... 60

2.3.1.5 Fator ................................................................................................................... 61

2.3.1.6 Dimensões .......................................................................................................... 61

x

2.3.2 Análise Fatorial ......................................................................................................... 62

2.3.2.1 Diagrama de sedimentação ................................................................................. 62

2.3.2.2 Anova ................................................................................................................. 63

2.3.2.3 R quadrado (ou R²) ............................................................................................. 63

2.3.2.4 Escore ................................................................................................................. 63

2.3.2.5 Variáveis ............................................................................................................. 64

2.3.3 Desenvolvimento e premissas da AMD .................................................................... 64

2.3.4 Dimensões de Biber e seus traços ............................................................................. 72

Dimensão 1: Produção com interação versus informacional ......................................... 72

Dimensão 2: Preocupações narrativas versus não-narrativas ......................................... 73

Dimensão 3: Referências explícitas versus dependentes do contexto ............................ 74

Dimensão 4: Expressão explícita de persuasão versus não-explícita ............................. 74

Dimensão 5: Informação abstrata versus não-abstrata ................................................... 75

2.3.5 Trabalhos com AMD ................................................................................................. 76

3. METODOLOGIA .................................................................................................................. 79 3.1 Descrição do corpus de estudo ......................................................................................... 79

3.1.1 (Pré-)processamento do corpus ................................................................................. 84

3.2 Procedimento de análise ................................................................................................... 92

3.3 Anotação e etiquetagem ................................................................................................... 92

3.4 Escores das dimensões no corpus CERA ....................................................................... 101

4. APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS ................................................ 104 4.1 Apresentação .................................................................................................................. 104

4.1.2 País como variável independente ............................................................................ 104

4.1.3 Área de estudo como variável independente ........................................................... 118

4.2 Discussão dos resultados ................................................................................................ 131

4.2.1 Autores brasileiros nas dimensões de Biber (1988) ................................................ 131

Dimensão 1 ................................................................................................................... 131

Dimensão 2 ................................................................................................................... 132

Dimensão 3 ................................................................................................................... 133

xi

Dimensão 4 ................................................................................................................... 134

Dimensão 5 ................................................................................................................... 134

4.2.2 Comparação entre as áreas de pesquisa ................................................................... 135

5. CONSIDERAÇÕES FINAIS ............................................................................................... 139 REFERÊNCIAS ....................................................................................................................... 142 ANEXOS .................................................................................................................................. 148

xii

LISTA DE QUADROS

Quadro 1: Países e número de citações. Fonte: SCImago Journal & Country Rank, disponível em http://www.scimagojr.com/index.php. ......................................................................... 13

Quadro 2: Corpora de destaque (adaptado de Berber Sardinha, 2004b) ................................... 38

Quadro 3: Tamanhos de corpus (Fonte: BERBER SARDINHA, 2004b, p. 26) ....................... 47

Quadro 4: Dimensões de Biber (2009) revisadas. Fonte: adaptada de BERBER SARDINHA, 2013 .................................................................................................................................... 71

Quadro 5: Traços da dimensão 1 (fonte: adaptado de BIBER, 1988) ........................................ 72





Quadro 10: CERA: origem, áreas e número de textos ................................................................ 81

Quadro 11: CERA: origem dos pesquisadores .......................................................................... 83

Quadro 12: CERA: áreas de pesquisa. Fonte: National Science Foundation Graduate Research Fellowship Program. .......................................................................................................... 84

Quadro 13: Composição do CERA. Contagem obtida pela ferramenta Wordlist, do programa WordSmith Tools 6.0. ......................................................................................................... 88

Quadro 14: Excerto de texto etiquetado pelo Biber Tagger ....................................................... 94

Quadro 15: Excertos do texto 1 de Química da subpasta Brasil. Fonte: o autor. ..................... 106

Quadro 16: Excerto do texto 8 de Ciências da Vida, da subpasta França. Fonte: o autor ....... 108

Quadro 17: Excertos do texto 3 de Psicologia da subpasta Alemanha. Fonte: o autor. ........... 108

Quadro 18: Excertos do texto 8 de Linguística da subpasta Brasil. Fonte: o autor. ................ 110

Quadro 19: Excerto do texto 5 de Engenharia da subpasta Brasil. Fonte: o autor. .................. 112

Quadro 20: Excerto do texto 6 de Eng. e Ciência da Computação da subpasta Índia. Fonte: o autor. ................................................................................................................................. 112

Quadro 21: Excerto do trecho 6 de Engenharia da subpasta Reino Unido. Fonte: o autor. ..... 113

Quadro 22: Excerto do texto 5 de Antropologia da subpasta Alemanha. Fonte: o autor. ........ 115

Quadro 23: excerto do texto 10 de Física e Astronomia da subpasta Alemanha. Fonte: o autor. .......................................................................................................................................... 115

Quadro 24: Excertos do texto 6 de Linguística da subpasta Brasil. Fonte: o autor. ................ 116

xiii

Quadro 25: Excertos do texto 1 de Engenharia da subpasta Estados Unidos. Fonte: o autor. . 117

Quadro 26: Excertos de texto da área Pesquisa de Materiais (Alemanha). Fonte: o autor. ..... 119

Quadro 27: Excertos de texto da área Linguística (Índia). Fonte: o autor. .............................. 120

Quadro 28: Excertos de texto da área de Física e Astronomia (Canadá). Fonte: o autor. ....... 122

Quadro 29: Excertos de texto de Antropologia (Itália). Fonte: o autor. ................................... 122

Quadro 30: Excertos de texto de Psicologia (Estados Unidos). Fonte: o autor. ...................... 124

Quadro 31: Excertos de texto de Física e Astronomia (Estados Unidos). Fonte: o autor. ....... 125

Quadro 32: Excerto de texto de Química (China). Fonte: o autor. .......................................... 126

Quadro 33: Excerto de texto de Engenharia e Ciência da Computação (China). Fonte: o autor. .......................................................................................................................................... 127

Quadro 34: Excerto de texto de Pesquisa de Materiais (Reino Unido). Fonte: o autor. .......... 129

Quadro 35: Excertos de texto de Antropologia (França). Fonte: o autor. ................................ 130

xiv

LISTA DE TABELAS

Tabela 1: Corpus usado por Biber (1988). Fonte: adaptado de SOUZA, 2012. ........................ 69

Tabela 2: Dimensões de Biber (1988) com CERA ................................................................... 103

Tabela 3: Variável Independente País – dimensão 1 ................................................................ 105

Tabela 4: Variável Independente País dimensão 2 ................................................................... 107

Tabela 5: Variável independente País – dimensão 3 ................................................................ 109

Tabela 6: Variável Independente País – dimensão 4 ................................................................ 111

Tabela 7: Variável Independente País – dimensão 5. ............................................................... 114

Tabela 8: Variável Independente Área – dimensão 1 .............................................................. 118

Tabela 10: Variável Independente Área – dimensão 3. ........................................................... 123

Tabela 11: Variável Independente Área – dimensão 4 ............................................................ 125

Tabela 12: Variável Independente Área – dimensão 5 ............................................................ 128

xv

LISTA DE FIGURAS

Figura 1: O modelo CARS. Fonte: Silva (2004). ........................................................................ 17

Figura 1: Modelo de artigo AIMRaD ......................................................................................... 26

figura 2: Pasta TXT ONLY. ......................................................................................................... 85

Figura 3: Pasta BRAZIL, com subpasta BRAZIL CHEMISTRY ................................................. 86

Figura 4: brazil_chemistry_1 em txt .......................................................................................... 86

Figura 5: Texto US_soc_scie_linguistics_5.txt após limpeza automática ................................. 87

Figura 6: Tela de abertura do WordSmith 6.0 ............................................................................ 89

Figura 7: Tela com a opção Choose Texts Now ......................................................................... 90

Figura 8: Inserção do corpus da pasta CLEAN NOTEPAD ....................................................... 90

Figura 9: Output estatístico da ferramenta WordList ................................................................. 91

Figura 10: Biber Tagger ............................................................................................................. 93

Figura 11: Biber Tag Count ....................................................................................................... 95

Figura 12: Planilha com o resultado obtido do Biber Tag Count ............................................... 96

Figura 13: Tela para inserção dos dados no SPSS ...................................................................... 97

Figura 14: Dados abertos no SPSS ............................................................................................. 97

Figura 15: Marcação das caixas Analyze, General Linear Models e Univariate ....................... 98

Figura 16: Marcação da dimensão 1 como variável dependente ............................................... 98

Figura 17: Marcação de país (origem) como fator fixo ............................................................. 99

Figura 18: Tela com Opções e Descriptive Statistics marcadas ................................................. 99

Figura 19: Tela com o resultado de Univariate e R² na dimensão 1 ........................................ 100

Figura 20: Tela com o resultado de Univariate e R² na dimensão 1(continuação) .................. 100

xvi

RESUMO

Fundamentada teórico e medotologicamente na Linguística de Corpus e na

Análise Multidimensional, esta tese analisa um corpus de 900 artigos de pesquisa em

língua inglesa, escritos por pesquisadores de dez áreas, provenientes de nove diferentes

origens. Para tanto, a pesquisa se apoia em uma área da Linguística Aplicada que vê a

língua como um sistema probabilístico e para cujos estudos são utilizados ferramentas

computacionais e corpora. A Análise Multidimensional é uma abordagem baseada em

corpus para o estudo de dimensões de variação que usa procedimentos estatísticos para

identificar relações entre traços linguísticos e registros em grandes quantidades de

textos. A metodologia incluiu a compilação de um corpus de estudo (Corpus of English

Research Articles – CERA), composto de artigos coletados por meio da internet, que

envolveu processamento do texto e análises por origem e área de estudo. A partir do

mapeamento nas cinco dimensões de variação de Biber (1988), o resultado das análises

por origem e área mostra que o corpus é composto por artigos cujos traços os situam

nos seguintes polos: 1) produção informacional, 2) preocupação não-narrativa, 3)

referências explícitas, 4) persuasão não-explícita e 5) informação abstrata.

Palavras-chave: Linguística de Corpus; Análise Multidimensional; Artigos de

Pesquisa.

xvii

ABSTRACT

This dissertation describes how a corpus of 900 research articles written in

English by researchers of 10 fields of study and nine different origins is mapped onto

the dimensions of variation proposed by Biber (1988). Its theoretical and

methodological underpinnings are provided by Corpus Linguistics and

Multidimensional Analysis. The former is an area in Applied Linguistics in which

language is seen as a probabilistic system and for whose studies computational tools and

corpora are used. The latter is a corpus based approach for the study of dimensions of

variations, which uses statistical procedures to identify relationships between linguistic

features and registers in large amounts of texts. The methodology included the

compilation of a corpus (Corpus of English Research Articles – CERA), which is

composed of articles collected using the Internet, its processing and analyses based both

on origin and field. The result of the analyses for both the origin and the field shows

that the corpus is composed of articles whose features characterize them in the 5

dimensions of variation proposed by Biber (1988) as: 1) being informational, 2) being

non-narrative, 3) having explicit reference, 4) having non-explicit persuasion, and 5)

having abstract information.

Keyworks: Corpus Linguistics; Multidimensional Analysis; Research Articles.

1

INTRODUÇÃO

Nas últimas décadas, a importância dada ao conhecimento de uma língua

estrangeira tem sido voltada de maneira especial para a língua inglesa. O conhecimento

da língua inglesa como língua estrangeira proporciona contemporaneamente mais

possibilidades de contato com pensamentos e ideias que surgem a cada dia, pois ela é o

meio usado para divulgação de grande parte do conhecimento mundial, em especial nas

áreas científicas e tecnológicas. Ademais, a constante internacionalização da pesquisa

aumenta a necessidade de domínio da escrita e da leitura em língua inglesa, o que

justifica o fato de muitos países terem feito dela a língua oficial ou a principal língua

estrangeira ensinada nas escolas (CRYSTAL, 2012).

A língua inglesa é usada por pesquisadores que buscam literatura, artigos,

pesquisas, manuais e livros das mais diversas áreas. Cada vez mais, também tem sido

usada por pesquisadores para publicação, em detrimento de publicações em suas línguas

nativas. Segundo Crystal (2009), a língua inglesa é a língua da ciência – o que faz com

que ela seja a mais utilizada em publicações científicas e técnicas. Publicar em inglês

proporciona ao autor maior divulgação de seu trabalho, pois ele encontrará um maior

número de leitores, tanto no modo impresso quanto no modo eletrônico.

De acordo com Hyland (2012), publicação internacional significa publicação

em inglês. O autor afirma que há uma tendência, que acadêmicos do mundo todo têm

seguido, de diminuição de publicações em suas línguas maternas e aumento de

publicações em inglês, o que resulta em maior número de citações de seus trabalhos.

Segundo Hyland (2012), referências a publicações em língua inglesa alcançaram 85%

em periódicos de ciências franceses e a língua inglesa compõe 95% de todas as

publicações no Science Citation Index1, Da mesma forma, Swales (2004) acrescenta que

muitos periódicos de primeira linha europeus e japoneses têm aderido à prática de

publicação de artigos em língua inglesa.

1Índice de citações inicialmente produzido para o Institute for Scientific Information. É parte do Science Citation Index Expanded, que engloba mais de 6.500 periódicos de renome e cobre 150 disciplinas.

2

Hyland (2012) afirma que o aumento do número de artigos escritos por

falantes não-nativos de inglês em grandes periódicos denota um movimento de

anglicização das publicações. O autor aponta que, em muitas universidades de prestígio

da China, doutorandos têm de ter pelo menos um artigo aceito por um periódico

internacional antes de completar o doutoramento. Ainda, segundo Hyland (2012), a

Academia Chinesa de Ciências complementa os salários de pesquisadores que publicam

em periódicos internacionais. Todavia, tendo em vista essa competitividade, há

periódicos com índices de rejeição de 93%.

Segundo Hyland (2012), vários fatores contribuem para o prestígio de um

periódico. Esses fatores englobam a editora, os membros do conselho editorial, os altos

índices de rejeição, a política de revisão às cegas por pares, o fácil acesso a leitores por

meio de distribuição internacional on-line rápida e, seguramente, o impact factor2.

Hyland acrescenta que, para muitos acadêmicos, é impossível não fazer parte

dessa rede global acadêmica traçada por publicações. A publicação está associada com

prestígio e com credibilidade e muitas universidades medem o valor de seus professores

de acordo com o número de publicações que eles produzem.

Segundo dados do jornal Folha de S. Paulo3, o Brasil não tem nenhuma

universidade no rol das 200 melhores do mundo. Além disso, de acordo com a lista de

2014 do Times Higher Education (THE)4, a Universidade de São Paulo (USP), única

universidade brasileira que constava na seleta lista desde 2011, passou do 158º lugar em

2013 para um grupo que vai do 226º ao 250º. Na lista do THE, a Universidade de

Campinas (Unicamp) também perdeu posições. Ela estava entre 251º e 275º e passou

para o grupo entre 301º e 350º em 2014.

2 Fator de impacto é a medida que reflete o número médio de citações de artigos científicos publicados em determinado periódico. O ranking dos periódicos pode ser encontrado no endereço http://thomsonreuters.com/products_services/science/science_products/a-z/isi_web_of_knowledge/, da Science Citation Index (SCI), que lista os melhores 3.700 periódicos, de 100 disciplinas.

3 Edição de 4.out.2014.

4 Publicação anual britânica desenvolvida pela Thomson Reuters e divulgada desde 2004.

3

A avaliação do THE é baseada em cinco itens principais, a saber: pesquisa,

ensino, citações, inovação tecnológica e internacionalização. De acordo com a Folha de

S. Paulo, o editor do THE informou que a baixa internacionalização das instituições

brasileiras é um dos principais pontos fracos que conferem o resultado que elas

alcançaram. O editor declarou que isso é negativo para o Brasil, na medida em que um

país com tal tamanho e poder econômico precisa de universidades competitivas.

Ainda segundo o jornal, a USP perdeu posições nos itens pesquisa, ensino e

citações, enquanto a Unicamp perdeu em pesquisa, ensino e internacionalização.

Percebe-se a importância da internacionalização, pois a citação de artigos acadêmicos

garante 30% da pontuação atribuída à universidade. Assim, no caso do Brasil, a

quantidade de citações de artigos científicos por outros pesquisadores cai se os trabalhos

estiverem em português.

O editor do THE declarou que, a exemplo de muitos países que já usam a

língua inglesa no meio acadêmico, é necessário o incentivo ao uso do inglês na sala de

aula. Em resposta, a USP declarou investimentos em internacionalização e a Unicamp

diz discordar dos critérios de avaliação.

Para ter seu artigo publicado, o pesquisador precisa ter conhecimento do

conteúdo e das metodologias de uma área específica. Conseguir esse feito requer um

aprendizado, pois o artigo precisa ter ideias e formas de argumentação estruturadas de

modo a torná-las familiares e apropriadas para o leitor.

Essas exigências assustam os falantes não-nativos de inglês que, por

insistência das editoras, têm seus textos submetidos à avaliação de falantes nativos e

revisores para correção da escrita antes de serem aceitos para publicação. Hyland

argumenta que essa dificuldade não é comum apenas aos falantes não-nativos de inglês,

já que o inglês acadêmico não é a primeira língua de ninguém. Para Swales (2004), é

uma questão de experiência. Segundo o autor, há autores mais experientes, que

conhecem os caminhos da escrita acadêmica, e outros menos experientes, que terão

mais dificuldades até terem seus artigos publicados.

No entanto, em países não-anglófonos, muitos pesquisadores apresentam

4

notória limitação quanto ao uso da língua inglesa. Dessa forma, o pesquisador que não

detém o conhecimento da língua inglesa em nível de escrita acadêmica se depara com

dificuldades para redigir um texto em inglês. Muitas vezes, esses pesquisadores buscam

o serviço de tradutores, especialistas que levarão à língua-alvo, no caso o inglês, o texto

fonte em português ou em outra língua. O desconhecimento do funcionamento de

qualquer língua em nível acadêmico pode atrasar o sucesso de uma carreira.

Segundo Mauranen (2014), no âmbito da escrita acadêmica, há um

desequilíbrio de poder. Periódicos concentrados nos Estados Unidos e no Reino Unido

geralmente colocam critérios básicos para publicação. Esses critérios vão além da

gramática correta e estilo retórico. É exigido que a escrita acadêmica em inglês seja

semelhante à escrita de um nativo (native-like English).

De acordo com Hyland (2012), a escrita para publicação apresenta desafios

que intimidam todos os acadêmicos, em especial no clima competitivo atual, quando

algumas áreas de estudo apresentam rejeição de mais de 90% das submissões. Essa

dificuldade, que não é comum apenas a pesquisadores brasileiros, é maior para autores

não-nativos, conforme mostram estudos. Hyland (2012) relata que há pesquisadores

espanhóis que recorrem à tradução do espanhol quando da revisão de seus artigos para

publicação. Dificuldade semelhante é encarada por pesquisadores chineses. Segundo o

mesmo autor, acadêmicos de Hong Kong dizem se sentir em desvantagem em relação

aos seus colegas falantes nativos do inglês. Da mesma forma, Gosden (1995), apud

Hyland (2012), relata a dificuldade de pesquisadores japoneses e descreve o caso de

uma pesquisadora nipônica que, orientada por um supervisor, um editor e um revisor,

reescreveu seu trabalho seis vezes, perfazendo um total de 320 alterações, para que ele

fosse aceito para publicação.

Hyland (2012) concorda com Swales, que afirma que a escrita acadêmica é

difícil para qualquer autor iniciante, independentemente de qual for sua língua materna.

Segundo Hyland (2012), os textos de não-nativos são enviados para revisões, que

consistem em trabalhar as metas retóricas, como estrutura e vocabulário específicos da

área. Dessa forma, ele atenderá melhor as necessidades do leitor, com mais facilidade

5

de leitura e adequação de conteúdo.

Devido à necessidade de se descrever o artigo acadêmico de modo aceitável,

apresento esta pesquisa, que tem como meta levantar as dimensões de variação do artigo

acadêmico em um corpus composto por artigos de dez áreas de estudo, escritos em

língua inglesa, por autores de nove diferentes origens. Assim, faz-se necessário

antecipar que dimensão, conceito usado na Análise Multidimensional, é um conjunto de

traços que subjazem a um corpus (BERBER SARDINHA, 2000b), como será visto em

maior detalhe a seguir.

A Linguística de Corpus alicerça a base teórica deste estudo. Assim, este

estudo compartilha de algumas características que são comuns aos trabalhos do âmbito

da Linguística de Corpus. De acordo com Berber Sardinha (2004a), tais trabalhos são

empíricos e utilizam grande número de textos naturais, coletados de maneira criteriosa –

o corpus, que serve de objeto para a análise, realizada com o auxílio do computador e

de programas automáticos e interativos. Segundo o mesmo autor, esses trabalhos

analisam padrões reais da linguagem em textos naturais.

Este trabalho usa a abordagem da Análise Multidimensional, que descreve a

relação entre uma gama completa de registros em uma língua (BIBER, 2006). Neste

caso, a Análise Multidimensional será empregada para a descrição do artigo acadêmico,

o registro em questão, no que tange a seus múltiplos parâmetros linguísticos de

variação. Ela também permite fazer uma comparação desse registro quanto as nove

diferentes origens dos autores e as dez áreas de estudo.

JUSTIFICATIVA

A Sociedade Brasileira para o Progresso da Ciência (SBPC) discutiu

recentemente a necessidade de proficiência em língua inglesa por parte do pesquisador

brasileiro. Em um debate intitulado “Oportunidades e desafios da internacionalização da

ciência brasileira”, ocorrido em novembro de 2013, a presidente da SBPC, Helena

Nader, alertou sobre um dos gargalos à internacionalização. Nader disse que as

6

universidades precisam mudar e o brasileiro precisa falar bem o inglês, que é a língua

internacional (SBPC, 2013).

Para participar dessa cooperação internacional por meio da publicação, é

aconselhável que pesquisadores brasileiros aprimorem a escrita acadêmica para que

seus artigos sejam aceitos em periódicos com visibilidade internacional. Segundo

aponta Mauranen (2014), para tais periódicos são necessários artigos que apresentem

padrões equiparáveis àqueles escritos por falantes nativos. Assim, são esperados artigos

com estrutura, padrão e léxico comparáveis aos textos escritos por pessoas que sejam

proficientes em língua inglesa – em particular, na escrita acadêmica. De acordo com

Mauranen (2014), seguindo o critério adotado pelo periódico em que o artigo será

publicado, o texto precisa estar em conformidade com um modelo, britânico ou

americano, de escrita.

Essas informações são corroboradas por Burrough-Boenisch (2011), que

afirma que acadêmicos não-nativos precisam atentar para a forma de inglês que usarão,

ao submeter artigos a periódicos americanos ou britânicos. Os artigos precisam seguir

não somente o estilo requisitado (grafia, pontuação e tipografia) pelo periódico e pela

editora, mas também precisa ter a variação de inglês usado pelo periódico. A autora

menciona, por exemplo, o New England Journal of Medicine, que usa o inglês

americano, e o British Medical Journal, cuja variação é a britânica. Segundo autora, os

manuais padrões de copidesque usados para as convenções do inglês britânico e

americano são, respectivamente, o Ritter e o University of Chicago Press. No entanto,

ela acrescenta, existem também outros guias para áreas específicas, como o Modern

Humanities Research Association e o Council of Science Editors.

O conhecimento aprofundado do funcionamento do artigo acadêmico em

inglês, que é justamente o que esta pesquisa intenta revelar, pretende ser uma

ferramenta que irá contribuir para o pesquisador brasileiro melhorar sua escrita de

artigos acadêmicos em inglês e, consequentemente, ter maiores chances de serem

aceitos por periódicos internacionais indexados.

Contribuem para esse conhecimento pesquisas em Linguística de Corpus e

7

Análise Multidimensional que descrevem o registro acadêmico, como Biber et al.

(2002b), que examinaram a linguagem comumente encontrada no ambiente

universitário, como aulas ministradas, atendimento ao aluno por parte do professor e

grupos de estudo. Biber & Conrad (2009), em cujo livro os autores descrevem os mais

importantes tipos de textos em inglês e introduzem técnicas metodológicas que podem

ser usadas para analisá-los e descrevê-los, sob a perspectiva de registro, gênero e estilo.

Os trabalhos de Cao & Xiao (2013), cujo estudo com Análise Multidimensional

examina as variações textuais entre resumos de 12 áreas de estudo escritos por

pesquisadores nativos (ingleses) e não-nativos (chineses), e de Gray (2013), que usou a

Análise Multidimensional para analisar a variação no uso de 70 traços lexicais e

gramaticais em 270 artigos de três sub-registros, também vêm contribuir para esse

conhecimento.

Todavia, o tema específico deste estudo parece não ter sido contemplado.

Tendo em vista o panorama apresentado, pode se dizer que há uma lacuna referente à

escrita acadêmica relativa à definição da origem dos autores. Isto é, para este estudo,

definiu-se como conceito de origem o local de nascimento e trabalho do autor.

A pesquisa com foco na origem pode elucidar questões de semelhanças e / ou

diferenças entre países e áreas sobre as quais os autores publicam. No entanto, não há

pesquisa, a partir de uma perspectiva de corpus, sobre características linguísticas de

artigos científicos escritos em inglês por pesquisadores brasileiros, que abranja as

grandes áreas de estudo. Isto é, não foram encontradas pesquisas baseadas em corpus

para descrever elementos linguísticos – como adjetivos, advérbios, verbos e

substantivos – presentes em textos acadêmicos escritos por brasileiros. Esta pesquisa,

portanto, buscará preencher essa lacuna.

Esta pesquisa tem como arcabouço teórico-metodológico a Linguística de

Corpus e, mais especificamente, a Análise Multidimensional, pois enxerga na

problemática da escrita acadêmica a questão da variação inerente aos textos, às áreas e

aos autores, com suas respectivas origens. Dessa forma, esta pesquisa se inscreve no

âmbito da Linguística Aplicada, pois ela trabalha questões sociais, como produção

8

acadêmica, origens, ascensão social, entre outras, em que a linguagem desempenha um

papel central.

Este estudo de corpus se justifica, pois ele propicia a observação de aspectos

morfológicos, sintáticos, semânticos e discursivos presentes no Corpus of English

Research Articles (CERA), visando contribuir de maneira original para o campo de

pesquisas no âmbito de estudos de Linguística de Corpus em interface com a Análise

Multidimensional.

O estudo aqui proposto se insere no Grupo de Pesquisa de Análise

Multidimensional do Grupo de Estudos de Linguística de Corpus (GELC). A análise do

corpus eletrônico compilado para esta pesquisa permitiu identificar a linguagem das dez

áreas de estudo usada efetivamente em artigos acadêmicos escritos em inglês por

pesquisadores brasileiros e de oito diferentes origens. Com essa análise, foi possível

descrever a partir do mapeamento dos artigos acadêmicos nas dimensões de Biber

(1988), os padrões de uso de natureza léxico-gramatical e as dimensões de variação

subjacentes ao registro artigo acadêmico.

Para Biber et al. (2002b, p. 10), “registro é um termo geral que abrange

qualquer variedade de linguagem definida em termos situacionais, incluindo o propósito

do interlocutor na comunicação, o tópico, a relação entre o interlocutor e o ouvinte, o

modo escrito ou falado, e as circunstâncias de produção” 5 (tradução minha; grifo dos

autores).

Segundo Biber et al. (1998), a abordagem baseada em corpus vem possibilitar

pesquisas de uso da língua que não podem ser baseadas em intuições ou em episódios

de uso. Dessa forma, os autores explicam que a abordagem baseada em corpus difere de

outras abordagens analíticas em linguística. Análises baseadas em corpus apresentam

características essenciais, como: o empirismo, o uso de computadores para análise por

meio de técnicas automáticas e interativas de padrões reais em textos naturais. Essas

5 No original: “The term register here is a cover term for any language variety defined in situational terms, including the speaker’s purpose in communication, the topic, the relationship between speaker and hearer, spoken or written mode, and the production circumstances”.

9

análises dependem tanto de técnicas analíticas qualitativas quanto de técnicas analíticas

quantitativas. Os autores enfatizam que sem o uso de computadores, que permitem

analisar grandes bancos de dados, a execução desse tipo de análise seria impossível.

De acordo com Biber et al. (1998), os estudos de uma língua podem ser sobre

duas áreas principais: sua estrutura e o seu uso. Eles dizem que, tradicionalmente, a

linguística tem o foco na estrutura. No entanto, eles explicam que, diferentemente de

querer descrever semelhanças e diferenças entre estruturas gramaticalmente corretas que

têm o mesmo significado, o foco no uso questiona quando e em qual contexto elas são

usadas. Eles sugerem que estudos com ênfase no uso podem investigar se a escolha de

um uso em detrimento de outro é mais comum na escrita, na fala, ou em um contexto

específico. Eles sugerem que, se bem explorado, um corpus pode mostrar muito sobre o

uso da linguagem.

Desse modo, este trabalho pretende contribuir de maneira original para a área

de escrita acadêmica em inglês. Para tanto, a pesquisa fundamentar-se-á, do ponto de

vista teórico-metodológico, na Linguística de Corpus (BERBER SARDINHA, 2004a) e

na Análise Multidimensional. A primeira “ocupa-se da coleta e da exploraçao de

corpora, ou conjunto de dados linguísticos textuais coletados criteriosamente, com o

propósto de sevirem para a pesquisa de uma língua ou variedade linguística” (BERBER

SARDINHA, 2004a, p. 3). A Análise Multidimensional (AMD), por sua vez, pode ser

definida como uma abordagem metodológica que identifica, a partir de análise

quantitativa / empírica, os padrões frequentes de coocorrência linguística numa língua

(BIBER, 2010).

Este estudo, composto por 900 artigos de dez diferentes áreas de estudo e de

nove origens é relevante para que sejam conhecidos seus padrões linguísticos, em

especial aqueles escritos por brasileiros. Espera-se que haja uma variação, daí a inclusão

de oito origens, além do Brasil, nessa pesquisa, o que possibilita comparar e descrever

se os traços observados nos artigos escritos por brasileiros são específicos de autores

dessa origem ou não.

Da mesma forma, será possível observar se são traços específicos de cada área

10

de estudo, independentemente da origem. Vale acrescentar que isso corroboraria o que

Biber et al. (2002b) pontuam sobre a grande gama de diferenças linguísticas que podem

ocorrer em textos de um mesmo registro:

Devido ao fato de que registros são definidos em termos situacionais e não linguísticos, textos de um

mesmo registro podem ter grandes diferenças linguísticas. Alguns registros, como documentos oficiais, são muito

uniformes em suas características linguísticas; textos de outros registros, como ficção, podem ser bastante

diferentes em termos de características linguísticas.6 (BIBER ET AL., 2002b, p. 10)

Finalmente, este estudo tem uma justificativa pessoal, despertada a partir da

experiência como professor de língua inglesa no Instituto Federal do Espírito Santo

(Ifes), campus Vitória. Era evidente a dificuldade que muitos têm com a produção de

artigos em inglês. Frequentemente, colegas de trabalho, professores do campus onde eu

leciono, vinham a mim com artigos escritos por eles em inglês e me pediam para revisá-

los. Alguns escreviam em português e pediam para que eu “passasse para o inglês”.

Outros professores de inglês do campus também eram abordados com pedidos

semelhantes.

Com o objetivo de atender a essa demanda por parte dos servidores dos 17

campi que compõem a rede, o Ifes lançou recentemente um edital (cf. Anecxo 1) que

contempla a submissão de artigos em duas modalidades. Eles podem ter sido escritos

em português e serão traduzidos para o inglês. Ou, se estiverem escritos em inglês, esses

artigos serão revisados. A instituição faz algumas exigências quanto à submissão dos

artigos que passarem pelo processo. O não-cumprimento pode acarretar na devolução

do valor investido à instituição pelo servidor. Essa pressão demonstra, inclusive, um

interesse por parte da instituição em participar do processo de internacionalização da

pesquisa.

6 No original: “Because registers are defined in situational rather than linguistic terms, texts from the same register can have extensive linguistic differences. Some registers, like official documents, are very consistent in their linguistic characteristics; texts from other registers, like fiction, can be very different in their linguistic characteristics”.

11

OBJETIVOS E PERGUNTAS DE PESQUISA

Objetivo geral

Esta pesquisa objetiva descrever, a partir do mapeamento nas dimensões de

variação de Biber (1988), 900 artigos acadêmicos em língua inglesa escritos por

pesquisadores de dez áreas de estudo e de nove diferentes origens.

Objetivos específicos

Descrever, a partir do levantamento das dimensões de variação do artigo de

pesquisa acadêmica, como as dez áreas de estudo que compõem o corpus se

assemelham ou diferem entre si quanto às cinco dimensões de variação do inglês

propostas por Biber (1988), e como as nove diferentes origens dos autores se comparam

quanto às dimensões de variação de Biber (1988).

Perguntas de pesquisa:

1. Como essas áreas diferentes de conhecimento se comparam quanto às

dimensões do inglês propostas por Biber (1988)?

2. Como as diferentes origens dos autores se comparam quanto às dimensões

propostas por Biber (1988)?

Esta tese está organizada da seguinte forma: no capítulo 1, é feita uma

discussão contextualizada sobre o uso do artigo acadêmico. No capítulo 2, a

fundamentação teórico-metodológica é apresentada com uma breve revisão da literatura

que destaca pesquisas em Linguística de Corpus e, especificamente, aquelas que

utilizam a Análise Multidimensional. No capítulo 3, que trata da metodologia, o corpus

de estudo é apresentado, assim como os programas de computador usados nesta

pesquisa e os passos que foram tomados para a execução deste trabalho. O capítulo 4

apresenta os resultados da pesquisa, seguido de uma discussão ilustrada com exemplos

retirados dos artigos que compõem o corpus, de acordo com suas diferentes origens e

áreas, nos termos das dimensões de variação estabelecidas por Biber (1988).

12

1. CONTEXTUALIZAÇÃO

Nesta seção, são apresentadas informações sobre a internacionalização da

pesquisa e a necessidade da produção acadêmica na língua inglesa por parte de

pesquisadores não-nativos. Há uma breve apresentação de indexadores e como eles

interferem no ranking de classificação dos periódicos internacionais e nacionais.

O desenvolvimento científico do Brasil passa pela formação de profissionais

que precisam fazer intercâmbio de informações, pesquisas e estudos. Esse intercâmbio

está inerentemente ligado a recursos linguísticos em português e em outras línguas,

notadamente o inglês.

É fato que a internacionalização das pesquisas tem como ferramenta a língua

inglesa, que é a mais utilizada academicamente. As razões políticas, amplamente

discutidas em Lacoste & Rajagopalan (2005) e Crystal (2012), que elevaram a língua

inglesa a esse patamar, fogem do escopo deste trabalho. No entanto, vale ressaltar que

dados do portal SCImago Journal & Country Rank, que inclui indicadores científicos de

periódicos e de países gerados a partir de informações contidas no banco de dados

Scopus, apontam os Estados Unidos como país com o maior número de publicações

científicas7.

Segundo Pinto e Andrade (1999), a partir dos anos 1960 surge a

cienciometria, área do saber que trata da análise de aspectos referentes à geração e

difusão de informações científicas. Essa ciência tem como principal ferramenta os

índices bibliométricos, que são obtidos a partir de bancos de dados onde estão

armazenados e catalogados grande parte da produção científica mundial. O Institute for

Scientific Information (ISI) é o organizador de um dos principais bancos de dados com

essa especialidade.

Esses números podem ser vistos no Quadro 1, a seguir, que abrange dados de

1996 a 2007. O endereço eletrônico não fornece uma lista mais recente. Optei por listar

apenas os 20 primeiros países, da extensa lista de 238, por uma questão de espaço. O

7 SCImago Journal & Country Rank. Disponível em www.scimagojr.com/. Acesso em 16 dez. 2012.

13

original, com os países e os itens em língua inglesa, encontra-se no Anexo 2.

País Documentos Documentos citáveis Citações Auto-

citações Citações por documentos Índice H

Estados Unidos 7.063.329 6.672.307 129.540.193 62.480.425 20,45 1.380

China 2.680.395 2.655.272 11.253.119 6.127.507 6,17 385

Reino Unido 1.918.650 1.763.766 31.393.290 7.513.112 18,29 851

Alemanha 1.782.920 1.704.566 25.848.738 6.852.785 16,16 740

Japão 1.776.473 1.734.289 20.347.377 6.073.934 12,11 635

França 1.283.370 1.229.376 17.870.597 4.151.730 15,6 681

Canadá 993.461 946.493 15.696.168 3.050.504 18,5 658

Itália 959.688 909.701 12.719.572 2.976.533 15,26 588

Espanha 759.811 715.452 8.688.942 2.212.008 13,89 476

Índia 750.777 716.232 4.528.302 1.585.248 7,99 301

Austrália 683.585 643.028 9.338.061 2.016.394 16,73 514

Federação Russa 586.646 579.814 3.132.050 938.471 5,52 325

Coreia do Sul 578.625 566.953 4.640.390 1.067.252 10,55 333

Países Baixos 547.634 519.258 10.050.413 1.701.502 21,25 576

Brasil 461.118 446.892 3.362.480 1.151.280 10,09 305

Taiwan 398.720 389.411 3.259.864 790.103 10,41 267

Suíça 395.703 377.016 7.714.443 1.077.442 22,69 569

Suécia 375.891 361.569 6.810.427 1.104.677 20,11 511

Polônia 346.611 339.712 2.441.439 652.956 8,25 302

Turquia 306.926 291.814 1.935.431 519.675 8,24 210

QUADRO 1: PAÍSES E NÚMERO DE CITAÇÕES. FONTE: SCIMAGO JOURNAL & COUNTRY RANK, DISPONÍVEL EM HTTP://WWW.SCIMAGOJR.COM/INDEX.PHP.

O conhecimento dos índices bibliométricos, como o índice H e os índices

qualis, é relevante para o pesquisador brasileiro que almeja publicar em grandes

14

periódicos. Assim parece ser necessária uma breve introdução sobre esses itens que,

quanto mais altos, indicam a maior visibilidade do periódico. Os índices acima – índice

H e índices qualis – são usados para aferir, respectivamente, o impacto de periódicos

estrangeiros e os periódicos brasileiros no Brasil.

Segundo Chizzotti & Ponce (2010), a biliometria e a cientometria são meios

que surgiram para mensurar a produção de científica. A “bibliometria extrai o volume e

o entrelaçamento dos textos citados, infere o desenvolvimento de um campo científico,

enuncia o estágio das publicações e a autoria das contribuições dadas em uma área de

investigação” (CHIZZOTTI & PONCE, 2010, p. 7). A cienciometria, por sua vez, mede

a relevância de periódicos em dada área de conhecimento.

A partir dessas informações, chegarmos ao foco dessa seção, que são os

pesquisadores brasileiros. Também são apresentadas algumas iniciativas tomadas por

instituições brasileiras, que visam atender à necessidade de melhorar a escrita

acadêmica em inglês de pesquisadores brasileiros.

Para uma melhor leitura da tabela, os itens que a compõem são apresentados

seguindo a explicação disponível na fonte. Os itens contemplados na tabela são country

(país), documents (documentos publicados), citable documents (documentos passíveis

de citações, como artigos, revisões e trabalhos apresentados em conferência, citations

(citações), self-citations (autocitações do país de documentos publicados), citations per

document (média de citações por documentos publicados) e H index – índice H, que

corresponde ao número (h) de artigos do país que receberam ao menos um número h de

citações.

O índice H foi criado por Jorge Hirsch, um físico argentino e professor da

Universidade da Califórnia (MARQUES, 2013). O índice H apresenta vantagens e

limitações. Entre as principais vantagens, Marques (2013) cita o fato de esse indicador

combinar quantidade e qualidade de maneira objetiva em um só indicador. Ele também

pode ser obtido por qualquer pessoa que acesse uma base de dados, como a Web of

Science, que é um portal que permite o acesso a várias bases de dados de referência

bibliográfica. Entre essas bases, se destacam Web of Science, Current Contents Connect

15

e Journal Citation Reports.

Quanto às limitações, o índice H não serve para fazer comparações entre

pesquisadores de disciplinas diferentes, uma vez que o volume de citações varia de

acordo com o tamanho de cada comunidade. Outra limitação é o fato de ele poder ser

manipulado através de autocitações. Adicionalmente, no cálculo do índice H livros e

artigos têm o mesmo peso, o que torna difícil comparar a produção de pesquisadores de

áreas com diferentes culturas de publicação. O autor cita, por exemplo, que, em

humanidades, é costume que resultados de pesquisas sejam publicados em livros, o que

diminui a quantidade de artigos publicados nessa área. Marques (2013) também aponta

que o índice não distingue entre um artigo de um só autor e um de múltipla autoria. No

último, a participação individual é de difícil avaliação.

De acordo com Chizzotti & Ponce (2010), no Brasil, a Coordenação de

Aperfeiçoamento de Pessoal de Nível Superior (CAPES) desenvolveu sua própria

metodologia de avaliação, com início em 1978, para os programas de pós-graduação. A

partir de 1998, com a ampliação da pós-graduação nacional, a CAPES adotou um

sistema de avaliação trienal, que leva em consideração a produção dos programas e de

seu corpo docente. A fim de qualificar a produção científica dos programas de pós-

graduação, a CAPES criou o programa Qualis. Trata-se de um conjunto de

procedimentos usados pela CAPES para estratificação da qualidade da produção

intelectual para classificação de periódicos, eventos e livros. Essa classificação objetiva

a elevação do padrão de qualidade técnica e científica das produções nacionais nas mais

diferentes áreas de pesquisa.

Em decorrência, a CAPES disponibiliza uma lista com a classificação desses

veículos que divulgam a produção dos referidos programas. Eles são aferidos pelo

Qualis, que enquadra os periódicos em estratos indicativos de qualidade. Essa

classificação é feita anualmente e os estratos começam em C, que tem peso zero, e

cresce até A1, o mais elevado. Os intermediários são, a partir do mais baixo, B5; B4;

B3; B2; B1; e A2.

Um estudo de Hirano (2009) sugere que, quando escrevem em inglês,

16

pesquisadores brasileiros usam o mesmo modelo de movimento da estrutura textual que

eles usam quando escrevem em português. A autora aponta que o conhecimento do

modelo CARS, proposto por Swales, de organização retórica usada na introdução da

maioria dos artigos de pesquisa, seria uma boa ferramenta pedagógica. Segundo a

autora, de posse desse modelo, o pesquisador brasileiro “pode estar em uma posição

melhor para fazer escolhas retóricas ao escrever em inglês”8. (HIRANO, 2009, p. 247;

minha tradução).

O modelo apresentado por Swales em 1990 é conhecido como CARS, do

inglês (Create a Research Space). Ele é composto por uma sequência retórica, que são

os movimentos e passos. No movimento 1, o autor estabelece o território da pesquisa. A

seguir, no movimento 2, o autor estabelece um nicho dentro do território. No

movimento 3, o autor ocupa o nicho que foi estabelecido. Em cada movimento existem

passos, conforme pode ser visto no esquema na Figura 1 a seguir, adaptado de Silva

(2004).

8 No original, em inglês: “…might be in a better position to make informed rhetorical choices when writing in English.”

17

Movimento 1 – Estabelecimento do território

Passo 1 reivindicação de centralidade;

e / ou

Passo 2 generalização sobre o tópico;

e / ou

Passo 3 revisão dos pontos de pesquisas anteriores.

|

Movimento 2 – Estabelecimento do nicho

A contra-argumentação;

ou

B indicação de falha;

Passo 1 ou

C levantamento de questionamentos;

ou

D continuação da tradição

|

Movimento 3 – Ocupação do nicho

A resumo dos objetivos;

Passo 1 ou

B apresentação da pesquisa;

Passo 2 apresentação dos principais achados;

Passo 3 indicação da estrutura do presente artigo.

FIGURA 1: O MODELO CARS. FONTE: SILVA (2004).

No entanto, ressaltamos que modelos de movimentos retóricos, como o

mostrado acima, não consideram as mesmas premissas da Linguística de Corpus. No

CARS, a quantidade de material é pequena e a análise é manual, o que contrasta com os

grandes corpora que são comuns em estudos de Linguística de Corpus. Sendo assim,

por se tratar de uma pesquisa em Linguística de Corpus, as análises não são feitas com

18

base no modelo CARS.

Conforme mostra a literatura apresentada aqui, o conhecimento da língua

inglesa para fins de escrita acadêmica tem sido abordado por vários autores. No entanto,

segundo a Scientific Electronic Library Online (SCIELO, 2014), o domínio da língua

inglesa ainda é um problema não solucionado. Editores qualificam artigos mal escritos

como um dos motivos mais recorrentes para rejeição. Para isso, há inúmeros serviços

profissionais de revisão e tradução de manuscritos em países cujo idioma nativo não é o

inglês.

De acordo com Salager-Meyer (2014), há dois grupos distintos de periódicos.

O primeiro é conhecido por mainstream, center, high-ranking ou elite9. Esses

periódicos são publicados em inglês, língua dos periódicos de maior prestígio, e são

indexados em um dos seguintes indicadores: Science Citation Index, Social Science

Citation Index e Arts and Humanities Citation Index, da Thomson Reuters.

O segundo é conhecido como peripheral ou small journals10, cujo nome não

está relacionado ao tamanho. As palavras “periférico” e “pequeno” aludem ao fato de

que esses periódicos são publicados em países periféricos, onde o meio de publicação

não é a língua inglesa. A maior parte deles não consta dos bancos de dados de

indexadores internacionais, como os mencionados no parágrafo anterior, ou outros

semelhantes.

Conforme relata Salager-Meyer (2014), a busca por maior visibilidade

internacional tem conduzido alguns periódicos periféricos, de países como México,

Rússia, Sérvia, Irã, Coreia do Sul e Brasil, a publicar em inglês. Outros passaram a ser

periódicos com publicações bilíngues, que apresentam edições com uma tradução

completa dos artigos publicados.

Salager-Meyer (2014) acrescenta que pesquisadores que não são falantes

nativos da língua inglesa enfrentam múltiplas dificuldades ao escrever um artigo em

9 Corrente principal, central, de alto nível e elite (minha tradução).

10 Periférico ou pequeno (minha tradução).

19

inglês para uma possível publicação em periódicos do tipo mainstream. São,

principalmente, dificuldades de cunho linguístico e discursivo. Entre essas dificuldades,

a autora menciona o baixo nível nas habilidades básicas de escrita acadêmica, as quais

incluem a habilidade retórica e argumentativa.

Além das barreiras linguísticas, a autora acrescenta que pesquisadores em

países em desenvolvimento enfrentam outras dificuldades, que abrangem problemas

locais comuns nessas regiões. Essas questões não fazem parte do cotidiano dos

pesquisadores de países ricos. Tais problemas vão desde a queda de energia elétrica,

conexão ruim de internet, pouco ou nenhum material bibliográfico e baixos salários.

Segundo a autora, com frequência, pesquisadores falantes não-nativos de

inglês precisam investir tempo e dinheiro a fim de produzir manuscritos que atendam as

expectativas de revisores e editores de periódicos de elite. No entanto, apesar desse

esforço e de gastos muitas vezes fomentados, é comum a frustração de terem seus

artigos rejeitados.

O fator de Impacto é um dos indicadores mais utilizados e aceitos na área

acadêmica. Esse indicador demonstra o número médio de citações de artigos científicos

publicados em um determinado periódico.

Laus (2004) discute a internacionalização da universidade e diz que projetos

de pesquisa internacionais são uma forma de realizar a internacionalização. Segundo a

autora, agências de fomento “buscam promover a integração dos grupos de pesquisas e

a paridade científica entre os cooperadores brasileiros e internacionais.” (p. 5)

De acordo com Pinto & Cunha (2008, p. 2.222), a internacionalização da

produção científica brasileira é medida pelos artigos produzidos no país que estão no

portal ISI Web of Knowledge:

que inclui os acessos ao Web of Science e ao Journal Citation Reports. Mais

recentemente vem ganhando espaço no País no meio acadêmico a base Scopus. O

conceito de internacionalização pode ser ampliado, por exemplo, para pesquisadores do

exterior que publicam seus artigos em revistas brasileiras. Talvez seja este atualmente o

critério mais importante para a definição de internacionalização da produção científica

20

brasileira.

Os crescentes intercâmbio e internacionalização de pesquisas acadêmicas, dos

quais o Brasil vem participando desde a década de 1990, tornam necessário que

estudantes e pesquisadores brasileiros publiquem cada vez mais em inglês. Isso se deve

ao fato de que, conforme mencionado, a língua inglesa é a língua da academia.

Segundo Paiva (2014), a internacionalização da pesquisa está associada à

internacionalização da pós-graduação. Um dos principais mecanismos para que a

internacionalização da pesquisa aconteça é a distribuição de bolsas de estudo para o

exterior.

Segundo dados da FAPESP (2013), o número de artigos científicos publicados

em inglês nos periódicos da Scientific Electronic Library Online - SciELO Brasil, que é

uma biblioteca eletrônica de artigos científicos em rede, superou o total de artigos

disponíveis em português. A agência tem feito esforços para aumentar a visibilidade e o

impacto internacional dos artigos publicados indexados na SciELO. De acordo com a

FAPESP (2013), a SciELO Brasil conta hoje com cerca de 270 revistas disponibilizadas

com acesso livre na internet.

Para ser incluído na SciELO Brasil11, o periódico deve aceitar os critérios para

admissão e permanência na Coleção. Esses critérios estão descritos no documento

“Critérios SciELO Brasil: critérios, política e procedimentos para a admissão e a

permanência de periódicos científicos na coleção SciELO Brasil”. O conteúdo da

Coleção é de acesso aberto e são textos completos de periódicos científicos brasileiros

de todas as áreas do conhecimento. São, predominantemente, artigos inéditos resultantes

de pesquisa científica original. A contribuição é avaliada por pares, que analisam

conteúdo e relevância dos artigos.

Ainda, de acordo com a FAPESP (2013), o esforço das sociedades científicas,

dos editores e das publicações tem contribuído de forma efetiva para aumentar a

quantidade de publicações em inglês. Como resultado, o número de artigos científicos

11 http://www.scielo.br/avaliacao/inclusao_pt.htm.

21

publicados em inglês nas revistas brasileiras da SciELO Brasil subiu de 38%, em 2007,

para 52%, em 2012. Da mesma forma, houve um crescimento de publicação de artigos

bilíngues – em português e inglês. As áreas com maior concentração de publicações

bilíngue são: a área da Saúde, que tem o maior número de publicações; em segundo

lugar, vem a área de Ciências Humanas.

O desempenho dos periódicos indexados na Rede SciELO, composta por

revistas brasileiras, da África do Sul e de outros 14 países ibero-americanos ainda é

baixo comparado ao desempenho de periódicos de países mais ricos. Aproximadamente,

90% desses periódicos têm fator de impacto abaixo da média em suas áreas nos índices

de referência internacional. De acordo com o coordenador do programa SciELO, ainda

existem muitos fatores que afetam o desempenho das coleções de periódicos da Rede

SciELO. Entre esses problemas, constam a qualidade e a relevância internacional das

pesquisas, o idioma de publicação e a baixa qualidade de artigos publicados em

colaboração com pesquisadores estrangeiros.

Algumas universidades brasileiras dispõem de programas que fomentam a

divulgação de pesquisas desenvolvidas por cientistas brasileiros. A Universidade

Estadual Paulista “Júlio de Mesquita Filho” (UNESP), por exemplo, tem o Programa de

Internacionalização da Pesquisa da UNESP. Esse programa busca fornecer subsídios

para que seus pesquisadores possam publicar em periódicos de maior prestígio. A

instituição reconhece que o inglês é o “idioma de uso preponderante na comunicação

entre pesquisadores. Publicar em outro idioma quase sempre implica menor visibilidade

na comunidade internacional.”

Segundo o Programa de Internacionalização da Pesquisa da UNESP,

“pesquisadores que conseguem publicar seus trabalhos nos periódicos de maior

prestígio ganham crédito junto às agências de fomento e projetam suas instituições de

origem no cenário científico internacional.”

Com o objetivo de estar inserida no contexto científico internacional, a

UNESP tem interesse que seus docentes publiquem em periódicos internacionais, para

uma maior visibilidade. Para isso, a estratégia da instituição é o financiamento de

22

versões de textos do português para o inglês e revisões de textos em inglês.

Porém muitos pesquisadores brasileiros têm deficiências que travam a

publicação de seus artigos. A questão tem sido discutida por cientistas brasileiros, como

Vasconcelos & Sorenson (2007), que defendem que as universidades brasileiras, a

exemplo de universidades estrangeiras, como as americanas e canadenses, mantenham

cursos de escrita acadêmica para todas as áreas.

Segundo Vasconcelos & Sorenson (2007), alguns cientistas brasileiros, como

o físico Fernando Lázaro, revisor de vários jornais internacionais, sugerem que as

universidades brasileiras contribuam com a fase de escrita e reescrita de manuscritos

para publicação, oferecendo cursos de escrita formal aos seus alunos de pós-graduação.

De acordo com Langoni (2010), o intercâmbio de experiências entre

estudantes de pós-graduação e professores de diferentes nacionalidades abre

perspectivas e dá aos participantes uma nova visão. Alguns órgãos de fomento

apresentam iniciativas para viabilizar a internacionalização da pesquisa. A Fundação de

Amparo à Pesquisa do Estado de São Paulo (FAPESP) tem como estratégia acordos de

cooperação com agências e / ou instituições científicas de diversos países, como

Alemanha, Canadá, Estados Unidos, França, México, Portugal, Reino Unido e Suíça. A

cooperação entre o Brasil e esses países permite aos pesquisadores brasileiros fazerem

intercâmbio e realizarem projetos conjuntos com pesquisadores estrangeiros.

Segundo Vasconcelos & Sorenson (2007), o periódico European Journal of

Epidemiology publicou um relatório com dados que demonstram a relação entre

financiamento de pesquisa, proficiência em língua inglesa e publicação em periódicos

médicos de renome. Segundo esses dados, países com alto investimento em

financiamento de pesquisas, mas com baixo escore no Test of English as a Foreign

Language (TOEFL) apresentam um nível relativamente baixo de publicação científica.

Os mesmos autores destacam que a Universidade Federal do Rio de Janeiro

(UFRJ) mantém um projeto relacionado à proficiência em inglês de cientistas brasileiros

e o tempo de publicação, que vai desde a primeira versão do artigo até sua aceitação

para publicação.

23

A ciência brasileira ganhou visibilidade nos últimos 25 anos, o que pode ser

visto no aumento do percentual de publicação do Brasil em periódicos indexados pelo

ISI, de 0,4% para 1,6% no período (VASCONCELOS & SORENSON, 2007). Os

autores afirmam que Conselho Nacional de Desenvolvimento Científico e Tecnológico

(CNPq) mantém um banco de dados, o qual sugere haver uma relação entre proficiência

em inglês escrito e publicações em periódicos internacionais. Nesse banco de dados

estão cadastrados 51.223 pesquisadores brasileiros.

A Universidade de São Paulo (USP), Campus São Carlos, mantém um portal

dedicado à escrita científica. Nele é possível encontrar um repositório de informações

destinadas a estudantes e pesquisadores interessados em aperfeiçoar a escrita científica

em português e em inglês. A USP mantém nesse portal um curso de escrita científica

que tem como um dos módulos a disciplina “Plain English, Escrever em Inglês”.

24

2. FUNDAMENTAÇÃO TEÓRICO-‐METODOLÓGICA

Esta é uma pesquisa de Linguística de Corpus (LC) que tem como foco a

análise da linguagem de artigos acadêmicos escritos em inglês. Por se tratar de uma

pesquisa que tem como objeto de estudo um extenso corpus, ela encontra na LC os

subsídios teórico-metodológicos que são necessários para sua execução. Ademais, ela

faz uma interface com a Análise Multidimensional (AMD), ao usar suas ferramentas de

investigação da linguagem. Esta seção está organizada da seguinte forma: começamos

com uma descrição do artigo acadêmico, que é o objeto desta pesquisa. A seguir,

apresentamos a definição e um breve histórico da LC, com destaque para alguns dos

autores importantes da área. Na sequência, apresentaremos alguns conceitos da palavra

corpus, bem como a sua tipologia. Depois, são apresentadas algumas ferramentas

comumente usadas na LC. Por fim, apresentamos a nomenclatura utilizada na LC. No

segundo momento, a Análise Multidimensional é definida, seguida por um breve

histórico. A seção é concluída com a definição de palavras que compõem o vocabulário

pertinente à AMD.

2.1 O ARTIGO ACADÊMICO

Na literatura, os termos artigo científico e artigo acadêmico são usados com o

mesmo significado. O conceito de artigo científico apresentado aqui foi proposto pela

Universidade Federal do Paraná (UFPR, 2000, v. 2). Segundo o manual de normas para

a apresentação de documentos científicos daquela instituição, artigo científico é um

trabalho técnico-científico, escrito por um ou mais autores, cuja finalidade é divulgar de

forma sintética estudos e resultados de pesquisa. A Associação Brasileira de Normas

Técnica (ABNT), com validade a partir de 30/06/2003, define artigo científico como:

“Parte de uma publicação com autoria declarada, que apresenta e discute idéias,

métodos, técnicas, processos e resultados nas diversas áreas do conhecimento” (ABNT,

2003).

Em Writing Scientific Research Articles, Cargill & O’Connor (2009) pontuam

que, ao escrever qualquer documento, é preciso pensar quem é o público ao qual ele se

destina. Acrescentam que, da mesma forma, para que um artigo seja eficaz e seja

25

publicado em periódicos internacionais, saber quem é o público-alvo é o primeiro passo

que o pesquisador deve tomar.

Melhorar a escrita acadêmica requer estratégias. De acordo com Hyland

(2007), o ponto de partida precisa ser a conscientização retórica e metalinguística do

autor. Ela precisa refletir sobre a maneira pela qual a língua é usada para comunicar a

pesquisa, independentemente de a língua de publicação do autor ser sua primeira língua

ou ser uma língua estrangeira. Ao preparar o texto para publicação, o primeiro leitor que

vem à mente do pesquisador são seus pares, ou seja, pessoas que trabalham em áreas

relacionadas à área do pesquisador e que querem conhecer os resultados de seus

estudos. Esses são, sem dúvida, o primeiro público. No entanto, há outro público, cujas

necessidades ou quesitos o autor deve atender para que seu artigo seja publicado: os

editores e revisores. Eles funcionam como filtros, ou “guardiões do portão”, que levam

à publicação. Essas pessoas são incumbidas de permitir que somente artigos que

atendam aos quesitos dos periódicos sejam publicados.

Visando preencher as exigências dos “guardiões” e obter sucesso, Cargill &

O’Connor (2009), sugerem ao pesquisador que este precisa conhecer muito bem as

expectativas dos dois públicos mencionados. Isso significa conhecer não somente o

conteúdo de cada seção de um artigo e sua apresentação, mas também as características

da língua inglesa que são comumente usadas para a apresentação do conteúdo.

Assim, os autores apresentam uma estrutura geral de artigos de pesquisa usada

nas ciências. Cargill & O’Connor (2009) dizem que o modelo segue um conjunto de

convenções que foram desenvolvidas ao longo dos anos desde 1665, quando a edição do

Philosophical Transactions12 surgiu na Inglaterra. A estrutura genérica convencional

12A Royal Society foi fundada em 1660 para promover a nova filosofia experimental da época, incorporando os princípios de sir Francis Bacon. Henry Oldenburg foi nomeado primeiro secretário (adjunto) da Royal Society e foi também o primeiro editor do periódico Philosophical Transactions, da Royal Society. Essa primeira edição do Philosophical Transactions surgiu em março de 1665 e apresentava correspondências de Oldenburg com cientistas europeus de ponta. Nos primeiros anos do periodico, Isaac Newton publicou dezessete artigos nele, incluindo seu primeiro artigo – New Theory about Light and Colours – que serviu efetivamente para lançar sua carreira científica em 1672 (disponível no endereço http://rsta.royalsocietypublishing.org/site/misc/about.xhtml; minha tradução).

26

para o artigo, que os autores chamam de AIMRaD, sigla em inglês para Introduction,

Materials and Methods, Results, and Discussions é representada por uma figura em

forma de ampulheta (hourglass), reproduzida abaixo:

(fonte: Cargill e O’Connor, 2009, p. 10)

FIGURA 1: MODELO DE ARTIGO AIMRAD

Os modelos de artigo científico contemplam basicamente os mesmos itens.

Ressaltamos que nem todo periódico segue o modelo de artigo científico proposto por

Cargill & O’Connor (2009), que contempla: resumo, introdução, métodos, resultados e

discussão, que interagem da seguinte forma:

(a) Toda a estrutura é regida pelos Resultados. Tudo no artigo deve

estar relacionado e em conexão com os dados e a análise apresentados na seção

Resultados.

(b1) A Introdução começa com um foco amplo. O ponto de partida

escolhido para a Introdução deve ser um que atraia o interesse do público-alvo,

que são os leitores internacionais de seu periódico-alvo.

(b3) A Introdução termina com um foco exatamente paralelo ao dos

Resultados; com frequência, trata-se de uma declaração sobre o propósito do

27

trabalho apresentado no artigo ou seus achados ou atividades principais.

(b2) Entre esses dois pontos, informações de fundamentação e

trabalhos anteriores são tecidas em conjunto para conectar de maneira lógica a

questão relevante com a abordagem selecionada no trabalho a ser apresentado

para abordar a questão.

(c) A seção de Metodologia ou similar estabelece credibilidade para os

Resultados, mostrando como eles foram obtidos.

(d) A Discussão começa com a mesma amplitude de foco que os

Resultados – mas termina com a mesma amplitude do ponto de partida na

introdução. No final, o artigo aborda as questões mais amplas que foram

levantadas no início, para mostrar como o seu trabalho é importante para o

“panorama geral”.

Os autores esclarecem que o modelo mostrado não serve para todos os artigos

de pesquisa científica. Assim, eles mostram dois outros modelos usados por dois

periódicos de grande impacto: Nature, do Reino Unido, e Science, dos Estados Unidos.

Cargill & O’Connor (2009) explicam que as propostas de ambos os periódicos é tornar

possível mostrar o avanço da ciência em modelos de artigos que sejam acessíveis para

cientistas que não são especialistas naquela área. Os autores advertem que esses são

periódicos que apresentam grande número de submissões. Consequentemente, há

bastante competitividade para publicação. Por conseguinte, não são recomendados para

cientistas iniciantes.

Tipicamente, o modelo de artigo usado pelos dois periódicos acima começa

com uma introdução cuidadosamente estruturada, apresentando informações gerais e a

fundamentação do trabalho para o vasto leque de leitores, seguida por um relato conciso

dos achados e uma breve discussão. A metodologia geralmente é resumida no artigo,

com um link para detalhes. Os detalhes completos sobre as estruturas exigidas por esses

periódicos podem ser encontrados em seus websites (CARGILL & O’CONNOR, 2009,

p.10-12).

Após apresentar modelos de artigos, Cargill & O’Connor discorrem sobre o

28

papel dos avaliadores (referees) de artigos para publicação e apresentam uma série de

perguntas que são típicas nos formulários de avaliação dos referees. As perguntas são

reproduzidas abaixo, em português (minha tradução).

A contribuição é nova?

A contribuição é significativa?

É adequada para ser publicada neste periódico?

A organização é aceitável?

A metodologia e tratamento dos resultados seguem padrões científicos aceitáveis?

Todas as conclusões estão solidamente embasadas nos dados apresentados?

O tamanho do artigo é satisfatório?

Todas as ilustrações são necessárias?

Todas as figuras e tabelas são necessárias?

As legendas das figuras e os títulos das tabelas estão adequados?

O título e o resumo indicam claramente o conteúdo do artigo?

As referências estão atualizadas, completas, e os nomes dos periódicos estão abreviados corretamente?

O artigo é excelente, bom ou pobre?

Além dos tópicos dos modelos mostrados acima e das perguntas usadas pelos

revisores avaliadores, Cargill & O’Connor (2009) apresentam em detalhes todas as

seções de artigos, com vários exemplos. Ao longo do livro, eles exploram também

recursos retóricos que podem ser aplicados aos artigos das ciências e dão explicações

gramaticais e sugestões de correção de estruturas inadequadas.

Pode-se observar, porém, que o item “língua” não é abordado diretamente em

nenhuma das 13 perguntas acima. No entanto, parece ser pertinente dizer que as

perguntas de número 6, 9, 10 e 12, permeiam, indiretamente, a língua usada na escrita

do artigo a ser avaliado. Entendemos que, por ser um quesito inerentemente essencial

para que um artigo seja aceito para publicação, a exigência do uso apropriado da língua

nem é tratada nos formulários de avaliação.

29

No Brasil, a submissão de um trabalho a um periódico também está sujeita às

normas referentes à formatação e conteúdo. Como exemplo, podemos citar duas revistas

quali A1: D.E.L.T.A.: Documentação de Estudos em Linguística Teórica e Aplicada13 e

Bakhtiniana: Revista de Estudos do Discurso14. Para publicação na D.E.L.T.A., os

trabalhos precisam ser contribuições inéditas, de caráter teórico ou aplicado referente ao

fenômeno linguístico. Também é dada preferência a trabalhos que contenham pesquisa

original, que poderão vir em forma de artigos, debates, questões e problemas.

Pesquisadores de quaisquer países são convidados a submeter seus trabalhos, os quais

serão avaliados anonimamente por dois membros do Conselho Editorial da revista. Os

trabalhos devem respeitar as normas de apresentação. São aceitos trabalhos escritos em

português, inglês, francês, espanhol ou italiano.

As orientações para os pareceristas de periódicos brasileiros parecem estar em

consonância com as recomendações apresentadas por Cargill & O’Connor (2009). Isso

pode ser observado na seção Instruções aos Pareceristas, do periódico Bakhtiniana. A

revista, que é uma publicação bilíngue (português / inglês) sugere aos pareceristas que

observem os seguintes aspectos, quando da avaliação e elaboração de pareceres:

Adequação do trabalho ao tema proposto;

Explicitação do objetivo do trabalho e coerência de seu desenvolvimento no texto;

Conformidade com a teoria proposta, demonstrando conhecimento atualizado da bibliografia relevante;

Originalidade da reflexão e contribuição para o campo de conhecimento;

Clareza, correção e adequação da linguagem a um trabalho científico.

Também um estudo de Cruz (2012) mostra a importância de o autor conhecer

os critérios para publicação em grandes periódicos, visto que serão esses critérios que

nortearão o papel dos avaliadores. A autora analisou os critérios estabelecidos por

revistas conceito A1, que indica prestígio nacional e internacional. No pedido de

13 ISSN 1678-460X.

14 ISSN 2176-4573.

30

avaliação, é solicitado aos pareceristas levar em consideração algumas questões, quais

sejam: “expressão clara do objeto do trabalho, cumprimento do objetivo proposto,

argumentação convincente, clareza e cumprimento dos pressupostos, consistência do

trabalho com a teoria proposta, bibliografia pertinente e a contribuição do trabalho”

(CRUZ, 2012, p. 79).

2.2 LINGUÍSTICA DE CORPUS

De acordo com Chapman & Routledge (2005), as pesquisas em linguagem por

meio de corpora podem ser consideradas uma herança advinda das ideias de estudos da

linguagem propostas pelo linguista britânico John Rupert Firth. Linguistas

contemporâneos de Firth, como Bloomfield, excluíam o “significado” dos estudos

linguísticos. A visão de Firth é contrária às ideias cartesianas de linguagem, como a

distinção entre langue e parole e competência e performance, propostas,

respectivamente, por Saussure (antes de Firth) e Chomsky (depois de Firth).

Chapman & Routledge (2005) esclarecem que o funcionamento da língua era

o interesse de Firth, para quem o estudo do significado e do contexto deveria ser o cerne

da Linguística. O linguista defendia que entidades fonológicas têm significado, pois elas

podem contrastar e se relacionar com outras entidades em determinados ambientes

fonológicos. Os autores esclarecem que, no âmbito do léxico, essa relação entre

entidades é realizada com o conceito da colocação, que Berber Sardinha (2005) define

como a “associação entre itens lexicais, ou entre léxico e campos semânticos” (p. 40).

Essa noção é um dos pilares da Linguística de Corpus.

As ideias de Firth sobre significado e contexto mudaram a visão sobre estudos

linguísticos. M. A. K. Halliday, seguidor de Firth, desenvolveu a Linguística Sistêmico-

Funcional (LSF) – uma teoria linguística baseada na observação da língua em uso, que

relaciona gramática, significado e discurso (HALLIDAY, 2004). Para esse teórico e

para Firth, o texto é uma unidade semântica.

Outro seguidor de Firth foi John McHardy Sinclair, que, de acordo com

Stubbs (2008), é considerado uma das figuras mais importantes na Linguística moderna,

aplicada e teórica. Para Sinclair, a língua é essencialmente lexical e formada por

31

unidades frasais, ao invés de palavras individuais.

Sinclair desenvolveu estudos de observação de padrões de linguagem

observados em corpora, que contribuíram para a lexicografia, a análise do discurso e o

ensino de ESP. Sinclair defendia que a língua tinha um caráter idiomático. O autor

sustentava que o significado não era inerente a uma única palavra. Ele buscava o

significado em unidades lexicais estendidas (duas ou mais palavras). De acordo com

Stubbs (2008), nos anos 60, em seus primeiros trabalhos de análise de corpus, Sinclair

estudou a relação entre colocações observáveis objetivamente e a sensação psicológica

do significado.

Um dos trabalhos mais significativos de Sinclair na Linguística de Corpus é o

OSTI Report (UK Government Office for Scientific and Technical Information),

conduzido em autoria com Jones e Daley. Stubbs (2008) informa que este relatório é

uma pesquisa quantitativa de dados de corpus que podem ser lidos por computador,

conduzida entre 1963 e 1969, que foi publicado em 2004.

Stubbs (2008) esclarece que o relatório, em conjunto com o projeto

Computational Analysis of Present Day American English (Brown Corpus), de Francis

& Kučera, traçou muitas das ideias usadas na Linguística de Corpus moderna. Eles

desenvolveram a teoria estatística de colocação, que estabelece que colocações são

evidências de significado. O projeto dos anos 60 estabeleceu questionamentos, como:

Quais tipos de padrão lexical pode ser encontrado no texto?;

Como a colocação pode ser descrita objetivamente?;

Qual tamanho de horizonte é relevante?;

Como que a evidência colocacional pode ser usada para estudar significado?

O autor (2008) acrescenta que, quanto aos princípios desenvolvidos pelo

projeto, estão15:

15 The unit of lexis is unlikely to be the word in all cases. Units of meaning can be defined via statistically defined units of lexis. Homonyms can be automatically distinguished by their collocations. Collocations differ in different text-types. Many words are frequent because they are used

32

É improvável que, em todos os casos, a unidade de léxico seja a palavra;

As unidades de significado podem ser definidas por meio de unidades de léxico definidas estatisticamente;

Hipônimos podem ser distinguidos automaticamente pelas suas colocações;

As colocações diferem em diferentes tipos de texto;

Muitas palavras são frequentes porque elas são usadas em frases frequentes;

Uma forma de um lema é regularmente muito mais frequente que as outras (o que coloca em dúvida o lema como unidade linguística).

2.2.1 Definição e premissas da Linguística de Corpus

De acordo com Bennett (2010), a Linguística de Corpus aborda o estudo da

língua em uso por meio de corpora. Os fundamentos da Linguística de Corpus existem

há quase um século, quando lexicógrafos começaram a coletar exemplos da língua em

uso para ajudar a definir palavras de maneira mais afinada no final do século 19

(BENNETT, 2010). No princípio, a coleta era, basicamente, feita em fichas de papel,

que eram armazenadas em escaninhos. A partir do uso do computador, essa coleta de

dados evoluiu para o que chamamos de corpora modernamente.

A Linguística de Corpus é a principal fundamentação teórica deste trabalho.

Ela pode ser definida como a área da Linguística que

“ocupa-se da coleta e da exploração de corpora, ou conjuntos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística.”

(BERBER SARDINHA, 2004a, p.3).

Segundo Berber Sardinha (2004a), pesquisas em Linguística de Corpus são

empíricas, possuem uma visão probabilística da linguagem e utilizam grande número de

textos naturais, coletados de maneira criteriosa, para serem analisados com o auxílio do

computador. Isso faz com que a Linguística de Corpus tenha grande influência na

pesquisa linguística em geral.

in frequent phrases. One form of a lemma is regularly much more frequent than the others (which throws doubt on the lemma as a linguistic unit).

33

Para o autor, trabalhos em Linguística de Corpus analisam padrões reais da

linguagem em textos naturais. Em virtude de trabalhar com dados reais utilizando

corpora eletrônicos, a Linguística de Corpus tem fornecido uma abordagem que

possibilita a observação de redes semânticas e campos lexicais, o que facilita o trabalho

do analista ao ter de manejar grande quantidade de dados.

O cerne da Linguística de Corpus é a noção de linguagem enquanto sistema

probabilístico, o que significa priorizar dados provenientes da observação da linguagem

natural. Assim, a Linguística de Corpus enquadra-se dentro do conceito formado pela

abordagem empirista, o que vai de encontro à visão da linguagem de forma racionalista.

Na visão de linguagem probabilística, traços linguísticos, apesar de serem possíveis

teoricamente, não ocorrem com a mesma frequência em uma dada linguagem, sendo

que “o mais importante da diferença de frequências entre os traços é não serem

aleatórias” (BERBER SARDINHA, 2000b, p. 351).

Berber Sardinha (2004a) aponta que a padronização da linguagem é

evidenciada por três conceitos, a saber: colocação, coligação e prosódia semântica.

Colocação, conforme descreve Hunston, é “a tendência de duas palavras coocorrerem,

ou a tendência de uma palavra atrair outra” (HUNSTON, 2002, p.68; tradução minha).

Coligação é a associação entre itens gramaticais e lexicais. A associação entre itens

lexicais e a conotação de campos semânticos, que pode ser positiva, negativa ou neutra

é chamada de prosódia semântica (BERBER SARDINHA, 2004a). Berber Sardinha

(2004a) diz que esses padrões apresentam regularidade, com frequências que podem ser

comparadas em corpora diferentes e variação sistemática (correlação com diversas

variedades textuais, dialetais, etc.).

Segundo o autor, existe uma variação sistemática de grupos de traços

linguísticos, não-aleatória, em relação a textos provenientes de situações comunicativas

específicas. Isso indica que há uma padronização da linguagem, que é evidenciada pela

recorrência. Isto é, colocações, coligações ou estruturas que se repetem de modo

significativo parecem ser, na realidade, padrões lexicais ou lexicogramaticais (BERBER

SARDINHA, 2004a).

34

Conforme pontuam Biber et al. (1998), uma abordagem baseada em corpus

serve para a identificação de padrões. Isso se deve ao fato de, nesse tipo de abordagem,

grandes volumes de dados linguísticos e fatores contextuais ou traços linguísticos são

analisados com a ajuda de computadores. De acordo com esses autores (1998), as

características essenciais de uma análise baseada em corpus são (p.4, minha tradução):16

– empírica, analisa os padrões reais de uso em textos naturais;

– usa uma grande coleção criteriosa de textos naturais, conhecida como

corpus, como base para a análise;

– faz uso extensivo de computadores para análise, usando tanto técnicas

automáticas quanto técnicas interativas;

– de técnicas tanto quantitativas quanto qualitativas.

Assim, o foco principal da Linguística de Corpus, que é revelar os padrões de

uso da língua de dados empíricos por meio de análise e, consequentemente, como a

língua se comporta, mostra-se fundamental para os estudos de linguagem. Em

decorrência, há um crescimento no número de pesquisas em Linguística de Corpus que

privilegiam as seguintes áreas de estudo, de acordo com Kennedy (1998), citado em

Berber Sardinha (2004b):

– Compilação de corpus;

– Desenvolvimento de ferramentas;

– Descrição da linguagem;

– Aplicação de corpora no ensino de línguas, no reconhecimento de voz, na

tradução, etc.

2.2.2 Breve histórico

Há vários trabalhos que fazem uma descrição da história da Linguística de

16 The essential characteristics of corpus-based analysis are: it is emprirical, analyzing the actual patterns of use in natural texts; it utilizes a large and principled collection of natural texts, know as a “corpus,” for the basis for analysis; it makes extensive use of computers for analysis, using both automatic and interactive techniques; it depends on both quantitative and qualitative analytical techniques.

35

Corpus. Parece ser consensual que nesse histórico constem os avanços da Linguística de

Corpus, propiciados pelo computador, conforme mostram alguns trabalhos de linguistas

de corpus resenhados a seguir.

Em Berber Sardinha (2000b), o autor celebra os 35 anos do Corpus Brown,

primeiro corpus eletrônico. Berber Sardinha fala de sua importância e seu lançamento,

sete anos após Chomsky apresentar “Syntactic Structures”17. É feita uma retrospectiva

da Linguística de Corpus, onde são discutidas questões teóricas e práticas. O autor parte

da compilação do corpus helenístico na Grécia Antiga, passa pela Idade Média e chega

ao século XX, quando pesquisas com corpora foram feitas pelo linguista Boas e

Thorndike. O último é um educador que compilou manualmente 4,5 milhões de

palavras e veio a mudar o ensino da língua materna e de línguas estrangeiras nos

Estados Unidos e na Europa.

Berber Sardinha (2000b) aborda a mudança no paradigma linguístico dos anos

1950: do gerativismo racionalista de Chomsky ao empirismo baseado em corpora.

Também é enfatizado que, à época, abordagens baseadas em corpora não eram muito

confiáveis, pois esses eram processados manualmente. Nos anos 1960, com os

computadores mainframe em universidades, isso começa a mudar e a Linguística de

Corpus passou a ter grande influência em pesquisa linguística na Europa. O mesmo não

ocorreu nos Estados Unidos, devido à forte influência do gerativismo.

De acordo com Haegeman (1995), uma hipótese adotada pelos gerativistas da

tradição chomskyana é a de que a gramática universal – um sistema com todos os

princípios que são comuns a todas as línguas humanas – é inata à espécie humana. A

gramática universal, base da linguística chomskyana é vista como um dom genético.

Nas palavras de Chomsky, “a gramática universal pode ser concebida como um sistema

de princípios, comum a espécie e disponível a cada indivíduo antes de sua existência”

17 Syntactic Structures é um trabalho seminal para a linguística do século 20, escrito pelo linguista americano Noam Chomsky. Ele é a base para seus estudos sobre gramática transformacional. Nesse livro, Chomsky usa a oração "Colorless green ideas sleep furiously" como exemplo de gramaticalidade, apesar de ela não fazer sentido.

36

(CHOMSKY, 1981 [1957], apud HAEGEMAN, 1995, p.13)18.

Ao discorrer sobre os avanços da Linguística de Corpus, Berber Sardinha

(2004b) descreve também um conjunto de ferramentas usadas na Linguística de Corpus,

sem as quais a área não teria crescido. O autor discute detalhadamente a terminologia da

Linguística de Corpus e questões inerentes a ela, como a visão racionalista da

linguagem (como possibilidade) de Chomsky, que é contrastada com a visão empirista

da linguagem (como probabilidade) de Halliday. Ademais, o autor defende que a

Linguística de Corpus tem afinidade com a linguística hallidayana. Ao discutir o

estatuto da Linguística de Corpus (se ela é disciplina ou metodologia), o sugere que o

termo ‘abordagem baseada em corpus’, cunhado por Biber é o preferido por linguistas

de corpus influentes.

Tognini-Bonelli também faz um histórico da Linguística de Corpus. Em

Theoretical Overview of the Evolution of Corpus Linguistics, Tognini-Bonelli (2010)

inicia explorando os pressupostos teóricos da Linguística de Corpus (LC). Ela afirma

que a LC está focada na performance e não na competência – a ênfase está no uso e não

nos universais linguísticos, o que a difere da linguística de Chomsky. Segundo a autora,

a ideia de corpus cresceu nos anos 1960 com os linguistas modernos, que se baseavam

nos linguistas de campo. Tinha foco nas interações linguísticas cotidianas, faladas e

escritas, de pessoas comuns. Segundo Tognini-Bonelli, o que influenciou o

desenvolvimento de corpora não foi o momento linguístico, mas sim a tecnologia.

A autora aponta que os trabalhos com computadores começaram com o Index

Thomisticus, de padre Busa (entre os anos 1950 e 1970). O Brown Corpus, da década de

1960, compilado na Universidade de mesmo nome, é o primeiro corpus eletrônico de

linguagem escrita e serviu de padrão por muitos anos. Com a invenção do gravador, foi

possível coletar dados falados.

Tognini-Bonelli (2010) acrescenta que, apesar de uma modesta propagação,

resultante de computadores lentos e com baixa memória, foi nos anos 1970 que os

18 Universal grammar may be thought of as some system of principles, common to the species and available to each individual prior to experience.

37

corpora se consolidaram. Não obstante as limitações da época, corpora com mais de

um milhão de palavras foram compilados. Os avanços vieram de países escandinavos,

que inspiraram linguistas de corpus por uma geração. A invenção do scanner

proporcionou novos avanços. Mais tarde, a digitalização de uma grande diversidade de

documentos e o advento da internet proporcionaram o surgimento de mais corpora. Para

a autora, nos anos 1990, o desenvolvimento quantitativo e metodológico pelo qual a

Linguística de Corpus passou se transformou em uma revolução teórica qualitativa.

McCarthy & O’Keeffe (2010) explicam o que são corpora e fazem um

histórico de como eles evoluíram. Segundo os autores, com a criação e difusão do uso

de computadores, o que era feito manualmente, consumindo bastante tempo, passou a

ser feito com mais prontidão e confiabilidade.

Os autores afirmam que os primeiros trabalhos feitos no século XIII, e

também em 1737 e 1890, foram feitos manualmente, consumindo anos e utilizando o

esforço de muitos monges. Para McCarthy & O’keeffe (2010), tais tarefas seriam feitas

em segundos por programas de concordância computadorizados de hoje. Os autores

pontuam que os primeiros dicionários, como A Dictionary of the English Language, o

primeiro da língua inglesa, lançado em 1755, e o Oxford English Dictionary, publicado

em 1884, foram elaborados a partir de fichas de papel, onde anotações eram feitas

manualmente.

Berber Sardinha (2000b) aponta ainda que a Linguística de Corpus saiu dos

centros universitários e está presente em empresas de diversas áreas, como informática e

editoras, resultado dos avanços da Linguística de Corpus. O mesmo autor afirma que “a

história da Linguística de Corpus está intimamente ligada à disponibilidade de corpora

eletrônicos” (2000, p.3). Assim, o autor relaciona uma lista de corpora que são marcos

na história da Linguística de Corpus. O quadro a seguir, adaptado de Berber Sardinha

(2004b), descreve alguns desses corpora de destaque, com números atuais para os

corpora que tiveram adições.

38

CORPUS DATA TOTAL DE PALAVRAS CONTEÚDO

Brown Corpus 1964 1 milhão Inglês americano escrito

LOB (Lancaster-Oslo-Bergen Corpus)

1978 1 milhão Inglês britânico escrito

LLC (London-Lund Corpus) 1980 500 mil Inglês britânico falado

Birmingham Corpus 1987 20 milhões Inglês britânico

TOSCA Corpus 1988 1.5 milhões Inglês britânico escrito

SEU Corpus 1989 1 milhão Inglês britânico escrito e falado

LCLE (Longman Corpus of

Learner’s English)

1992 10 milhões Inglês escrito por

estrangeiros

SEC (Lancaster/IBM Spoken

English Corpus)

1992 53 mil Inglês britânico falado

Wellington Corpus (of Written

New Zealand English)

1993 1 milhão Inglês neozelandês,

escrito

POW (Polytechnic of Wales

Corpus)

1993 65 mil Inglês infantil falado

BNC (British National Corpus) 1995 100 milhões Inglês britânico escrito e falado

Wellington Corpus of Spoken

New Zealand English

1995 1 milhão Inglês neozelandês,

falado

ICLE (International Corpus of

Learner English)

1997 2.5 milhões Inglês escrito por

estrangeiros

Bank of English 1997 450 milhões Inglês britânico

QUADRO 2: CORPORA DE DESTAQUE (ADAPTADO DE BERBER SARDINHA, 2004B)

Além dos corpora dispostos no Quadro 2, existem corpora em outras línguas

como francês, alemão, português e espanhol e também outros de língua inglesa, como o

Corpus of Contemporary American English (COCA), criado por Mark Davies, da

Brigham Young University. Esse é considerado o maior corpus de inglês de livre acesso

disponível. O COCA é também o único corpus grande e equilibrado de inglês americano

e é consultado por dezenas de milhares de usuários por mês, incluindo linguistas,

39

professores, tradutores e outros pesquisadores. As informações referentes a esse corpus,

bem como consultas a seus dados podem ser feitas no endereço

http://corpus.byu.edu/coca/.

O COCA, que contém mais de 464 milhões de palavras, engloba textos

falados, de ficção, revistas populares, jornais e textos acadêmicos. Foi compilado entre

1990-2012, período em que 20 milhões de palavras foram adicionadas anualmente e

ainda recebe atualização regularmente.

Para McCarthy & O’Keeffe (2010), os exemplos dos esforços do passado

serviram de inspiração e estão vivos em espíritos e intenções nos programas de software

que usamos hoje. Os autores também mencionam a importância dos trabalhos que o

jesuíta Busa desenvolveu. Segundo eles, embora os processos de concordância tenham

surgido com o trabalho dos monges, a vontade de criar corpora eletrônicos passou pelo

trabalho do padre jesuíta Roberto Busa, que começou na década de 1950 e concluiu,

duas décadas depois, a indexação lematizada eletrônica dos escritos de São Tomás de

Aquino.

Segundo os autores, nos anos 1950, era dos estruturalistas americanos, a

noção de coletar dados autênticos passou a ser valorizada. Os estruturalistas foram os

precursores a usar dados de linguagem autêntica. No período surgem as primeiras

concordâncias geradas por computador, usando cartões perfurados para armazenamento.

A partir dos anos 70, houve um crescimento no interesse por palavras-chave em

contexto (KWIC), substituindo os cartões de indexação e automatizando a análise de

assuntos nas bibliotecas. Nos anos 80 e 90 surgem os corpora tal como os conhecemos

hoje e que servem de ferramentas para linguistas e linguistas aplicados.

McCarthy & O’Keeffe (2010) reiteram que os avanços ocorridos na

tecnologia e a acessibilidade ao computador possibilitaram que a Linguística de Corpus

aflorasse, possibilitando o desenvolvimento, tamanho e multimodalidade de corpora.

Adicionalmente, o surgimento da internet e, por conseguinte, de maiores possibilidades

de acesso à informação, permitiu uma maior divulgação de programas para

processamento de corpora. Programas como o Oxford Concordance Program deram

40

lugar ao WordSmith Tools e Monoconc, de mais fácil utilização. Os autores discutem as

diversas aplicações da Linguística de Corpus no ensino e aprendizagem, na análise do

discurso, literatura, linguística forense, pragmática e outras áreas.

Biber (2012) diz que uma das maiores contribuições da pesquisa com corpus

nos últimos 40 anos é o reconhecimento crescente de que o léxico e a gramática estão

intimamente ligados. O autor menciona estudos investigativos para identificar palavras

associadas com construções gramaticais como, por exemplo, listas de verbos e adjetivos

que controlam uma that-clause ou uma to-clause.19

Uma das primeiras gramáticas a incluir uma gama de informações lexicais

desse tipo foi a Comprehensive Grammar of the English Language, de 1985. Outras,

como a Collins COBUILD English Grammar, de 1990, a Longman Grammar of Spoken

and Written English, de 1999, e a Cambridge Grammar of English, editada em 2006,

são contribuições mais recentes.

Segundo Biber (2012), essas gramáticas têm uma abordagem corpus-based,

isto é, dedutiva, na qual “construções gramaticais são distinguidas baseadas em critérios

linguísticos tradicionais, a partir dos quais conjuntos de palavras associadas a essas

construções são identificadas através de análise de corpus.”20 (BIBER, 2012, p. 10;

tradução minha).

2.2.3 Corpus: definição e tipologia

Em latim, corpus significa corpo, que na área da linguística se refere a um

“corpo de textos”. Entretanto, seu uso na Linguística Aplicada está relacionado a uma

grande coleção de textos que podem ser lidos por um computador (McEnery & Wilson,

1996).

Sinclair, linguista considerado o pai da Linguística de Corpus, define corpus

19 That-clauses são orações que começam com a palavra that. To-clauses são orações que começam com a palavra to.

20 grammatical constructions are distinguished on the basis of traditional linguistic criteria, and then the set of words associated with those constructions are identified through corpus analysis.

41

com uma declaração que vai além da definição prática: “Um corpus é algo

extraordinário, não pelo fato de ele ser uma coleção de textos de língua, mas devido às

propriedades que ele adquire se for bem desenhado e construído cuidadosamente.”21

(SINCLAIR, 2004).

De acordo com Hunston (2002), os linguistas em geral sempre definiram

corpus para descrever uma coleção de exemplos da língua que ocorrem de forma

natural, que podia ser qualquer coisa, como algumas orações ou um conjunto de textos

escritos ou gravações em fita, colecionadas para estudos linguísticos. No entanto, mais

recentemente, diz a autora, a palavra corpus “foi reservada para coleções de textos (ou

partes de texto) que são armazenadas e acessadas eletronicamente.”22 (HUNSTON,

2002, p. 7).

As definições propostas para corpus, cujo plural é corpora, têm basicamente o

mesmo cerne. Elas definem corpus como um conjunto de textos para análise com

computador. Entretanto, para este estudo foi usada a opção proposta por Sanchez

(1995), por ser completa, conforme mostra Berber Sardinha (2004a):

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.

(SANCHEZ, 1995, pp. 8-9, apud BERBER SARDINHA, 2004a, p.18)

Ainda sobre a importância da Linguística de Corpus, Kennedy (1998, p. 9,

apud BERBER SARDINHA, 2004a, p. 37) acrescenta:

Embora o escopo da Linguística de Corpus possa ser definido em termos do que as pessoas fazem com corpora, seria um engano assumir que Linguística de Corpus é somente um meio mais rápido de descrever como a linguagem funciona [...]. A análise de um corpus pode revelar, e frequentemente revela, fatos a respeito de uma língua que nunca se pensou em

21 “A corpus is a remarkable thing, not so much because it is a collection of language text, but because of the properties that it acquires if it is well-designed and carefully-constructed.”

22 “More recently, the word [corpus] has been reserved for collections of texts (or parts of text) that are stored and accessed electronically.”

42

procurar.

Sendo assim, constata-se a necessidade de atenção a vários pontos relativos ao

corpus, pois sua origem, propósito, composição, formatação, representatividade e

extensão constituem os dados linguísticos que serão a matéria-prima da pesquisa. A

importância desses quesitos é descrita por Berber Sardinha:

A origem: os dados devem ser autênticos.

O propósito: o corpus deve ter a finalidade de ser um objeto de estudo linguístico.

A composição: o conteúdo do corpus deve ser criteriosamente escolhido.

A formatação: os dados do corpus devem ser legíveis por computador.

A representatividade: o corpus de ser representativo de uma língua ou variedade.

A extensão: o corpus deve ser vasto para ser representativo.

(BERBER SARDINHA, 2004b, p. 18-19)

A principal premissa das pesquisas em Linguística de Corpus é a adoção de

um corpus ou corpora como objeto de estudo para descrição da língua. No entanto,

Hunston (2002) adverte que, apesar de todos os benefícios advindos do estudo da

linguagem por meio de corpora, as limitações quanto ao seu uso devem também ser

consideradas. Essas limitações se resumem a quatro questões apontadas pela autora, a

saber:

Um corpus não é capaz de nos informar se alguma coisa é possível ou não; ele

simplesmente nos informa que algo é frequente ou não. Inclusive, a autora afirma que,

de acordo com Sinclair (1991), as descrições da língua inglesa estão caminhando em

direção ao que é típico e se distanciando das noções de boa formulação.

Um corpus pode oferecer evidência, mas não pode dar informações. Assim, o

corpus simplesmente oferece ao pesquisador diversos exemplos, mas somente o

pesquisador, com sua intuição, poderá interpretá-los.

Um corpus apresenta a língua fora de seu próprio contexto. Um exemplo é

questão de dados falados, em que a transcrição nunca pode representar a entonação, a

linguagem corporal e outras informações paralinguísticas de maneira bem apurada. Até

43

mesmo questões características visuais e relativas à entonação são ignoradas.

A quarta questão aparenta ser controversa. A autora diz que um corpus não

mostra nada além do seu próprio conteúdo. E conclui que uma afirmação sobre

evidências em um corpus é uma afirmação sobre aquele corpus; não podendo ser

generalizada. Hunston afirma:

“Um corpus não mostra nada além do seu conteúdo. Embora seja

(justificavelmente) chamado de representativo, todas as tentativas de gerar

generalizações de um corpus são, de fato, extrapolações. Uma declaração sobre

evidência em um corpus é uma declaração sobre aquele corpus, não sobre a língua ou o

registro do qual o corpus é uma amostra. Dessa forma, conclusões sobre língua feitas

de um corpus têm de ser tratadas como deduções, não fatos.”23

(HUNSTON, 2002, p. 22-23; grifos meus)

Tal afirmação não parece ser condizente com a importante característica

inerente ao corpus de estudo, que é ser uma amostra representativa de um todo ou

população que o pesquisador quer estudar. Conforme esclarece Berber Sardinha

(2000c), não existe uma resposta exata para a questão quanto ao tamanho do corpus. O

autor explica que, “à questão de o que seria uma amostra representativa de linguagem, a

estratégia que se tem posto em prática é utilizar um corpus o maior possível.”

(BERBER SARDINHA, 2000c, p. 2). Ele acrescenta que, para que o corpus tenha o

maior número possível de palavras raras, a ideia de quanto maior melhor é aplicada.

Isso serve como uma espécie de salvaguarda para garantir que o corpus seja o mais

representativo possível.

Além disso, se abandonarmos a ideia de generalização a partir do corpus de

estudo, pouco adiantaria estudar uma expressiva gama de textos que compõem os

corpora, conforme preconiza a Linguística de Corpus. Poderíamos, então, permanecer

23 Although it may (justifiably) claim to be representative, all attempts to draw generalization from a corpus are in fact extrapolations. A statement about evidence ina a corpus is a statement about that corpus, not about the language or register of which the corpus is a sample. Thus conclusions about language drawn from a corpus have to be treated as deductions, not as facts. (HUNSTON, 2002, p. 22-23).

44

com o estudo de um só texto e nos restringirmos apenas aos dados que temos, já que a

possibilidade de generalização seria inexistente.

Também Biber (1993c) trata de questões relacionadas à representatividade no

design de corpora linguísticos. Biber (1993c) discute o significado de representar uma

linguagem, a definição de população-alvo, amostragem estratificada versus

proporcional e questões relativas ao tamanho da amostra de um corpus. Para o autor,

qualquer seleção de textos é uma amostra. Para que uma amostra seja ou não

considerada representativa, é necessário analisar, primeiramente, a extensão para a qual

ela foi selecionada, dentro de uma gama de tipos de textos da população-alvo. Ou seja,

uma avaliação dessa representatividade depende de uma definição completa prévia da

população que a amostra pretende representar e das técnicas usadas para selecionar a

amostra daquela população.

2.2.4 Tipologia do corpus

De acordo com Hunston (2002), um corpus pode ser definido em termos de

sua forma e seu propósito. A autora esclarece que o desenho de um corpus é

estabelecido levando em consideração o seu propósito. Assim, de acordo com sua

necessidade, o pesquisador decidirá os parâmetros que determinarão a tipologia do seu

corpus de estudo.

Existem vários tipos de corpus, conforme esclarece Hunston (2002). A seguir,

há uma breve descrição daqueles que a autora considera os mais comuns.

– Corpus especializado (Specialized corpus): consiste em um corpus de um

tipo de texto em particular, tais como editoriais de jornal, livros didáticos de geografia

ou artigos acadêmicos de um assunto específico. A autora esclarece que não há limites

quanto ao grau de especificidade envolvido. No entanto, os parâmetros de restrição são

estabelecidos para limitar os tipos de textos que serão incluídos nesse corpus. A autora

menciona dois corpora especializados bastante conhecidos. São eles o Cambridge and

Nottingham Corpus of Discourse in English (CANCODE), composto por registros

informais, com 5 milhões de palavras, e o Michigan Corpus of Academic Spoken

45

English (MICASE), de registros falados em um contexto (ambiente) acadêmico nos

Estados Unidos.

– Corpus Geral (General corpus): é um corpus composto por muitos tipos de

texto, de língua falada ou escrita, ou de ambas. O corpus geral pode incluir textos

produzidos em diferentes países e é pouco provável que seja representativo de um

“todo” em especial. Geralmente são bem maiores que os corpora especializados. Podem

ser usados com referência na produção de materiais didáticos de tradução. Outra

aplicação desse corpus é servir como referência em estudos de corpora mais

especializados. Dois corpora de referência bem conhecidos são o British National

Corpus, com 100 milhões de palavras, e o Bank of English, com 450 milhões de

palavras. Esses dois corpora abarcam um leque de subcorpora de diferentes fontes.

Hunston esclarece que, antigamente, os corpora gerais eram o corpus LOB (sigla para

Lancaster-Oslo / Bergen), que consiste em textos de inglês britânico escrito, e o corpus

Brown. Ambos contêm 1 milhão de palavras cada e foram compilados nos anos 1960.

– Corpora comparáveis (Comparable corpora): são dois ou mais corpora em

línguas diferentes ou de variedades diferentes de uma língua. Podem ser, por exemplo,

textos de jornal de mesma proporção, conversas informais, etc. Tradutores e aprendizes

de línguas podem usá-los para cotejar equivalências e diferenças linguísticas.

– Corpora paralelos (Parallel corpora): são dois ou mais corpora em línguas

diferentes contendo, cada qual, textos que foram traduzidos de uma língua para a outra

ou textos que foram produzidos simultaneamente em duas ou mais línguas. Podem ser

usados por tradutores ou estudantes, investigando possíveis equivalências de expressões

nas línguas.

– Corpus de aprendiz (Learner corpus): é uma coleção de textos produzidos

por aprendizes de uma língua. Tem o propósito de investigar em quais aspectos os

aprendizes se diferenciam entre si e como se diferenciam da linguagem de falantes

nativos. Para a última situação, um corpus de textos produzidos por falantes nativos se

faz necessário para realizar essa comparação.

– Corpus pedagógico (Pedagogic corpus): é um corpus que consiste em todas

46

as palavras às quais o (a) aprendiz da língua foi exposto. Segundo Hunston (2002), na

maioria das vezes, tal corpus não existe em forma palpável para o aprendiz. Ele pode

ser uma coletânea de materiais, como livros-texto, Cds e leituras que o aprendiz usou.

Pode ser também uma coletânea de exemplos de uso de uma palavra ou frase

contextualizada.

– Corpus histórico ou diacrônico (Historical or diachronic corpus): é um

corpus composto por textos de diferentes períodos de tempo (épocas). É usado para

acompanhar o desenvolvimento de aspectos de uma língua ao longo do tempo. A autora

cita que o corpus diacrônico de inglês mais conhecido é o Corpus Helsinki, composto

por 1,5 milhão de palavras, com textos que datam de 700 a 1700.

– Corpus monitor (Monitor corpus): é um corpus elaborado para acompanhar

as mudanças que estão em curso na língua. Esse tipo de corpus recebe adições

anualmente, mensalmente ou, até mesmo, diariamente. Dessa forma, ele aumenta de

maneira rápida e constante.

– A tipologia dos corpora também pode ser definida em relação a outros

critérios. Conforme pontua Berber Sardinha (2004b), os corpora podem ser

classificados quanto:

– Ao modo: falado (o corpus é composto por porções de fala transcritas);

escrito (o corpus é composto por textos escritos, impressos ou não).

– À seleção: de amostragem (sample corpora), que são compostos por

porções de textos ou por variedades textuais, planejados para ser uma amostra finita da

linguagem como um todo; dinâmico, ou orgânico, ele permite o crescimento e a

diminuição e qualifica o corpus monitor; estático, opõe-se a dinâmico e caracteriza o

corpus de amostragem; equilibrado (balanced), no qual seus componentes, como

gêneros e textos, são distribuídos em quantidades iguais.

– Ao conteúdo: são especializados, com textos de tipos específicos, com

gêneros ou registros definidos; regional ou dialetal: com textos que provêm de uma ou

mais variedades sociolinguísticas específicas; multilíngue, inclui diferentes idiomas.

– À autoria: de aprendiz, conforme explicação acima proposta por Hunston

47

(2002); de língua nativa, no qual os autores são falantes nativos.

– À disposição interna: paralelo, explicação acima proposta por Hunston

(2002); alinhado, em que as traduções aparecem alinhadas abaixo de cada linha do

original.

– À finalidade: de estudo, que é o corpus que se pretende descrever; de

referência, que é usado para contrastar com o corpus de estudo; de treinamento ou teste:

sua construção visa o desenvolvimento de aplicações e ferramentas de análise.

Berber Sardinha (2004b) também esclarece que os corpora podem ser

classificados quanto à extensão ou tamanho, que é um dos critérios relacionados à

representatividade. Assim, quanto ao tamanho, medido pelo número de palavras, após

anos de observação, Berber Sardinha sugere que corpora podem ser classificados

conforme o quadro a seguir.

Tamanho em palavras Classificação

Menos de 80 mil Pequeno

80 a 250 mil Pequeno-médio

250 mil a 1 milhão Médio

1 milhão a 10 milhões Médio-grande

10 milhões ou mais Grande

QUADRO 3: TAMANHOS DE CORPUS (FONTE: BERBER SARDINHA, 2004B, P. 26)

Estudos de Linguística de Corpus dispõem de dois termos usados em

referência à quantidade de palavras nos corpora: types e tokens. Conforme explica

Berber Sardinha (2004b), o número de tokens, vocábulo que pode ser traduzido por

ocorrências, refere-se ao número total de vocábulos no texto. São as palavras corridas

(running words) do texto. Por outro lado, o número de types, que pode ser traduzido por

itens, equivale ao número de itens ou vocábulos diferentes no corpus. Assim, na oração

o carro azul está com o pneu vazio, dizemos que há oito tokens, que é o número de

palavras corridas. No mesmo exemplo, contam-se sete types: o (duas vezes), carro

(uma vez), azul (uma vez), está (uma vez), com (uma vez), pneu (uma vez) e vazio

(uma vez).

48

2.2.5 Ferramentas usadas na LC

A compilação criteriosa do corpus por si não é suficiente para a execução do

estudo e levantamento dos dados. As ferramentas que a Linguística de Corpus dispõe

podem ser usadas na organização e na extração de informações dos corpora, que

viabilizam a observação e interpretação de dados, fornecendo novas perspectivas à

análise linguística. A seguir as ferramentas computacionais usadas neste estudo são

apresentadas.

A partir da compilação do corpus de estudo, que é de linguagem real,

representativo do registro acadêmico, em forma de artigos de diferentes áreas de estudo

e escritos por pesquisadores de diferentes origens, o primeiro passo é a anotação do

corpus. Conforme explica Berber Sardinha (2004b), essa etapa consiste em inserir

cabeçalhos informativos nos arquivos e fazer a sua etiquetagem morfossintática. Ou,

ainda, de acordo com Souza, a anotação do corpus é “o processo de adicionar

marcações ao conjunto de texto que permitam facilitar a análise a partir da classificação

de cada uma das palavras do texto de acordo com uma categoria, seja ela morfológica,

sintática ou semântica.” (2012, p. 87).

McEnery & Hardie (2012) discorrem sobre tipos de anotação. Segundo os

autores, os metadados – informações descritivas contidas no corpus que dizem algo

sobre o texto em si, como autoria, publicação e idioma no qual foi escrito – podem

ajudar na investigação de seus dados. Eles podem ser codificados no texto do corpus ou

ser mantidos em um documento separado ou em um banco de dados. A marcação

textual, por sua vez, codifica outras informações dentro do texto – informações

estruturais do texto – tais como quebras de parágrafo, que são anotadas no corpus. Em

textos escritos a marcação textual pode ser, por exemplo, a formatação, a fonte, o uso de

itálicos, etc.

Em corpora falados transcritos, as informações de metadados serviriam para

identificar os falantes e dariam outras informações, como faixa etária e gênero. A

marcação textual serviria para indicar o início e fim da participação de cada falante, por

exemplo. Os autores usam exemplos do corpus BNC, que está marcado seguindo uma

49

convenção específica de codificação. Este padrão é chamado de “eXtensible Markup

Language” ou XML.

McEnery & Hardie (2012) esclarecem que a combinação de metadados com a

marcação textual possibilita diversas pesquisas. Segundo os autores, há três abordagens

de anotação linguística. São elas: anotação puramente automática, anotação

automatizada seguida de correção manual e anotação puramente manual. Eles

esclarecem que todas são passíveis de erros. Ademais, pontuam que, atualmente, não é

possível fazer anotação automatizada para todos os tipos de análise linguística e

mencionam vários softwares para esse propósito, como o Constraint Grammar System,

o CLAWS e o USAS.

Segundo McEnery & Hardie (2012), corpora anotados manualmente podem

servir de referência para medir a performance de etiquetadores automáticos. Eles

afirmam que não se pode dizer que as codificações feitas no corpus serão sempre

consistentes, o que eles consideram vexatório. Salientam que a anotação de corpus é um

processo de rotulação; e não um processo de criação ou transformação. Por conseguinte,

é necessário que a anotação seja feita de maneira consistente.

Ainda sobre a preocupação sobre a (in)constância na anotação de corpora,

eles afirmam que, apesar de a inconsistência ser inevitável, eles defendem a necessidade

de observação nas escolhas feitas na anotação para ser o menos inconsistente possível.

Para os autores, análises manuais, com anotações feitas por linguistas, são

mais confiáveis. Eles esclarecem que as escolhas do analista ou do programa de

anotação estarão presentes no texto de maneira explícita, o que os autores consideram

positivo. Dessa forma, qualquer inconsistência estará aberta para averiguação e

mudanças necessárias posteriormente.

Embora haja um grande número de pesquisas com corpora anotados,

McEnery & Gabrielatos (2006) dizem que há críticas relacionadas à anotação. Uma

delas sugere que a anotação impõe aos dados categorias de um modelo teórico, o que

poderia causar interferência em encontrar evidências contra aquela teoria ou mesmo em

encontrar traços linguísticos que a teoria não prediz. Além disso, segundo os autores, há

50

outra divergência: a anotação adiciona informação e, por conseguinte, determinado

valor a cada palavra do corpus; porém, em outro sentido, a anotação subtrai informação

da palavra, porque a ela somente é atribuída uma etiqueta inalterável, mesmo quando

algumas palavras não pertencem claramente a uma categoria existente (McENERY &

GABRIELATOS, 2006, p. 7).

Segundo Berber Sardinha (2004b), são quatro os tipos de anotação linguística,

a saber: (1) anotação morfossintática ou marcação de partes do discurso (part of speech

ou PoS), (2) anotação sintática (parsing), (3) anotação semântica (semantic) e (4)

anotação discursiva (discursive). Berber Sardinha (2004) diz que a etiquetagem pode ser

automática ou semi-automática. Segundo o mesmo autor, as marcações ou etiquetagens

de natureza morfossintática, semântica e discursiva são realizadas por programas

chamados etiquetadores. Os etiquetadores (taggers) atribuem uma etiqueta a cada

palavra do corpus. A etiquetagem morfossintática, por exemplo, marca cada palavra

com uma classe gramatical (substantivo, verbo, adjetivo, etc.). Ela é a mais comum e a

que oferece mais opções em termos de programas e rotinas. A etiquetagem sintática

identifica a estrutura sintática, ou seja, o sintagma verbal, nominal, etc. de cada frase. A

etiquetagem semântica define o sentido ou categoria semântica de cada palavra (por

exemplo, apartamento = moradia, alicate = ferramenta). Já a discursiva marca

características como referentes anafóricos, catafóricos, tópicos ou marcadores do

discurso.

De acordo com Leech (2004), a anotação é feita para dar um valor a mais ao

corpus. Pode ser feita manualmente, o que não é muito confiável, por ser um processo

laborioso, passível de erros e sujeito às inconsistências por parte do ser humano; ou por

meio de etiquetadores, como os mencionados acima.

Segundo Leech (2004), além da anotação morfossintática, existem outros tipos

de anotação, que correspondem a níveis diferentes de análise linguística de um corpus.

São elas: anotação fonética; anotação semântica; anotação pragmática; anotação

estilística; e anotação lexical. O autor adiciona que um etiquetador morfossintático

serve, por exemplo, para distinguir palavras que são escritas de uma mesma forma.

51

Vejamos present, citado por Leech (2004), que pode ser três palavras diferentes,

esclarecidas com as etiquetadas providas por um etiquetador morfossintático:

present_NN1 (substantivo comum singular) present_VVB (forma básica de um verbo lexical) present_JJ (adjetivo geral)24

De acordo com Berber Sardinha (2004b), as ferramentas mais comuns à

disposição da Linguística de Corpus são os programas para listar palavras, que fazem a

contagem das palavras em um corpus; os concordanciadores, que são programas que

permitem que o usuário procure por palavras específicas em um corpus, fornecendo

exaustivas listas para as ocorrências da palavra em contexto; e os etiquetadores, que

fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem

morfossintática, sintática, semântica ou discursiva.

Um dos programas que oferecem inúmeras possibilidades ao pesquisador é o

WordSmith Tools (WST). O programa, que possui várias aplicações além de geração de

listas de palavras, foi criado em 1996 pelo pesquisador e professor Mike Scott, da

Universidade de Liverpool, Reino Unido. De acordo com Berber Sardinha (1999), as

várias aplicações do programa compreendem desde o pré-processamento do corpus e a

organização dos dados até a análise propriamente dita. É apresentada aqui uma visão

geral deste software, cuja ferramenta WordList foi usada nesta pesquisa para a contagem

de types e tokens. O programa possui mais duas ferramentas além da que foi

mencionada: Concord e KeyWords e quatro utilitários, que são o File Manager, o

Splitter, o Text Converter e o Viewer & Aligner.

A partir da ferramenta WordList é possível gerar listas de palavras que contêm

todas as palavras do(s) arquivo(s) selecionado(s). Elas podem ser elencadas em grupo

com suas frequências absolutas e percentuais. A ferramenta também permite comparar

listas de palavras. Por meio de listas de consistência geradas é possível ver em quantas

listas cada palavra aparece. Esta ferramenta foi usada para saber o número de types e

24 No original, em inglês: singular common noun, base form of a lexical verb e general adjective.

52

tokens do Corpus of English Research Articles (CERA), que é o corpus de estudo desta

pesquisa.

Com a ferramenta Concord é possível gerar concordâncias, ou listagens de

uma palavra específica (o nódulo) juntamente com a parte do texto onde ela ocorreu. A

ferramenta também gera listas de colocados, que são as palavras que ocorreram perto do

nódulo (node ou search word).

A ferramenta KeyWords extrai de uma lista palavras cujas frequências são

estatisticamente maiores ou menores do que as frequências das mesmas palavras em um

corpus de referência. Ela também calcula as palavras-chave, que são chave em vários

textos.

De acordo com Berber Sardinha, as funções dos utilitários do programa são:

File Manager: abre uma janela para gerenciamento de arquivos.

Splitter: permite dividir um arquivo em vários arquivos menores.

Text Converter: oferece várias funções para o pré-processamento de textos, como a substituição de palavras, partes de palavras ou partes de textos, simultaneamente num conjunto de arquivos, a renomeação em massa de arquivos, e a mudança de pasta (diretório) de arquivos que apresentem certas características.

Viewer & Aligner: fornece meios para a visualização de textos e para o alinhamento (combinação) de dois textos num só.

(BERBER SARDINHA, 1999, p. 9-10)

Existem outros etiquetadores além do Constraint Grammar System, CLAWS e

USAS, mencionados por McEnerie & Hardie (2012). Berber Sardinha (2004b) apresenta

mais um leque de opções, como o Bill Tagger, Xerox Tagger, WinBrill, etc., além de

orientações de como usá-los. No entanto, para esta pesquisa o etiquetador usado foi o

Biber Tagger (BIBER, 1988). Ademais, apesar das críticas mencionadas em McEnery

& Gabrielatos (2006), a etiquetagem é inerente a uma pesquisa linguística com Análise

Multidimensional.

O programa etiquetador criado por Biber (1988, p. 214) opera em duas etapas.

Primeiro, ele identifica a categoria gramatical de cada palavra. Segundo, ele resolve

ambiguidades. Ao discorrer sobre o Biber Tagger, o autor relata que muitas das palavras

53

mais comuns da língua inglesa são ambíguas no que tange a sua categoria gramatical.

Assim, em casos de o dicionário listar mais de uma categoria gramatical possível para

uma palavra, o Biber Tagger resolve a ambiguidade. Ele menciona, por exemplo, que

palavras como account podem ser verbos ou substantivos e palavras como absent

podem ser adjetivos ou verbos. Ele acrescenta que a palavra that pode funcionar como

demonstrativo, pronome demonstrativo, pronome relativo, complementador ou como

conjunção subordinativa. Biber (1988) usou a gramática de Quirk et al. (1985) como

referência e desenvolveu algoritmos para desambiguar ocorrências como essas. Com o

uso dessa abordagem é possível ter mais precisão.

Biber (1988, p. 215) resume o funcionamento do Biber Tagger como:

Primeiro o programa identifica palavras que pertencem a qualquer categoria

gramatical fechada, como do, have, be, modals, subject pronouns, prepositions WH

pronouns, WH words, nominalizations, demonstratives, articles, sinais de pontuação

etc.25

No caso de uma palavra não corresponder a uma das categorias fechadas, o

programa tenta localizar a palavra no dicionário. Se houver somente uma entrada no

dicionário para aquele item lexical, ele será etiquetado. Se houver múltiplas entradas, o

item precisa ser desambiguado. Se o item lexical não for encontrado no dicionário e se

ele tiver mais de seis letras, há uma última checagem: se a palavra terminar em ing, ela

é etiquetada como particípio presente.

Há inúmeros estudos de Linguística de Corpus que são relevantes para esta

pesquisa, dos quais mencionamos: Berber Sardinha (1999b; 2004a; 2004b); Biber

(1988; 2009); Biber et al. (2002a,b); Conrad (2004); Cortes (2002); Hunston (2002);

Teixeira (2010), que, com subsídios da Linguística de Corpus e da Terminologia de

base linguístico-comunicacional, elaborou um glossário monolíngue, em português,

contendo 104 fichas com termos de (onco)mastologia. Um em especial, Perrotti-Garcia

25 Biber apresenta uma extensa lista de categorias gramaticais fechadas. No entanto, por uma questão de espaço, somente algumas foram listadas. Ademais, optei por não traduzi-las por se tratar de nomenclatura gramatical básica da língua inglesa.

54

(2009), se destaca pelo fato de discutir a escrita de brasileiros em inglês. Nele a autora

pesquisou as características da língua inglesa utilizada por autores brasileiros que

publicam em inglês em revistas médicas. Para isso, Perrotti-Garcia usou dois corpora

comparáveis, com cerca de cinco milhões de tokens (número total de palavras) cada: o

corpus BRAZIL, composto por artigos de revistas médicas brasileiras e o corpus

ABROAD, com artigos publicados em revistas médicas da Europa e dos Estados

Unidos, contendo inglês britânico ou norte-americano. A autora usou ferramentas do

programa WordSmith (WordList, Clusters e o Concordanciador Concord) e também

uma rotina de computador que foi desenvolvida em linguagem Shell. O estudo de

Perrotti-Garcia tinha como objetivo específico determinar de que maneira os autores

brasileiros usaram o verbo “submit” e quais estruturas os autores estrangeiros usaram

para expressar o mesmo significado. Ela concluiu que os médicos brasileiros usaram o

verbo “submit” para expressar a ideia de “submeter”, enquanto os médicos estrangeiros

usaram expressões como undergo, receive, take, have, initiate, start e assign, dentre

outras, em diferentes tempos e modos. Segundo a autora, houve também o uso de

adjetivação e de preposições.

2.2.6 Padronização

Ao nos forçar a considerar palavras em contexto, concordâncias de corpus nos

dão consciência de o quanto os significados das palavras derivam do contexto – até

mesmo ao ponto de questionarmos se as palavras têm significados independentes. Esta

interdependência de significado e contexto fica mais clara no caso de palavras

empobrecidas semanticamente, como é o caso do tão discutido take (MOON, 2008, p.

202).

Cabe aqui ressaltar que os conceitos apresentados nesta seção não são,

necessariamente, usados nesta pesquisa, para fins de análise e discussão dos resultados.

Eles são apresentados devido à relevância que têm para a área da Linguística de Corpus.

Para o linguista de corpus, o léxico é padronizado. Isto é, há uma regularidade

55

nos tipos de associação que as palavras de uma língua mantêm e que contribuem para o

seu significado. A padronização, que é evidenciada pela recorrência (repetição

sistemática), conforme explica Berber Sardinha (2004b), “é uma regularidade expressa

na recorrência sistemática de unidades coocorrentes de várias ordens (lexical,

gramática, sintática, etc.)” (p. 40).

Sinclair (2004) afirma que o ponto de partida para descrever o significado em

uma língua é a palavra. E acrescenta que, apesar de serem as unidades da linguagem, as

palavras tendem a ser ambíguas. Fala também de como o significado de “phrasal verbs”

pode não ser previsível. Expressões idiomáticas, jargões e clichês são exemplos de

padrões reconhecidos, nos quais a evidência das palavras é / está comprometida.

Sinclair afirma que os corpora computadorizados permitem usar métodos numéricos

para esclarecer regularidades de restrições lexicais.

Esses padrões apresentam regularidade e variação sistemática. Assim, suas

frequências podem ser comparadas em corpora diferentes e há correlação com diversas

variedades textuais. Segundo Berber Sardinha (2004b), são três as formas de

padronização observadas: a colocação, a coligação e a prosódia semântica, que são

descritas a seguir.

2.2.6.1 Colocação

O fenômeno da colocação, que foi introduzido por Firth, é o mais estudado.

Sua descoberta resulta da aplicação de corpora em estudos de língua que possibilitaram

ver o crescente número de evidências de associações entre palavras que ocorrem

próximas umas das outras nos textos. Segundo Berber Sardinha (2014), a colocação é

uma das contribuições de mais longa data da Linguística de Corpus para o nosso

entendimento da língua em uso.

Hoey (2009) discute, entre outras questões, a relação entre as palavras. O

autor diz que, na abordagem tradicional do estudo do significado das palavras, anterior

ao impacto da Linguística de Corpus, a maioria das palavras é vista como polissêmica.

Isto é, elas têm vários significados. O autor ressalta que um princípio-chave na

descrição do significado da palavra, conforme foi articulado por Lyons em 1977, é que

56

esse deriva da relação que ela forma com outras palavras em seu campo semântico.

Hoey (2009) defende que percepções da Linguística de Corpus podem ser

usadas para analisar sentidos de palavras. Por conseguinte, ele esclarece que as relações

não ocorrem entre palavras apenas, mas entre o que ele chama de escolhas “semi-

preconstruídas” ou “chunks”. Ademais, o autor diz que Sinclair, proponente da

expressão “item lexical”, para ser usada ao invés de “palavras”, descreveu os

“ambientes colocacionais”, o que facilitou a identificação de usos polissêmicos das

palavras.

Uma definição para colocação bastante clara apresentada aqui é proposta por

Hoey:

Colocação pode ser identificada como a associação entre duas palavras em uma língua que é feita conscientemente ou subconscientemente pelos usuários da língua; ela pode ser identificada em corpora como uma ocorrência recorrente de duas palavras juntas em um nível de frequência não contabilizado pela frequência estatística das palavras separadas no conjunto da língua como um todo.26

(HOEY, 2009, p. 977, minha tradução)

Berber Sardinha (2004b) apresenta exemplos de colocação em termos de

associação entre itens lexicais ou entre léxico e campos semânticos, que são repetidos

aqui:

Em termos lexicais, stark associa-se a contrast; sheer, a scale e number.

Em termos de campos semânticos, jam relaciona-se com itens do campo de

alimentos: tarts, butty e donuts.

2.2.6.2 Coligação

Além da definição de colocação (relação entre palavras), Firth também

apresentou a noção de coligação. Firth (1968) explica que a relação entre itens

gramaticais de categorias diferentes é chamada coligação. Firth declara:

26 “Collocation can be defined as the association between two words in a language that is made consciously or subconsciously by users of the language; it can be identified in corpora as the recurrent occurrence of two words together at a level of frequency not accounted for by the separate statistical frequency of the words in the language taken as a whole.”

57

As estruturas das palavras, frases ou outras ‘partes’ e das orações são especificadas em termos de elementos interrelacionados atribuídos ao fonológico, gramatical e outras categorias determinadas mutualmente. Esses elementos estão em relação sintagmática uns com os outros e se essas relações forem gramaticais, diz-se que constituem uma coligação.27

(FIRTH, 1968, p. 111, tradução minha.)

Firth exemplifica sua declaração, acrescentando que, em inglês, o pronome

masculino da terceira pessoa pode estar em coligação com um verbo na terceira pessoa

no singular e com um pronome objetivo feminino na terceira pessoa do singular.

A noção de coligação proposta por Firth em 1968 sofreu alterações, conforme

definem Berber Sardinha (2004b) e McEnery. A explicação de Berber Sardinha é

sucinta e didática. O autor diz que coligação é “a associação entre itens lexicais e

gramaticais” (BERBER SARDINHA, 2004b, p. 40). O autor apresenta como exemplo o

verbo start, que é mais comum com sintagmas nominais e orações com a terminação –

ing; enquanto o verbo begin é mais comum com um complemento to. De acordo com

McEnery & Gabrielatos (2006, p.11-12)28, atualmente a coligação é vista com um

sentido menos restrito do que quando foi definida por Firth e ela pode incluir a

coocorrência de léxico e categorias gramaticais, e em alguns casos ela é vista apenas

como coocorrência de categorias gramaticais.

2.2.6.3 Prosódia semântica

O terceiro conceito de formalização da padronização é a prosódia semântica.

Ela é definida por Berber Sardinha como “a associação recorrente entre itens lexicais e

um campo semântico, indicando uma certa conotação (positiva, negativa ou neutra) ou

instância avaliativa” (Berber Sardinha, 2004, p. 236).

27 The structures of words, phrases or other 'pieces' and of sentences are stated in terms of interrelated elements assigned to phonological, grammatical and other mutually determined categories. These elements are in syntagmatic relation with one another and if grammatical, are sated to constitute a colligation.

28 Colligation is now understood in a somehow less restricted sense than that defined by Firth (1968: 181), and may include de co-occurrence of lexis and grammatical categories, and in some cases it is understood as only the latter.

58

2.2.6.4 Princípio idiomático e princípio da livre escolha

O princípio idiomático foi proposto por John Sinclair a partir de sua

experiência na direção do projeto de execução da maior análise lexicográfica da língua

inglesa até então, o projeto Cobuild. Segundo Sinclair (1991; 2004), todo texto, escrito

ou oral, origina-se da combinação de dois conceitos: o princípio da livre escolha (open-

choice principle) e o princípio idiomático (idiom principle). Conforme explica Sinclair

(1991, p. 110)29:

um usuário de uma língua tem ao seu dispor um grande número de frases semi-preconstruídas que constituem escolhas únicas, embora elas pareçam analisáveis em termos de segmentos. Até certo ponto isso pode refletir a recorrência de situações semelhantes nas questões humanas; isso pode ilustrar uma tendência natural à economia do esforço; ou pode ser motivado em parte pelas exigências da conversa em tempo real. Embora aconteça, isso tem sido relegado a uma posição inferior por muitos na linguística atual, pois não se encaixa no modelo de livre escolha.

Sinclair (2004) esclarece que alguns traços do padrão da língua tendem a

favorecer um ou outro princípio. Assim, a tendência terminológica (terminological

tendency), que é tendência de uma palavra ter um significado fixo em referência ao

mundo, está propensa a acontecer com o princípio da livre escolha. Por outro lado, a

tendência fraseológica (phraseological tendency), que é quando as palavras se

combinam resultando em um significado, acontece com o princípio idiomático.

2.3. ANÁLISE MULTIDIMENSIONAL (AMD)

Esta é uma pesquisa de Linguística Corpus que investiga os padrões da

linguagem tal como ela é usada registro acadêmico. O uso da Análise Multidimensional

(BIBER, 1988; BERBER SARDINHA, 2000a, 2010; BIBER & CONRAD, 2009) se

torna viável para esta pesquisa, pois ela possibilita a análise das características

linguísticas a partir de um corpus que foi etiquetado. Assim, a Análise

29 a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices, even though they might appear to be analyzable into segments. So some extent this may reflect the recurrence of similar situations in human affairs; it may illustrate a natural tendency to economy of effort; or it may be motivated in part by the exigencies of real-time conversation. However it arises, it has been relegated to an inferior position in most current linguistics, because it does not fit the open-choice model.

59

Multidimensional possibilitou a comparação dos padrões nas diferentes áreas de estudo

e origens dos autores que compõem o corpus. A Análise Multidimensional é uma

metodologia que possibilita a identificação de coocorrências de padrões linguísticos e

funcionais que caracterizam uma língua ou um conjunto de tipos de textos de maneira

abrangente (BIBER, 1988).

2.3.1 Definições

Na abordagem da Análise Multidimensional, alguns conceitos-chave são

usados, que são apresentados nessa seção para que a abordagem seja mais bem

compreendida. Os conceitos apresentados nesta seção têm como base Berber Sardinha

(2004b) e Biber (1988; 1995).

2.3.1.1 Traços

Na Abordagem Multidimensional, traços são elementos linguísticos

pertinentes à análise, como número de infinitivos, gerúndios, substantivos, orações

subordinadas, que se quantificam (Berber Sardinha, 2004a). Segundo o mesmo autor, os

traços a serem levados em conta na Análise Multidimensional devem ser escolhidos

através de pesquisa na literatura disponível. Esses traços devem representar um aspecto

funcional no nível do texto. Para este estudo de análise de artigos acadêmicos, os traços

escolhidos são 67, propostos em Biber (1988), após pesquisa sobre diferenças escritas /

faladas em textos, que serão apresentados mais adiante.

2.3.1.2 Características

As características analíticas podem ser de dois tipos: as linguísticas e as não-

linguísticas ou situacionais. Para Biber (1995) e Berber Sardinha (2004b), as

características linguísticas são de ordem lexical, morfológica e sintática. As não-

linguísticas são interpretadas em termos funcionais, como seu propósito, circunstância

de produção, etc. e também outras características situacionais partilhadas pelos textos

em cada tipo de texto.

60

2.3.1.3 Registro e gênero

Na Análise Multidimensional, o termo registro30 (BIBER, 2009) é usado para

definir uma variedade linguística definida por aspectos situacionais, que inclui o

propósito do falante, sua relação com o ouvinte, e o contexto de produção. Segundo o

autor, embora diferenças entre registros sejam definidas em termos não-linguísticos,

existem diferenças linguísticas muito importantes entre registros. Ele acrescenta que,

em muitos casos, em uma cultura, os registros são denominados variedades, como

cartas, sermões e debates. Podem ser definidos, Biber (2009) acrescenta, em qualquer

nível de generalidade. Assim, a prosa acadêmica pode ser vista como muito geral,

enquanto que seções de metodologia em artigos de psicologia são um registro bem mais

específico.

A visão de Biber (2009) é corroborada por Berber Sardinha (2013), para quem

o termo registro tem abrangência ampla, podendo significar um gênero específico ou

mais geral. São exemplos de específico artigo acadêmico de física e carta de amor.

Gênero geral, no entanto, pode ser exemplificado por artigo, conversação, documento

oficial e humor, entre outros.

2.3.1.4 Tipos de texto

Ao explicar tipos de texto, Biber (1995) o relaciona com outro termo:

registro, que foi definida acima. Segundo o autor, tipos de texto são agrupamentos de

textos definidos estritamente em termos linguísticos. Ademais, ele acrescenta que os

“tipos de texto são definidos de tal modo que os textos dentro de cada tipo têm o

máximo de semelhança em suas características linguísticas, independentemente de suas

características situacionais” (BIBER, 1995, p. 320). Ele acrescenta que tipos de textos e

registros têm uma relação de complementação no espaço textual de uma língua. Para

Biber, tipos de texto e de registros são semelhantes, pois os dois conceitos podem ser

descritos em relação às suas características linguísticas e situacional / funcional.

30 In the present book, register is used as a cover term for any variety associated with particular situational contexts or purposes.

61

Todavia, os registros são definidos em termos de características situacionais /

funcionais. Os tipos de texto, por outro lado, são definidos linguisticamente. Biber

(1995) acrescenta que o agrupamento de textos que são semelhantes em termos

linguísticos, ou seja, são tipos de texto, pode ser identificado de forma empírica por

meio de um procedimento estatístico denominado cluster analysis. Os clusters

resultantes são interpretados como tipos de texto, levando em consideração as

características linguísticas, situacionais e funcionais dos textos agrupados em cada

cluster.

2.3.1.5 Fator

Biber (1995) define fator como um conjunto de traços que coocorrem

significativamente em termos estatísticos. Eles são extraídos por meio da análise

fatorial, procedimento estatístico em que um grande número de variáveis, os traços

linguísticos, são reduzidas a um pequeno conjunto de variáveis subjacentes derivadas.

De acordo com Berber Sardinha (2004a, p. 304), “Um fator é um grupo de variáveis que

coocorrem significativamente do ponto de vista estatístico.” Ainda, segundo Berber

Sardinha, apesar de a análise fatorial (explicada adiante) ser usada em estudos de AMD,

“não há métodos estatísticos comprovadamente eficazes para a identificação do número

exato de fatores subjacentes a um conjunto de dados” (2004b, p. 304).

2.3.1.6 Dimensões

Segundo Biber (1995, p. 83), dimensões são por definição os parâmetros

linguísticos de variação importantes do ponto de vista funcional representados

estruturalmente em cada língua. Essas dimensões identificam as estruturas linguísticas

comparáveis entre línguas, isto é, como elas se assemelham ou diferem entre si. Ainda

segundo Berber Sardinha, dimensão “é o estatuto que um fator assume assim que é

interpretado do ponto de vista de sua função comunicativa” (2004b, p. 304). Segundo o

mesmo autor, por meio da dimensão é possível visualizar características em comum

compartilhadas. Biber (1995) esclarece que as dimensões usadas na AMD são

parâmetros de variação contínuos e cada dimensão possibilita distinguir entre um leque

62

contínuo de textos ou registros.

As dimensões de variação têm conteúdo linguístico e funcional (Biber, 1995).

No âmbito linguístico, o conteúdo refere-se a um conjunto de traços linguísticos, como

nominalizações, sintagmas preposicionais, adjetivos distributivos, etc., que coocorrem

com uma alta frequência nos textos. Ele acrescenta que, ao assumirmos que a

coocorrência reflete uma função partilhada, esses padrões de coocorrência são

interpretados em termos das funções situacionais, sociais e cognitivas mais amplamente

compartilhadas pelos traços linguísticos. Isto é, traços linguísticos coocorrem em textos

porque eles refletem funções compartilhadas (BIBER, 1995, p. 30, minha tradução)31.

2.3.2 Análise Fatorial

Biber (1995) explica que, na Análise Multidimensional, as dimensões

representam conjuntos de traços linguísticos que coocorrem. A identificação desses

padrões de coocorrências é feita através de uma técnica estatística chamada análise

fatorial. Na análise fatorial, uma grande quantidade de variáveis originais é reduzida a

um conjunto de variáveis subjacentes chamadas fatores. Por meio da análise fatorial é

possível identificar grupos de traços linguísticos que coocorrem com bastante

frequência nos textos. Esses grupos são interpretados como dimensões textuais. De

acordo com o autor, o uso da análise fatorial para textos requer dois pressupostos, a

saber: são relativamente poucos os parâmetros funcionais subjacentes de variação

linguística em inglês; a coocorrência frequente de traços linguísticos em textos indica a

existência de uma função comunicativa subjacente que aqueles traços compartilham.

2.3.2.1 Diagrama de sedimentação

O diagrama de sedimentação é gerado a partir das comunalidades (que é o

quanto cada variável se relaciona com as outras). Ele possibilita determinar o número de

31 No original: Based on the assumption that co-occurrence reflects shared function, these co-occurrence patterns are interpreted in terms of the situational, social, and cognitive functions most widely shared by the linguistic features. That is, linguistic features co-occur in texts because they reflect shared functions.

63

fatores através da representação gráfica dos valores Eigen.

2.3.2.2 Anova32

De acordo com Biber (1995), ANOVA é um procedimento usado para testar

se há diferenças estatísticas significantes entre registros no que diz respeito às

dimensões.

2.3.2.3 R quadrado (ou R²)

O valor de R² é uma medida importante. O valor de R² mede o percentual de

variância entre os escores das dimensões que podem ser previstos conhecendo as

categorias de registros. Segundo (SOUZA, 2012), “sob a ótica da AMD, isso quer dizer

que o valor de R² ajustado explica quanto da variação de um determinado fator é

dependente do fator fixo considerado” (SOUZA, 2012, p. 173).

2.3.2.4 Escore

De acordo com Berber Sardinha (2000a), escore é a soma padronizada relativa

às quantidades das variáveis existentes em cada fator. Essa soma é a dos valores

padronizados, que têm como base a média e o desvio padrão, para que textos de

tamanhos diferentes não tenham escores influenciados pelo seu tamanho. É o valor

computado pela “Soma de frequência de cada um dos traços em um fator, para cada um

dos textos”33 (BIBER, 1988, p. 121).

32Dois conceitos: A função Análise de Variância de um fator realiza uma análise de variância simples, que somente investiga a hipótese de que as médias de várias amostras são iguais. Geralmente a análise é um processo estatístico de que se utiliza para determinar se as médias de duas mostras ou mais vêm da mesma população. Disponível no endereço www.laits.utexas.edu/orkelm/excelpor/anova1por.htm. The Analysis Of Variance, popularly known as the ANOVA, can be used in cases where there are more than two groups. It is used to compare the means of more than two samples. Disponíve no endereço https://explorable.com/anova. (A Análise de Variação, popularmente conhecida por ANOVA, pode ser usada em casos onde há mais de dois groups. Ela é usada para comparar a média de mais de duas amostras.) .

33 “…factor scores are computed by summing the frequency of each of the features on a factor, for each text;”

64

2.3.2.5 Variáveis

Variáveis são grupos que coocorrem de características e categorias linguísticas

gerados por meio da análise fatorial.

2.3.3 Desenvolvimento e premissas da AMD

Em 1988, através do uso de um procedimento estatístico multivariado para

descrever padrões de coocorrência em textos, Biber redefiniu um conjunto de

características de discurso falado / escrito. Por conseguinte, ele desenvolveu a Análise

Multidimensional, um modelo de pesquisa baseado em corpus, que pode ser aplicado a

contextos mais especializados. Segundo Friginal (2013), muito dos fundamentos da

AMD vieram da pesquisa de doutoramento de Biber e do trabalho que fez em parceria

com Edward Finegan na University of Southern California.

Segundo Biber, até 1988, os estudos de registros eram feitos de forma

comparativa. Biber (1988) diz que, tradicionalmente, a maioria das análises era feita em

dois passos. No primeiro, é feita uma distinção funcional ou situacional dos textos. O

segundo passo consiste em identificar os traços linguísticos associados àquela distinção.

No entanto, eram feitos de maneira limitada. Para o autor, tais estudos comparavam um

leque restrito de registros de variação em um único parâmetro situacional. A abordagem

da Análise Multidimensional proposta por Biber foi desenvolvida para ampliar esse

leque. Segundo Biber (1988), por meio da AMD, é possível descrever as relações entre

todos os registros em uma língua, no que tangem aos múltiplos parâmetros linguísticos

de variação.34

Biber (1988) esclarece que a abordagem da Análise Multidimensional tem

algumas características de destaque, quais sejam:

1. É baseada em corpus e depende da análise de um grande número de

textos naturais.

2. Depende de análises automáticas de traços linguísticos nos textos

34 MD analyses describe the relationships among the full range of registers in a language, with respect to multiple linguistic parameters of variation.

65

que requer o uso de computador. Essa característica permite a análise equitativa

de muitos traços linguísticos em muitos textos e variedades textuais.

3. O objetivo dessa abordagem é a análise linguística de textos,

gêneros, tipos de textos, estilos ou registros, ao invés da análise de construções

linguísticas individuais.

4. A abordagem presume a importância das perspectivas variacionista e

comparativa. Isso significa dizer que a abordagem é baseada na suposição de que

tipos diferentes de texto diferem linguisticamente e funcionalmente, de modo que

a análise de uma ou duas variedades de texto quaisquer não é adequada para

conclusões na esfera do discurso (por exemplo, a fala e a escrita em inglês).

5. A abordagem é explicitamente multidimensional. Isto é, Presume-se

a operação de muitos parâmetros de variação na esfera do discurso.

6. É quantitativa. As análises são baseadas na contagem de frequências

dos traços linguísticos e técnicas estatísticas multivariadas para a análise das

relações dos traços linguísticos entre os textos.

7. Ela sintetiza as abordagens quantitativa e funcional. Isto é, as

análises estatísticas são interpretadas em termos funcionais para determinar as

funções comunicativas subjacentes, associadas ao padrão distributivo. A

abordagem é baseada na suposição de que padrões estatísticos de coocorrência

são reflexos de funções comunicativas compartilhadas.

8. Ela sintetiza as abordagens microscópica e macroscópica. Isto é,

investigações microscópicas dos parâmetros gerais de variação linguística, que

são baseadas na análise da distribuição de muitos traços linguísticos em muitos

textos e gêneros, são complementadas por análises detalhadas de traços

específicos em textos específicos.

Em Variation Across Speech and Writing, em que ele descreve o uso da AMD

em detalhe, Biber (1988) explica que parâmetros situacionais ou funcionais, tais como

formalidade / informalidade, interatividade / não-interatividade, literário / coloquial e

restrito / elaborado sempre foram usados para a descrição de um texto. Ele concorda que

66

esses parâmetros podem ser usados como dimensões para descrever um texto. No

entanto, o autor defende que, para que um texto seja descrito de maneira mais apurada,

ele precisa ser descrito dentro de um continuum. Assim, um texto pode ser considerado,

por exemplo, em termos de formalidade, como mais ou menos formal. Isto é, o

parâmetro da formalidade deixa de ter os dois polos – formal / informal – e passa a ser

considerado uma dimensão contínua de variação.

De acordo com Souza, na Análise Multidimensional

...os dados de análise são as frequências dos padrões linguísticos determinados, os quais oferecem a caracterização quantitativa de um texto de modo que ele possa ser comparado com outros. Essas frequências são usadas para identificar a coocorrência de padrões em textos que levam à determinação de uma dimensão, que é caracterizada por uma variável de polaridade positiva ou negativa.

(SOUZA, 2012, p. 105)

Ainda, segundo a autora, as polaridades são medidas em escores, que são

valores que resultam da somatória das frequências de cada característica em um fator

para cada um dos textos.

Segundo Biber (1988), na abordagem tradicional, o agrupamento de traços é

identificado em termos das funções que eles compartilham; no entanto, eles não

representam, necessariamente, dimensões linguísticas. Com a AMD, Biber propõe o

oposto. Ele sugere que técnicas quantitativas sejam usadas para a identificação de

grupos de traços que realmente coocorrem nos textos. Posteriormente, esses

agrupamentos são interpretados em termos funcionais. Assim, é dada prioridade à

dimensão linguística, em detrimento da vertente funcional. A abordagem de Biber parte

da premissa de que a forte coocorrência de padrões linguísticos marca dimensões

funcionais subjacentes. Isso porque, para a AMD, traços não ocorrem de maneira

aleatória nos textos. Segundo Biber (1988)35,

Traços não coocorrem aleatoriamente nos textos. Se alguns traços coocorrem

35 Features do not randomly co-occur in texts. If certain features consistently co-occur, then it is reasonable to look for an underlying functional influence that encourages their use. In this way, the functions are not posited on an a priori basis; rather they are required to account for the observed co-occurrence patterns among linguistic features.

67

sistematicamente, então é razoável procurar uma influência funcional subjacente que influencie o seu uso. Dessa forma, as funções não são vistas a priori, mas como responsáveis pelos padrões de coocorrência observados entre os traços linguísticos.

(BIBER, 1988, p. 13)

Além da situação de uso do texto ou de sua função (noção situacional ou

funcional), a dimensão também pode ter uma perspectiva linguística, conforme explica

Biber (1988)36:

Da mesma forma que textos podem ser descritos e comparados em termos de sua caracterização

situacional, existem dimensões que comparam textos em termos de sua caracterização linguística, por exemplo,

nominal versus verbal, ou estruturalmente complexo versus estruturalmente simples.

(BIBER, 1988, p.12)

Embora tenha caráter essencialmente quantitativo e computacional (BERBER

SARDINHA, 2000a), a Análise Multidimensional é uma metodologia que permite fazer

análises tanto quantitativas quanto qualitativas. As primeiras são realizadas por meio de

um procedimento estatístico, a análise fatorial. As qualitativas, no entanto, emergem da

interpretação dos conjuntos de variáveis resultantes da aplicação das soluções

estatísticas. As técnicas estatísticas servem para investigar a distribuição qualitativa de

traços linguísticos entre textos e variedades de texto e também para analisar a

coocorrência linguística por meio da identificação de dimensões subjacentes de variação

através de uma análise fatorial.

Essas dimensões têm interpretação de conteúdo linguístico e funcional /

situacional, o que possibilita fazer uma descrição abrangente dos registros de variação

linguística e do uso da língua (BIBER & CONRAD, 2009). Elas permitem descrever

como, por meio das características linguísticas, e quanto, a partir de um valor ou escore,

um registro se aproxima ou distancia de outro em termos de semelhança.

O conteúdo linguístico é um conjunto de traços, como substantivos, adjetivos

atributivos e locuções prepositivas, que coocorrem com uma frequência variável

36 In the same way that that texts can be describe can compared in terms of their situational characterization, there are dimensions that compare texts in terms of their linguistic characterization, e.g., nominal versus verbal, or structurally complex versus structurally simple.

68

marcada nos textos. A coocorrência desses traços gera as dimensões, que são as

interpretações de caráter funcional dos traços linguísticos, ou seja, para quais funções a

língua serve.

Em seu estudo, Biber (1988) identificou cinco dimensões principais de

variação em um corpus geral de registros falados e escritos do inglês britânico. Para

isso, Biber criou um corpus a partir de textos compilados de dois corpora. Os textos

escritos foram extraídos do Corpus Lancaster-Oslo-Bergen (LOB) e as transcrições de

eventos falados foram extraídas do Corpus London-Lund, representativos de 23

categorias principais de registro, como prosa acadêmica, ficção, reportagem impressa,

cartas, entrevistas, discursos públicos, entre outros. A partir de uma análise da literatura,

foram selecionadas 67 características linguísticas, de cunho lexical e gramatical. Essas

características linguísticas foram divididas em 16 categorias, quais sejam: 1)

marcadores de tempos e aspectos verbais (presente, passado e perfectivos); 2) advérbios

de lugar e de tempo; 3) pronomes; 4) interrogações; 5) formas nominais; 6) passivas; 7)

verbos de estado (do como principal e there indicando existência); 8) características de

subordinação (complementos, infinitivos, formas de particípio, pronomes relativos,

orações subordinadas adjetivas e adverbiais); 9) sintagmas preposicionais, adjetivos

(atributivos e predicativos) e advérbios; 10) especificidade lexical (razão forma/item e

tamanho das palavras); 12 modais (de possibilidade, de necessidade e de predição); 13)

classes especiais de verbo (dicendi, de cognição e de persuasão); 14) formas reduzidas

(contrações); 15) coordenação; e 16) negação sintética e analítica.

Essas características foram usadas para a codificação manual e automática do

seu corpus, que continha 960 mil palavras distribuídas nos 481 textos. Ao final da

codificação, na qual etiquetas lexicais e gramaticais (etiquetagem morfossintática)

foram atribuídas ao corpus, o pesquisador deu prosseguimento à análise. A tabela

abaixo mostra a composição do corpus de estudo de Biber (1988).

69

REGISTRO NÚMERO DE TEXTOS

NÚMERO APROXIMADO DE

OCORRÊNCIAS

Linguagem escrita - LOB

Biografia 14 30.000

Cultura popular 14 30.000

Documento oficial 14 28.000

Imprensa – editorial 27 54.000

Imprensa – reportagem 44 88.000

Imprensa – resumo 17 34.000

Ficção científica 6 12.000

Ficção aventura 13 26.000

Ficção de mistério 13 26.000

Ficção geral 29 58.000

Ficção romântica 13 26.000

Hobbies 14 30.000

Humor 9 18.000

Prosa acadêmica 80 160.000

Religião 17 34.000

Carta pessoal 6 6.000

Carta profissional 10 10.000

Linguagem oral – LLC Corpus

Conversa face a face 44 115.000

Conversa telefônica 27 32.000

Discurso espontâneo 16 26.000

Discurso preparado 14 31.000

Entrevista 22 48.000

Transmissões 18 38.000

Total 481 960.000

TABELA 1: CORPUS USADO POR BIBER (1988). FONTE: ADAPTADO DE SOUZA, 2012.

70

A análise é dividida em duas partes: a primeira, de cunho quantitativo, e a

segunda, qualitativo. Para a primeira etapa, Biber usou um procedimento estatístico – a

análise fatorial, que utiliza a contagem dos traços linguísticos identificados. Cada traço

é referente a uma variável, para a identificação dos fatores. Segundo Biber, cada fator

representa uma área de grande distribuição de variação nos dados, um grupo de traços

linguísticos que coocorrem com grande frequência.37

Biber usou o procedimento estatístico da análise fatorial para identificar

grupos de traços linguísticos associados com cada dimensão. Ele definiu seis fatores,

que resultaram na identificação das seis dimensões abaixo:

1. Produção com interação versus informacional;

2. Preocupações narrativas versus não-narrativas;

3. Referências explícitas versus dependentes do contexto;

4. Expressão explícita de persuasão versus não-explícita;

5. Informação abstrata versus não-abstrata;

6. Elaboração informacional on-line.38

Vale ressaltar que um sétimo fator foi identificado. No entanto, quando do

processo de interpretação, esse fator foi descartado, pois não foi possível uma

interpretação conclusiva a seu respeito. Dessa forma, restaram seis fatores, cujas

interpretações resultaram nas dimensões acima.

A partir de novos estudos com o corpus usado no estudo de 1988, Biber

(2009) desconsiderou a sexta dimensão. Adicionalmente, ele alterou os nomes das

dimensões e também inverteu a polaridade da terceira dimensão. As cinco dimensões de

Biber (2009) com os nomes revistos, são elencadas abaixo e descritas no item seguinte,

com alguns traços linguísticos que as caracterizam.

37 “That is, each factor represents an area of high shared variance in the data, a grouping of linguistic features that co-occur with a high frequency.” (BIBER, 1988, p. 79 , tradução minha).

38 “(1) Informational versus Involved Production, (2) Narrative versus Non-Narrative Concerns, (3) Explicit versus Situation-Dependent Reference, (4) Overt Expression of Persuasion, (5) Abstract [versus] Non-Abstract Information, (6) On-line Informational Elaboration” (BIBER, 1988, p. 115).

71

Dimensão Nome

1 Produção com envolvimento versus informacional

2 Discurso narrativo versus não-narrativo

3 Referência dependente da situação versus elaborada

4 Argumentação explícita

5 Estilo abstrato versus não-abstrato

QUADRO 4: DIMENSÕES DE BIBER (2009) REVISADAS. FONTE: ADAPTADA DE BERBER SARDINHA, 2013

72

2.3.4 Dimensões de Biber e seus traços

Dimensão 1: Produção com interação versus informacional

Na dimensão 1, a variação ocorre num continuum que compreende diferenças

entre a linguagem falada e a linguagem escrita. O polo positivo é marcado por conteúdo

com interação, envolvimento e posicionamento. No outro extremo, o polo negativo,

tem-se o lado altamente elaborado e editado, com precisão de palavras, marcado por

registros informacionais, como documentos oficiais e de prosa acadêmica, com alta

densidade informacional. Biber afirma que esta dimensão é muito forte e representa um

parâmetro fundamental de variação entre textos em inglês. Esta dimensão é

caracterizada linguisticamente pela presença dos traços mostrados no Quadro 5, entre

outros:

Polo positivo

(produção com interação)

Polo negativo

(informacional)

- verbos privados

- apagamento do THAT

- contrações

- verbos no presente

- pronomes de 1ª e 2ª pessoas

- pronomes demonstrativos

- amplificadores

- perguntas com WH

- modais de possibilidade

- pronomes indefinidos

- BE como verbo principal

- preposição em final de frase

- orações adjetivas

- substantivos

- preposições

- adjetivos atributivos

- apagamento de pronome relativo WH

e verbo de ligação em construções

do particípio presente e também do

passado.

- voz passiva sem agente

- palavras longas

QUADRO 5: TRAÇOS DA DIMENSÃO 1 (FONTE: ADAPTADO DE BIBER, 1988)

73

Dimensão 2: Preocupações narrativas versus não-‐narrativas

A dimensão 2 distingue o discurso com propósitos narrativos do discurso com

propósitos não-narrativos (de exposição, descritivo, etc). Ela compreende a presença ou

a ausência de características que marcam os textos narrativos. Nesta dimensão, o polo

positivo concentra as características que são relevantes estatisticamente. Não há traços

estatisticamente relevantes no polo negativo. Sendo assim, a interpretação do fator 2 e a

nomeação da dimensão considera os traços do polo positivo. Esta dimensão é marcada

por registros de ficção, com os maiores escores médios nesta dimensão. No polo

negativo, há registros com menos preocupações narrativas, como documentos oficiais,

conversas telefônicas, cartas profissionais, prosa acadêmica e transmissões.

Polo positivo

(preocução narrativa)

Polo negativo

(preocução não-narrativa)

- verbos no pretérito

- pronomes de 3ª pessoa

- verbos em aspecto perfectivo

- verbos públicos

- orações de particípio presente

- negação sintética

- não há características estatisticamente relevantes


74

Dimensão 3: Referências explícitas versus dependentes do contexto

A dimensão 3 distingue o discurso que identifica referência completa e

explicitamente por meio da relativização e o discurso que tem como base o uso de

dêiticos e referências externas para propósitos de identificação. No polo positivo

(referência explícita) estariam localizados documentos oficiais, por exemplo, que

precisam de clareza para evitar ambiguidades. No outro extremo estariam, por exemplo,

conversas telefônicas e conversas face a face. Os dois polos da dimensão 3 são

caracterizados por:

Polo positivo

(referência explícita)

Polo negativo

(dependente do contexto)

- orações adjetivas na função de

objeto

- orações adjetivas na posição de

sujeito

- construções com a preposição em

posição frontal39

- nominalizações

- expressões adverbiais de tempo

- expressões adverbiais de lugar

- advérbios


Dimensão 4: Expressão explícita de persuasão versus não-‐explícita

O polo negativo desta dimensão não tem traços marcados. No polo negativo

encontram-se textos concisos, como resenhas. Biber (1988) defende que os traços do

polo positivo em conjunto expressam a opinião ou posicionamento do autor, com estilos

de argumentação para persuadir o ouvinte (destinatário). Ela não contém traços

negativos e os traços do polo positivo marcam um continuum entre a presença e a

ausência de traços que marcam a persuasão. Somente o polo positivo apresenta

características na dimensão 4:

39 Pied-piping constructions.

75

Polo positivo

(persuasão explícita)

Polo negativo

(persuasão não-explícita)

- infinitivos

- modais de predição

- verbos de persuasão (pedir, recomendar, concordar, etc.)40

- modais de necessidade

- modais de possibilidade

- não há características


Dimensão 5: Informação abstrata versus não-‐abstrata

Esta dimensão distingue textos cujo foco é a informação altamente abstrata,

como a prosa acadêmica e técnica de textos com foco não abstrato. Não há traços

estatisticamente relevantes no polo negativo. Algumas das características da dimensão 5

são:

Polo positivo

(estilo abstrato)

Polo negativo

(estilo não-abstrato)

- conjunções

- voz passiva sem agente

- voz passiva com agente

- apagamento de pronome relativo WH

em construções de particípio passado

- adjetivos predicativos

- razão forma / item


Com seu trabalho, Biber (1988, 2009) mostra a inter-relação entre registros

falados e escritos. Essa relação foi estabelecida nas dimensões de variação da língua

40 Suasive verbs.

76

inglesa identificadas. Friginal (2013, p. 3) acrescenta que Biber desenvolveu quatro

características metodológicas primárias necessárias para a execução da Análise

Multidimensional. São elas:

Uso de corpora de textos armazenados em computador, que servem de banco

de dados padronizados e de pronto acesso a uma gama de variação em situações e

propósitos comunicativos;

Uso de programas de computador para contar a frequência de certos traços

linguísticos em uma grande gama de textos, proporcionando a análise da distribuição de

muitos traços linguísticos em muitos textos e registros;

Uso de técnicas estatísticas multivariadas (a Análise Fatorial) para determinar

relações de coocorrência entre os traços linguísticos; e

Uso de análises microscópicas para interpretar os parâmetros funcionais

subjacentes aos padrões de coocorrência identificados quantitativamente.

2.3.5 Trabalhos com AMD

Segundo Xiao (2009), a abordagem da Análise Multidimensional para análise

de registro desenvolvida por Biber (1988) para comparar registros falados e escritos em

inglês tem sido aplicada para um amplo leque de pesquisas em variação linguística.

Entre essas áreas de pesquisa, podem ser destacadas:

Análises sincrônicas de registros e gêneros específicos e de autoria;

Estudos diacrônicos que descrevem a evolução de registros;

Pesquisa de inglês usado na universidade e desenvolvimento de materiais;

Análise de movimento e estudo de estrutura do discurso.

A AMD também tem sido aplicada a questões referentes a desenho de corpora

e também a questões relacionadas a registros / gêneros e tipos de texto. Xiao (2009)

acrescenta que, apesar de ser muito relacionado a estudos de categorias gramaticais, o

modelo da AMD tem incorporado também estudos de categorias semânticas e de classes

de palavras.

Conforme explica Biber, a Longman Grammar of Spoken and Written English

77

e a Cambrige Grammar of English são trabalhos de referência que aplicam análises

baseadas em corpus para mostrar como qualquer traço gramatical pode ter tanto as suas

características estruturais quanto os padrões de uso entre os registros falado e escrito

discutidos. Biber observa que há muitos estudos que descrevem a variação linguística

dentro de um contexto de um registro específico. São, na maioria, de um tipo de registro

acadêmico. Biber destaca ainda que estudos que identificam pacotes lexicais (lexical

bundles), que são peças importantes do discurso, podem ser feitos com o uso da Análise

Multidimensional (AMD).

Desde o trabalho de Biber (1988), é crescente o número de trabalhos com

Análise Multidimensional, entre outros: Biber, 1995; Berber Sardinha, 2000a; Biber et.

al, 2002b; Biber, 2006; Biber et al., 2006; Venegas, 2010; Gray, 2013; Cao & Xiao,

2013; Hardy & Römer, 2013.

Da mesma forma, a partir desse trabalho em que Biber mostra a inter-relação

entre os registros falados e escritos, estabelecida nas dimensões identificadas, a

quantidade de pesquisas com Análise Multidimensional vem crescendo no Brasil.

Esse avanço pode ser visto em dissertações e teses do Programa de Pós-

Graduação em Linguística Aplicada e Estudos da Linguagem (LAEL), na PUC-SP.

Destacam-se, dentre outros, Conde (2002), que investigou e comparou escolhas léxico-

gramaticais em composições escritas por alunos de inglês como língua estrangeira;

Shergue (2003), cujo estudo tem como ponto de partida uma necessidade da

comunidade médica acadêmica: usar a língua inglesa de maneira competente para fazer

apresentações orais e escrever artigos; Kauffmann (2005), que identificou semelhanças

e diferenças linguísticas em um corpus composto por textos e gêneros de um jornal

brasileiro, representativo da língua portuguesa de imprensa diária; Acunzo (2012), que,

a partir da extração dos padrões lexicogramaticais de um corpus de textos de

publicidade, propôs atividades de ensino para estudantes da respectiva área; Souza

(2012), cujo trabalho faz uma análise das matérias de capa da revista americana Time

desde 1923 até 2011, descrevendo suas dimensões de variação linguística ao longo de

quase um século; Delegá-Lúcio (2013), em cuja pesquisa a autora verifica a variação

78

entre textos argumentativos escritos por estudantes de inglês, com o propósito de

desenvolvimento de material didático para o ensino de inglês; Veirano Pinto (2013), que

investigou as dimensões na linguagem de 80 anos do cinema falado americano; e

Zuppardo (2014), que, visando contribuir para o ensino de inglês específico para a

aviação, usou a AMD para mapear a variação lexical e gramatical de manuais

aeronáuticos. A autora mostrou que eles são altamente informacionais e não-narrativos,

e apresentam variação entre eles.

A abordagem da Análise Multidimensional tem sido uma grande contribuição

para uma melhor compreensão da linguagem usada em diferentes contextos e situações.

O caráter analítico da abordagem da AMD faz com que ela seja apropriada para esta

pesquisa, pois ela permite a identificação de padrões de coocorrência dos artigos que

compõem o corpus de estudo. Ademais, seu uso possibilita verificar como a linguagem

varia sistematicamente em textos de uma mesma língua.

Na seção seguinte são apresentados o corpus utilizado na pesquisa e o

processo de análise de dados.

79

3. METODOLOGIA

3.1 DESCRIÇÃO DO CORPUS DE ESTUDO

Para este estudo foi necessário desenhar um corpus que fosse uma amostra

representativa do registro acadêmico em forma de artigos escritos em língua inglesa.

Conforme apontam Gray (2013) e Hardy & Römer (2013), estudos com Análise

Multidimensional mostram a variação na linguagem de uma disciplina para outra.

Ainda, Biber & Conrad (2009) explicam que, para identificar traços linguísticos em um

registro, é necessário que sejam feitas comparações com outros. Por esses motivos,

embora a escrita de pesquisadores brasileiros seja o que motivou este estudo, sua

comparação com textos de outras origens parece ser essencial para uma descrição nítida

do que é tipicamente traço da escrita de brasileiros.

Sendo assim, foram estabelecidos critérios que englobassem essas sugestões.

Foram elencadas dez diferentes áreas de conhecimento para elaboração do corpus de

estudo e nove diferentes origens, entre as quais falantes nativos e não-nativos, para fins

comparativos. Isso permite traçar um panorama mais abrangente dos padrões do registro

acadêmico do que o atualmente disponível na literatura de Análise Multidimensional

(Cf. BIBER, 1988).

Para satisfazer os critérios estabelecidos acima, foi utilizado na pesquisa o

corpus eletrônico denominado Corpus of English Research Articles (sigla CERA), de

grande extensão. O número de artigos das áreas elencadas, que foram minuciosamente

coletados para a compilação do corpus, atende à necessidade de representatividade

proposta por Biber (1993; 2006). Ele diz que há duas considerações principais que

influenciam a representatividade de um corpus. São elas o tamanho e a diversidade.

Para Biber, “um corpus deve ser ‘representativo’ para ser usado de maneira apropriada

como base para generalizações sobre uma língua como um todo” (1993, p. 1; minha

80

tradução)41. As origens dos pesquisadores e as diferentes áreas fornecem os dados

necessários para uma análise dos padrões linguísticos do artigo acadêmico escrito em

inglês.

Ainda sobre a importância da conformação do corpus, Berber Sardinha

(2004b) discorre sobre tipologia e esclarece que a nomenclatura usada em Linguística

de Corpus para sua classificação é bastante extensa, conforme mostrado na

Fundamentação Teórica. Tomando como base essa tipologia, pode-se dizer que o

corpus deste estudo apresenta o seguinte perfil: O modo deste corpus é escrito. Quanto

à temporalidade, ele é contemporâneo – os artigos coletados foram publicados entre

2001 e 2013. Sua seleção é de amostragem, pois ele é composto por trechos de textos

que são uma amostra da linguagem como um todo. Seu conteúdo é especializado: os

textos são de tipos específicos definidos – artigos acadêmicos.

Para a compilação ou criação do corpus foram escolhidos textos de uma

linguagem específica ou corpus do tipo especializado, de artigos acadêmicos, cujos

parâmetros de seleção envolvem origem do autor e área de pesquisa do autor. Os dados

que compõem o corpus foram coletados entre janeiro e dezembro de 2013. Os artigos

foram baixados de periódicos estrangeiros através do site Directory of Open Access

Journals42 e por meio da página Periódicos Capes43. O conteúdo assinado do Portal de

Periódicos Capes foi acessado via Instituto Federal do Espírito Santo, instituição à qual

o pesquisador é filiado e que é parte da Rede Nacional de Ensino e Pesquisa (RNP).

Vale ressaltar que, devido às dificuldades encontradas na compilação do corpus, muitos

dos periódicos que serviram como fonte não são os mais prestigiosos das áreas.

O corpus de estudo é composto de 900 artigos de dez diferentes áreas de

conhecimento, escritos por pesquisadores de nove origens. Das nove origens, três são

41 “a corpus must be 'representative' in order to be appropriately used as the basis for generalizations concerning a language as a whole”.

42 DOAJ é um diretório que indexa e fornece acesso livre a periódicos renomados revisados por pares. Disponível em www.doaj.org.

43 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior.

81

países cujos autores são falantes nativos de inglês e as outras seis são de países que não

tem o inglês como primeira língua. A escolha de autores nativos e não-nativos foi feita

para que a análise da escrita desses perfis pudesse ser comparada. As áreas de

conhecimento, assim como a origem e a quantidade de artigos por áreas podem ser

vistas no Quadro 3 abaixo.

ORIGEM

__________

ÁREAS

Brasil

China

Índia

Canadá

Reino

Unido

Estados

Unidos

França

Alemanha

Itália

Química 100 100 100 100 100 100 100 100 100

Engenharia e Ciência da Computação

100 100 100 100 100 100 100 100 100

Engenharia 100 100 100 100 100 100 100 100 100

Ciências da Vida 100 100 100 100 100 100 100 100 100

Pesquisa de Materiais 100 100 100 100 100 100 100 100 100

Física e Astronomia 100 100 100 100 100 100 100 100 100

Psicologia 100 100 100 100 100 100 100 100 100

Economia 100 100 100 100 100 100 100 100 100

Antropologia 100 100 100 100 100 100 100 100 100

Linguística 100 100 100 100 100 100 100 100 100

QUADRO 10: CERA: ORIGEM, ÁREAS E NÚMERO DE TEXTOS

No âmbito deste estudo, “origem” refere-se ao local de nascimento e trabalho

do pesquisador. O periódico de onde o artigo foi coletado, no entanto, pode ser uma

publicação de qualquer país, contanto que tenha sido escrita em inglês. Vale acrescentar

que, para artigos com mais de um autor, foi considerada a origem do primeiro autor

citado, pois parece ser um padrão que esse autor seja o de maior relevância. Textos de

82

coautoria os quais um dos autores é um falante nativo foram descartados.

Este corpus busca atender as sugestões de representatividade propostas por

Biber (1993) e Berber Sardinha (2004a). O corpus contém 93.570 itens (types) e

5.008.411 ocorrências (tokens), números que o enquadram, na classificação proposta

por Berber Sardinha (2004b), como um corpus médio-grande. Segundo o mesmo autor,

um corpus com 91.161 palavras já seria suficiente para englobar a variação das

categorias morfossintáticas da língua inglesa. O número de tokens (ocorrências) e de

types (itens) foram obtidos através da ferramenta WordList do programa WordSmith

Tools, versão 6.

A seleção das áreas de pesquisa foi feita em dois passos, levando em

consideração a questão das publicações de brasileiros em periódicos de língua inglesa,

que é o cerne desta pesquisa. Primeiramente, elas foram feitas tomando como base o

indicador de periódicos científicos SCImago Journal & Country Rank, que disponibiliza

gratuitamente dados de produção de todas as grandes áreas de estudo. Ele classifica

tanto os periódicos, de acordo com o número de citações (fator de impacto), quanto os

países, a partir de sua produção científica. Tais classificações estão disponíveis no

endereço eletrônico http://www.scimagojr.com, que é a página do indicador, e no sítio

do National Science Foundation Graduate Research Fellowship Program44.

A partir da seleção inicial, o passo seguinte foi consultar a Tabela de Áreas de

Conhecimento, da Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível

Superior (CAPES) e do Conselho Nacional de Desenvolvimento Cientifico e

Tecnológico (CNPq). Dessa consulta, foram elencadas as dez áreas de conhecimento

que melhor se comparavam àquelas selecionadas nos dados do indicador SCImago

Journal & Country Rank. Vale acrescentar que as áreas sem um equivalente específico

na tabela brasileira receberam uma tradução condizente com a nomenclatura usada no

Brasil. São elas: COMPUTER AND INFORMATION SCIENCE AND ENGINEERING

44 O National Sience Foundation (NFS) Graduate Research Fellowship Program (GRFP) é o programa de bolsas de pós-graduação mais antigo dos Estados Unidos. Endereço eletrônico: http://www.nsfgrfp.org/general_resources/about.

83

(CISE) (ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO), LIFE SCIENCES

(CIÊNCIAS DA VIDA), MATERIALS RESEARCH (PESQUISA DE MATERIAIS) e

PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA).

Optei por registrar as áreas de conhecimento em inglês, por ter sido esse o

idioma utilizado para pesquisar e garimpar nos periódicos disponíveis na internet os

textos que compõem o corpus. Cada item dos quadros é acompanhado de sua tradução,

em parênteses. Foram elencados artigos acadêmicos representativos de países com

grande produção acadêmica, escritos em inglês, por autores de três categorias de

origens: a) falantes nativos: Canadá, Estados Unidos e Reino Unido; b) países europeus:

Alemanha, França e Itália; e c) países com economia emergente, membros do BRICS45:

Brasil, China e Índia. Os Quadros 11 e 12, a seguir, mostram respectivamente as origens

dos pesquisadores e as nove áreas de pesquisa do corpus de estudo.

Falantes nativos BRICS Europa

Canadá

Estados Unidos

Reino Unido

Brasil

China

Índia

Alemanha

França

Itália

QUADRO 11: CERA: ORIGEM DOS PESQUISADORES

CHEMISTRY (QUÍMICA)

COMPUTER AND INFORMATION SCIENCE AND ENGINEERING (CISE) (ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO)

ENGINEERING (ENGENHARIA)

LIFE SCIENCES (CIÊNCIAS DA VIDA)

MATERIALS RESEARCH (PESQUISA DE MATERIAIS)

PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA)

PSYCHOLOGY (PSICOLOGIA)

ECONOMICS (ECONOMIA)

45 BRICS: grupo de cooperação política e econômica formado pelos seguintes países: Brasil, Rússia, Índia, China e África do Sul.

84

ANTHROPOLOGY (ANTROPOLOGIA)

LINGUISTICS (LINGUÍSTICA)

QUADRO 12: CERA: ÁREAS DE PESQUISA. FONTE: NATIONAL SCIENCE FOUNDATION GRADUATE RESEARCH FELLOWSHIP PROGRAM.

3.1.1 (Pré-)processamento do corpus

O processamento do corpus seguiu alguns passos que são comuns nos estudos

em Linguística de Corpus. Uma vez que esta pesquisa fez uso de um corpus específico,

ele precisou ser compilado a partir do modelo traçado, qual seja: um corpus com 900

artigos de dez áreas de estudo, de pesquisadores de nove origens diferentes, das quais

três provenientes de países falantes nativos do inglês. Tendo em vista que a origem foi

definida como local de nascimento e trabalho do pesquisador, todo artigo demandou

uma checagem de autoria, de modo a atender o desenho do corpus.

Um dos passos relevantes da pesquisa foi certificar-se minuciosamente de que

a autoria do artigo do corpus atenderia aos critérios estabelecidos no desenho do corpus.

Houve grande dificuldade de encontrar um curriculum vitae ou résumé dos

pesquisadores estrangeiros. Aparentemente, eles não mantêm um currículo em

plataformas, como a Lattes, comumente usada por pesquisadores brasileiros. Uma

alternativa encontrada foi pesquisar o local de nascimento e a formação acadêmica dos

autores. Desse modo, somente os artigos que atenderam aos requisitos foram mantidos.

Ou seja, aquele nos quais o local de nascimento e o de trabalho do pesquisador

coincidam.

À medida que os artigos eram encontrados e tinham sua autoria e origem

confirmadas, eram gravados no formato “portable document file” (arquivo de

documento portátil, ou pdf). Os artigos foram armazenados em subpastas das áreas de

85

estudo, dentro da respectiva pasta do país de origem do autor. Após a compilação dos

900 artigos em pdf, esses dados foram convertidos em artigos de texto (formato txt),

que são arquivos de textos sem formatação. Isto é, há apenas os caracteres do teclado

(letras, números e símbolos ortográficos). Os dados foram então armazenados em nove

pastas, uma para cada país, com dez subpastas cada, referentes às dez áreas de

conhecimento pesquisadas. As figuras abaixo mostram as pastas de organização e

armazenamento do corpus em formato txt. Na primeira (Figura 2), denominada TXT

ONLY, estão as nove subpastas com os países.

FIGURA 2: PASTA TXT ONLY.

86

Na Figura 3 abaixo, temos na pasta TXT ONLY, a subpasta BRAZIL, com a

subpasta BRAZIL CHEMISTRY. Ainda para efeito de ilustração, na Figura 4, pode ser

visto o primeiro dos dez artigos de química, em formato txt, da pasta BRAZIL

CHEMISTRY. Ele aparece com a anotação brazil_chemistry_1.

FIGURA 3: PASTA BRAZIL, COM SUBPASTA BRAZIL CHEMISTRY

FIGURA 4: BRAZIL_CHEMISTRY_1 EM TXT

87

Após a coleta e conversão dos artigos em textos sem formatação, iniciou-se o

processo de limpeza do corpus, que aconteceu em duas etapas. A primeira foi realizada

por meio de um script desenvolvido especialmente para esta pesquisa pelo orientador,

que utilizou o programa Cygwin46.

Concluindo a primeira etapa, os 900 textos foram submetidos ao script. A

Figura 5, abaixo, mostra um trecho do texto 5 da subpasta Linguística, Estados Unidos,

após a limpeza automática. A tela mostrada é a do editor de texto Notepad++47, usado

na segunda etapa da limpeza dos textos.

FIGURA 5: TEXTO US_SOC_SCIE_LINGUISTICS_5.TXT APÓS LIMPEZA AUTOMÁTICA

Posteriormente, todos os arquivos de texto foram revisados manualmente para

a eliminação de itens restantes que deveriam ter sido eliminados na limpeza automática.

Assim, por sugestão do orientador, foram retirados numerais, notas de rodapé e

46 Cygwin é um emulador gratuito do sistema operacional Unix para Windows, disponível online. Segundo Berber Sardinha (2004b, 54), “é uma ferramenta importante porque coloca à disposição do usuário de Windows um conjunto de utilitários fundamentais para a consecução de tarefas e pré-processamento de texto”.

47 Editor de texto versátil com suporte a várias linguagens de programação. Disponível gratuitamente no endereço: http://notepad-plus-plus.org/.

88

informações em cabeçalhos que não seriam computados para efeito de análise

linguística.

Após as etapas de pré-processamento, como conversão em formato txt e a

limpeza automática e manual, o corpus pôde ser processado por programas de análise

linguística. O primeiro usado foi o WordSmith Tools, versão 6.0, cuja ferramenta

WordList gerou os dados que são apresentados no Quadro 13 abaixo.

ORIGEM OCORRÊNCIAS (TOKENS) FORMAS (TYPES) TEXTOS

BRAZIL

(Brasil) 529.223 25.104 100

CHINA

(China) 447.951 20.441 100

INDIA

(Índia) 368.788 19.805 100

CANADA

(Canadá) 629.134 26.212 100

UK

(Reino Unido) 621.160 25.304 100

US

(Estados Unidos) 594.760 25.591 100

FRANCE

(França) 667.420 25.113 100

GERMANY

(Alemanha) 588.688 22.731 100

ITALY

(Itália) 561.287 26.012 100

TOTAL 5.008.411 93.570 900

QUADRO 13: COMPOSIÇÃO DO CERA. CONTAGEM OBTIDA PELA FERRAMENTA WORDLIST, DO PROGRAMA WORDSMITH TOOLS 6.0.

Para a geração do número de types e tokens com a ferramenta WordList foram

necessários os seguintes passos:

Primeiro, o programa deve ser aberto, conforme a figura abaixo. Em se

89

seguida, deve-se clicar em WordList, que é a terceira ferramenta na horizontal. Isso vai

gerar uma nova tela em que os artigos em txt deverão ser inseridos.

FIGURA 6: TELA DE ABERTURA DO WORDSMITH 6.0

90

A partir daí, clicar na palavra file (arquivo), no canto esquerdo da tela, e

depois escolher a opção new (novo). O resultado é a tela mostrada na Figura 7 abaixo.

Depois abrir a opção Choose Texts Now (tela abaixo), inserir o corpus para que ele seja

processado e clicar na caixa OK, do lado direito. Na presente pesquisa, foi incluído o

conteúdo da pasta CLEAN NOTEPAD, conforme aparece marcado na Figura 8.

FIGURA 7: TELA COM A OPÇÃO CHOOSE TEXTS NOW

FIGURA 8: INSERÇÃO DO CORPUS DA PASTA CLEAN NOTEPAD

91

Em seguida, clicar em OK, no canto direito da tela, e na opção Make a word

list now, que aparecerá na tela posterior. Dessa forma, o resultado é gerado, e aparece

como na tela abaixo (Figura 9). A partir daí, as palavras podem ser vistas listadas na

ordem alfabética, quanto à frequência e estatisticamente. A terceira opção forneceu o

número de types e tokens que foram mostrados no Quadro 13.

FIGURA 9: OUTPUT ESTATÍSTICO DA FERRAMENTA WORDLIST

92

3.2 PROCEDIMENTO DE ANÁLISE

O procedimento de análise seguiu os preceitos metodológicos propostos por

Biber para Análise Multidimensional. Berber Sardinha (2004a, p. 305) apresenta 13

itens que resumem os principais passos da AMD. Listamos aqui dez deles, que foram

seguidos nesta pesquisa. Ressaltamos que o último item, referente à interpretação dos

fatores e rotulação das dimensões, foi feito parcialmente.

• Levantamento das características linguísticas relevantes para análise

por meio de ampla consulta à literatura disponível.

• Coleta ou adoção de um corpus de dados linguísticos representativo e

compatível com as metas de análise.

• Transformação das características linguísticas em variáveis

quantificáveis.

• Codificação dos dados baseada nas variáveis selecionadas, usando-se

ferramentas computacionais para análise automática, semiautomática

(interativa) ou manual.

• Conferência manual da codificação feita por computador para se

assegurar de sua exatidão.

• Computação de frequência médias de cada variável.

• Padronização das frequências (em geral, por 1.000 palavras), para

permitir a comparação entre variedades (textos, registros ou corpora)

de extensões diferentes.

• Cálculo de escores de cada texto por fator pela padronização dos

escores com base na média e no desvio padrão.

• Cálculo de escores médios de cada variedade por fator.

• Interpretação de cada fator e rotulação das dimensões.

3.3 ANOTAÇÃO E ETIQUETAGEM

O primeiro passo foi a anotação e a etiquetagem (inserção de códigos) do

93

corpus. O corpus de estudo foi anotado automaticamente pelo etiquetador Biber

Tagger, que é um etiquetador computacional que atribui a todo elemento ortográfico do

corpus uma etiqueta de natureza linguística. O processo de etiquetagem do corpus segue

quatro passos: 1) selecionar o tipo de texto; 2) informar se há cabeçalhos no texto; 3)

informar se deseja inserir comentários nos resultados; e 4) iniciar a etiquetagem.

FIGURA 10: BIBER TAGGER

O resultado é um arquivo de texto sem formatação (.txt), com as palavras

etiquetadas morfossintaticamente em inglês, conforme pode ser visto no exemplo

mostrado no Quadro 14. O texto anotado pode ser lido no sentido vertical48. Cada linha

do arquivo contém uma unidade ortográfica do texto. As etiquetas atribuídas aos

elementos do texto, explicadas abaixo, constam do conjunto de etiquetas (tagset)49 do

programa Biber Tagger.

48 O excerto “Therefore, procedures for identifying gifted children that deliberately or inadvertently rely on a composite score…” foi retirado do corpus de estudo. Pertence ao texto 1 de psicologia, do subcorpus Estados Unidos.

49 O Anexo 3 apresenta uma completa descrição das etiquetas do Biber Tagger.

94

Therefore ^rb+cnj+++=Therefore,

, ^zz++++=EXTRAWORD

procedures ^nns++++=procedures

for în++++=for

identifying ^xvbg+++xvbg+=identifying

gifted ^jj+atrb+++=gifted

children ^nns++++=children

that ^tht+rel+++=that

deliberately ^rb++++=deliberately

or ^cc+phrs+++=or

inadvertently ^rb++++=inadvertently

rely ^vb++++=rely

on în++++=on

a ât++++=a

composite ^nn++++=composite

score ^nn++++=score

QUADRO 14: EXCERTO DE TEXTO ETIQUETADO PELO BIBER TAGGER

No etiquetador Biber Tagger, há cinco campos de etiquetas separados por um

sinal de adição (+). No entanto, para a maioria das palavras, são usados apenas um ou

dois dos cinco campos existentes. Primeiramente, à direita da unidade ortográfica

etiquetada, tem-se o símbolo ^, que indica o início dos campos de etiquetas. A principal

categoria gramatical de uma palavra geralmente é marcada no primeiro campo das

etiquetas. Assim, interpretando as etiquetas atribuídas pelo Biber Tagger à unidade

ortográfica therefore, temos ^rb+cnj+++, onde rb indica, de acordo com o conjunto de

etiquetas do programa, que a palavra é uma advérbio qualquer, e cnj indica que ela é,

também, uma conjunção. A palavra procedures recebeu a etiqueta ^nns++++, que

indica que ela é um substantivo plural comum e há quatro sinais de adição, que

95

serviriam para separar outras etiquetas caso essas fossem atribuídas. Após o símbolo =,

observa-se, em maiúsculas, o texto em si. A exceção vai para os sinais de pontuação, a

quem o etiquetador atribui a palavra EXTRAWORD (palavra extra).

Após a etiquetagem, foi feita a contagem de frequência das características

lexicogramaticais anotadas por meio da ferramenta Biber Tag Count, também

desenvolvida por Douglas Biber. Para fazer a contagem, basta o pesquisador selecionar

o arquivo etiquetado pelo Biber Tagger e continuar o processamento pelo Biber Tag

Count.

FIGURA 11: BIBER TAG COUNT

O programa Biber Tag Count desempenha as seguintes funções:

- etiqueta as características lexicais do texto relacionadas ao posicionamento e

tipos de verbos e de substantivos;

- faz a leitura das etiquetas que o Biber Tagger inseriu;

- contabiliza as etiquetas como variáveis;

- estabelece a frequência das etiquetas em cada texto do corpus;

- agrupa as etiquetas em categorias morfossintáticas, semânticas e de

marcação de posicionamento.

Após o programa Biber Tag Count processar o corpus etiquetado, o resultado,

96

como no Biber Tagger, saiu em forma de arquivo de texto sem formatação (.txt). No

entanto, para melhor visualização, ele foi transferido para uma planilha Microsoft Excel,

como pode ser visto abaixo, na Figura 12.

FIGURA 12: PLANILHA COM O RESULTADO OBTIDO DO BIBER TAG COUNT

Com os dados na planilha do Microsoft Excel, eles se tornaram legíveis ao

software estatístico IBM SPSS Statistics 20 (SPSS)50. A partir desse ponto, os seguintes

passos foram tomados:

Os dados foram abertos no software estatístico SPSS;

As caixas Analyze, General Linear Models e Univariate foram marcadas;

A dimensão 1 foi marcada como variável dependente;

País foi escolhido como o fator fixo;

Clicou-se na caixa Opções e em seguida em Descriptive Statistics;

Clicou-se em Continue e em OK.

50 O SPSS é um programa de organização de dados e análise estatística. Através da seleção de opções em menus e caixas de diálogo, ele permite a realização de análises estatísticas desde as mais simples até às mais complexas e elaboradas. A sigla significa Statistical Package for the Social Sciences (SPSS Inc.).

97

FIGURA 13: TELA PARA INSERÇÃO DOS DADOS NO SPSS

FIGURA 14: DADOS ABERTOS NO SPSS

98

FIGURA 15: MARCAÇÃO DAS CAIXAS ANALYZE, GENERAL LINEAR MODELS E UNIVARIATE

FIGURA 16: MARCAÇÃO DA DIMENSÃO 1 COMO VARIÁVEL DEPENDENTE

99

FIGURA 17: MARCAÇÃO DE PAÍS (ORIGEM) COMO FATOR FIXO

FIGURA 18: TELA COM OPÇÕES E DESCRIPTIVE STATISTICS MARCADAS

100

FIGURA 19: TELA COM O RESULTADO DE UNIVARIATE E R² NA DIMENSÃO 1

FIGURA 20: TELA COM O RESULTADO DE UNIVARIATE E R² NA DIMENSÃO 1(CONTINUAÇÃO)

Esses passos geraram os escores médios, Univariate e o R² para a dimensão 1,

para cada país. Depois, os mesmos passos foram seguidos para as dimensões restantes,

isto é, da dimensão 2 à dimensão 5. Em seguida, trocou-se o fator fixo de Country (país)

para Field (área de estudo) e os passos foram repetidos, com cada dimensão

separadamente.

101

Na segunda etapa, o corpus é analisado qualitativamente. Nela são

identificadas as dimensões de variação. É feito um mapeamento dos resultados obtidos

na análise quantitativa (estatística) sobre as dimensões da língua inglesa mapeadas por

Biber.

3.4 ESCORES DAS DIMENSÕES NO CORPUS CERA

A primeira parte da análise foi realizada a partir do mapeamento do corpus

nas dimensões de Biber (1988). A Tabela 2, a seguir, mostra os 23 registros estudados

por Biber e o corpus CERA. Os números atribuídos aos registros e ao CERA são as

somas relativas às quantidades das variáveis existentes em cada dimensão. Com ela foi

possível responder a primeira pergunta desta pesquisa, conforme é descrito na seção

seguinte, Apresentação e Discussão dos Resultados.

102

REGISTRO Dim 1

Dim 2

Dim 3 Dim 4 Dim 5

Prosa acadêmica

(academic prose) -14,9 -2,6 4,2 -0,5 5,5

Ficção de Aventura

(adventure fiction) 0 5,5 -3,8 -1,2 -2,5

Biografias

(biografias) -12,4 2,1 1,7 -0,7 -0,5

Transmissões

(broadcasts) -4,3 -3,3 -9 -4,4 -1,7

Conversa face a face

(face-to-face conversation)

35,3 -0,6 -3,9 -0,3 -3,2

Ficção Geral

(general fiction) -0,8 5,9 -3,1 0,9 -2,5

Hobbies

(hobbies) -10,1 -2,9 .3 1,7 1,2

Humor

(humor) -7,8 0,9 -.8 -0,3 -0,4

Entrevistas

(interviews) 17,1 -1,1 -.4 1,0 -0,2

Ficção de Mistério

(mystery fiction) -0,2 6,0 -3,6 -0,7 -2,8

Documentos Oficiais

(official document) -18,1 -2.9 7,3 -0,2 4,7

Carta Pessoal

(personal letter) 19,5 0,3 -3,6 1,5 -2,8

Cultura popular

(popular lore) -9,3 -0,1 2,3 -0,3 0,1

Discurso preparado

(prepared speech) 2,2 0,7 .3 0,4 -1,9

Imprensa - editoriais -10,0 -0,8 1,9 3,1 0,3

103

(press editorials)

Imprensa - reportagem

(press reportage)

-15,1 0,4 -.3 -0,7 0,6

Imprensa - resumos

(press reviews) -13,9 -1,6 4,3 -2,8 0,8

Carta profissional

(professional letter) -3,9 -2,2 6,5 3,5 0,4

Religião

(religion) -7,0 -0,7 3,7 0,2 1,4

Ficção romântica

(romantic fiction) 4,3 7,2 -4,1 1,8 -3,1

Ficção científica

(science fiction) -6,1 5,9 -1,4 -0,7 -2,5

Discurso espontâneo

(spontaneous speech) 18,2 1,3 1,2 0,3 -2,6

Conversa por telefone

(telefone conversation)

37,2 -2,1 -5,2 0,6 -3,7

CERA -19,8 -3,6 6,4 -3,4 4,7

TABELA 2: DIMENSÕES DE BIBER (1988) COM CERA

104

4. APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS

4.1 APRESENTAÇÃO

O mapeamento do corpus nas dimensões de Biber (1988) foi feito com o uso

do software IBM SPSS Statistics 20. Para a compilação do corpus de estudo (CERA)

foram levadas em consideração a origem do autor e a área de estudo à qual o artigo

pertence. Da mesma forma, essas duas variáveis foram usadas para o processamento dos

dados. Foram então definidas como variáveis independentes o país (country) e a área de

estudo (field). Os resultados estão na forma de estatísticas descritivas (descriptive

statistics) mostradas nas tabelas a seguir. As Tabelas 3 a 7 têm como variável

independente country, enquanto as Tabelas 8 a 12 tomam como variável independente

field.

4.1.2 País como variável independente

Os valores de R² (R Squared), em porcentagem, referentes a cada dimensão,

são discriminados abaixo de cada tabela. O valor de R indica o percentual de variação

nos escores das dimensões que pode ser previsto, conhecendo a variável independente.

Sendo assim, os valores de R², nas Tabelas 3 a 7, representam (percentualmente) quanto

a origem (país) do autor responde pela variação apresentada. Por seu turno, nas Tabelas

8 a 12, os valores de R² representam o quanto a área do artigo responde pela variação.

105

País Média Desvio Padrão N

Índia -21,6536 5,5567428 100

Brasil -20,903 4,1422191 100

Alemanha -20,5363 4,339746 100

Itália -20,0356 4,2461063 100

China -19,9519 5,1359334 100

Estados Unidos -19,6151 4,7673711 100

França -19,5543 4,3322703 100

Canadá -18,2596 5,0122655 100

Reino Unido -17,5921 4,9764553 100

Total -19,789056 4,8703776 900

R²= 0,59 (R² Ajustado = 0,051). Temos 0,059 x 100 = 5,9%

TABELA 3: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 1

Pode-se observar nos dados acima que, na dimensão 1 – Produção com

Interação versus Informacional –, todos os textos se encontram no polo negativo. Há,

ainda, pouca variação entre eles. A origem (país) do autor responde por apenas 5,9 % da

variação. O Reino Unido aparece como o menos informacional dos países (escore -

17,59). O Brasil apresenta o escore -20,93, que o classifica como mais informacional do

que os países do grupo composto por autores nativos. O excerto abaixo mostra

características que são comuns à dimensão 1, como voz passiva sem agente,

apagamento do pronome relativo e do verbo de ligação, assim como a ocorrência de

palavras longas. Essas características estão legendadas para melhor visualização.

106

In vitro experiments demonstrated that the sample inhibited the production of NO and

inhibited nuclear factors involved in the inflammatory process [57]. Whereas the in vivo

experiments indicated the presence of anti-inflammatory activity, the in vitro tests were able

to indicate the mechanism of action. One of the main components of green Brazilian

propolis, 3,5-diprenyl-4-hydroxycinnamic acid, was tested against similar in vivo and in vitro

models of inflammation indicating that this compound is at least partially responsible for

these activities. Furthermore, there was good oral absorption of this compound, so it may be

taken orally for pain and inflammation [58].

Imunomodulatory effect A new line of research involving propolis involves its possible

application as a vaccination adjuvant, although most commercial vaccines use aluminum

salts to this end. (…) A combination of an inactivated oil vaccine against bovine herpes virus

type 5 and propolis extract also increased the humoral immune response in cattle [61].

Fractions of green propolis were tested against SuHV-1. Fraction J, containing an expressive

amount of caffeic and cinnamic acid derivatives, proved to be most effective, increasing both

humoral and cellular responses, (…) pathway. In a previous study, when the propolis extract

was tested alone, it was not as effective, possibly due to the presence of both

immunostimulatory and immunosuppressive substances [32]. A slight anti-allergic effect has

been observed with Brazilian propolis [31]. Another application of the imunomodulatory

activity

LEGENDAS:

• trechos sublinhados: passiva sem agente

• trecho em itálico: apagamento de pronome relativo e verbo de ligação

• trecho sublinhado em itálico: palavras longas

• trechos em negrito: uso de substantivos

• trechos riscados: uso de preposições

QUADRO 15: EXCERTOS DO TEXTO 1 DE QUÍMICA DA SUBPASTA BRASIL. FONTE: O AUTOR.

107


Alemanha -4,0406 0,8303289 100

Brasil -3,9292 0,7483405 100

França -3,8655 0,7374326 100

China -3,8427 1,0205176 100

Índia -3,6998 0,9212442 100

Itália -3,6615 1,0031651 100

Estados Unidos -3,5923 0,8986768 100

Canadá -3,3774 1,1047836 100

Reino Unido -3,2382 0,971939 100

Total -3,694133 0,9511048 900

R² = 0,067 (R² Ajustado = 0,059). Temos 0,067 x 100 = 6,7 %

TABELA 4: VARIÁVEL INDEPENDENTE PAÍS DIMENSÃO 2

Quanto à dimensão 2, Preocupações Narrativas versus Não-Narrativas, o

escore médio das origens manteve-se entre -4,04 e -3,23. O total foi -3,69, o que é

comparável ao que Biber (1988) encontrou. Isto é, o texto acadêmico tem escore baixo

nesta dimensão, o que mostra que ele é não-narrativo. Em seu estudo, Biber observou

que a prosa acadêmica teve o escore -2,6. Para esta dimensão, 6,7% de sua variação é

dependente da origem do autor. Autores alemães tiveram o maior escore, enquanto os

autores do Reino Unido apresentaram o menor, ou seja, sua escrita apresenta menos

características narrativas, o que é próprio da escrita acadêmica. Retomamos que o polo

positivo – preocupações narrativas – é caracterizado pelos seguintes traços: verbos no

pretérito, pronomes de 3ª pessoa, verbos em aspecto perfectivos, verbos públicos,

orações de particípio presente e negação sintética. Assim, a pouca ocorrência do

pretérito, por exemplo, é vista como um valor marcado na dimensão 2, que caracteriza o

polo não-narrativo. De acordo com Biber (1988, p. 137-138), esse uso geralmente está

ligado a um propósito comunicativo, como em um texto expositivo. Da mesma forma,

nesse polo, é comum o uso do imperativo e do infinitivo. Nos excertos abaixo, podemos

108

observar alguns desses traços, que são destacados com legendas.

CRW proved for a long time to be a useful means to model animals' random search paths (Siniff and Jessen 1969, Kitching 1971, Skellam 1973). They involve a correlation between successive step orientations, which induces a local directional bias: any step tends to point in the same direction as the previous one, but the influence of the initial direction of motion progressively vanishes and step orientations are uniformly distributed in the long term.

LEGENDA:

• trecho em negrito: uso escasso do pretérito

QUADRO 16: EXCERTO DO TEXTO 8 DE CIÊNCIAS DA VIDA, DA SUBPASTA FRANÇA. FONTE: O AUTOR

In the second step of analysis, we wanted to determine whether achievers and underachievers could be differentiated in accordance with our explanatory (…)

For instance, Durr (1964), from the perspective of learning psychology, defined underachievement as a significant discrepancy between IQ and perfect (…)

LEGENDA:

• trecho em itálico: uso escasso do pretérito

QUADRO 17: EXCERTOS DO TEXTO 3 DE PSICOLOGIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.

109


França 5,8513 1,9765875 100

Canadá 6,0739 2,4058829 100

Alemanha 6,1556 2,0434049 100

Índia 6,5635 2,0848411 100

Reino Unido 6,5752 2,3970797 100

Estados Unidos 6,6436 2,1345917 100

China 6,6796 2,3478698 100

Itália 6,7309 2,4693303 100

Brasil 7,0348 2,4012991 100

Total 6,478711 2,2756599 900

R²= 0,024 (R² Ajustado = 0 ,015). Temos 0,024 x 100 = 2,4%


A dimensão 3 diz respeito a Referências Explícitas versus Dependentes do

Contexto. Ela é caracterizada no polo positivo (Referências Explícitas) com traços

como: orações adjetivas na função de objeto, orações adjetivas na posição de sujeito,

construções com a preposição em posição frontal e nominalizações. Nessa dimensão, a

variação entre as origens é muito pequena. Somente 2,4% da variação do corpus

dependem da origem dos autores. Os textos de autores brasileiros encontram-se como os

que apresentam mais características de referências explícitas. É possível especularmos

que esse resultado seja reflexo de sugestões por parte de professores e livros sobre

escrita acadêmica que defendem a escrita clara e concisa.

110

our perspective focuses on developing ownership of texts, which implies more than the possibility of "understanding" texts.

Capable of assuming themselves as subjects because of the capacity to recognize themselves as objects.

In order to work with this discursive view of reading, the teacher needs to respect and encourage the students´ readings of texts "reading does not consist merely of decoding the written word or language in which many people, including those who commissioned these materials, (…)

We expect students and teachers who use the materials we designed to become more aware of their possibilities (…)

LEGENDAS:

• trecho em negrito: uso de nominalização

• trecho em itálico: oração adjetiva na posição de sujeito

QUADRO 18: EXCERTOS DO TEXTO 8 DE LINGUÍSTICA DA SUBPASTA BRASIL. FONTE: O AUTOR.

111


Brasil -4,1159 1,3816102 100

Índia -3,8672 2,0356143 100

China -3,6808 1,4558872 100

Itália -3,551 1,5879772 100

França -3,3894 1,6852856 100

Alemanha -3,3338 1,6580083 100

Canadá -3,1116 1,6776172 100

Estados Unidos -3,0371 1,7673014 100

Reino Unido -2,6166 1,7094273 100

Total -3,411489 1,7187 900

R²= 0,063 (R² Ajustado= 0,054). Temos 0,063 x 100 = 6,3 %


A dimensão 4, Expressão Explícita de Persuasão versus Não-explícita, tem

traços em apenas um polo, o positivo (persuasão explícita), com os seguintes traços: uso

de infinitivos, modais de predição, verbos de persuasão, modais de necessidade e

modais de possibilidade, que, em conjunto, expressam o posicionamento do autor.

Entretanto, os textos do corpus situam-se no polo negativo desta dimensão, indicando,

portanto, que os textos têm uma persuasão implícita, conforme mostra a Tabela 6. Os

números acima mostram que, nesta dimensão, 6,3% do total da variação depende da

origem do autor. É interessante observar que todas as origens se encontram no polo

negativo. Isto é, a persuasão em seus artigos é de maneira não-explícita. Também

observamos que a escrita acadêmica de autores brasileiros, cujo escore é -4,11, está no

topo da lista, com o maior distanciamento da persuasão explícita. Em segundo lugar está

a Índia, que apresenta o escore -3,86. Por outro lado, os autores do Reino Unido, do

grupo falantes nativos, são aqueles cujos artigos estão mais próximos do polo positivo;

mas ainda situando-se no lado implícito da persuasão, conforme indica o escore -2,61.

112

O excerto abaixo é exemplo da escrita desses autores.

The energy concentration implies entropy lower values. This criterion may be used to choose the best mother wavelet among a group of orthogonal mother wavelet which can be used to transform the signals (Li et al., 2009). Besides to indicate the suitable mother wavelet for signal analysis, the entropy also shows the level of detail that contains information related to reflections of Lamb wave in the structure discontinuities. For the DWT of a signal x(t), an orthogonal mother wavelet is selected among several possibilities previously chosen for compatibility with the features to be extracted from the signal, for example, Biorthogonals, Coiflets, Daubechies, Symlets, discrete Meyer and others. Whereas cd,i are coefficients of the DWT of x(t), for a mother wavelet chosen arbitrarily the Shannon entropy of detail level d is given by: S (d ) =

LEGENDA:

• trecho em negrito: uso escasso de modais

QUADRO 19: EXCERTO DO TEXTO 5 DE ENGENHARIA DA SUBPASTA BRASIL. FONTE: O AUTOR.

However, since the set of all possible routes from S to D can be very large, discovering or keeping track of all such paths does not scale well as the size of network increases. Therefore, we decided to limit the number of routes in each route discovery process to some constant. When the destination node D receives the first route request message from a source node S, it sets a timer for that node and starts to respond to every route request message it receives from S, except for route requests from S which are not node-disjoint with the other paths D has already sent back to S.

LEGENDA:


QUADRO 20: EXCERTO DO TEXTO 6 DE ENG. E CIÊNCIA DA COMPUTAÇÃO DA SUBPASTA ÍNDIA. FONTE: O AUTOR.

113

In addition, there has been an inclination by clients to develop and undertake such projects in partnership with other companies as joint ventures, often collaborating with local companies based in the territory where the assets will be built. This has resulted in more multicultural project teams with team members from different cultures and backgrounds working together. A number of authors including Weatherley (2006) agree that project success is difficult enough to accomplish where the project team is located close to the construction project environment, and the situation is made considerably complex for multicultural project teams, that are widely geographically and that have dissimilar organisational and regional cultures. The geographical division of multicultural project teams poses its own communication challenges. Emmitt and Gorse (2007) have shown that, for factual data transfer, separated a number of communication problems have been addressed due to the development of rapid global information systems and telecommunications, however, when it comes to multicultural project teams many issues remain unresolved. For example, the loss of face-to-face communication can lead to misunderstanding and the loss of non-verbal signals - such as eye contact and body language.

LEGENDA:


QUADRO 21: EXCERTO DO TRECHO 6 DE ENGENHARIA DA SUBPASTA REINO UNIDO. FONTE: O AUTOR.

114


Estados Unidos 3,8674 1,8644525 100

Índia 4,2388 2,2123306 100

Canadá 4,3313 2,1935284 100

Reino Unido 4,8177 1,8356249 100

China 4,9198 2,7232289 100

Brasil 5,1245 2,0287541 100

Itália 5,1659 1,8911747 100

França 5,1731 1,710981 100

Alemanha 5,3658 2,2183005 100

Total 4,778256 2,1414538 900

R² = 0,051 (R² Ajustado = 0 ,043). Temos 0,051 x 100 = 5,1 %

TABELA 7: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 5.

A dimensão 5, Informação Abstrata versus Não-Abstrata, é caracterizada por

traços como conjunções, voz passiva com ou sem agente, apagamento do pronome

relativo WH em construções de particípio passado e também pelo uso de adjetivos

predicativos. O escore médio dos países variou entre 3,86 (Estados Unidos) e 5,36

(Alemanha) nessa dimensão. O Brasil teve escore 5,12. O escore médio de Biber (1988)

para Academic Prose foi 5,5. Isso mostra que os valores encontrados estão bem

próximos ao que Biber encontrou. Mais uma vez, o percentual que responde pela

variação dos textos é baixo – apenas 5,1 % dependem da origem do autor. Os excertos

abaixo são representantes das três origens citadas.

115

But this expected result is neither completely compatible with the experimental findings (see

the experiments of Fehr and Gachter [7]), nor does it offer an explanation for the emergence of

institutions in human societies. Humans are intrinsically clever, and if they rationally pursue

their own advantage - as every agent in an evolutionary game is supposed to do -, they should

exploit the group solidarity recklessly and contribute to the group structure only when they are

rewarded. Altruism is evolutionarily stupid (except in cases of kin selection). Punishing

defectors is risky and costly.

LEGENDAS:

• trecho em itálico: uso de adjetivo predicativo

• trecho riscado: uso de conjunção

QUADRO 22: EXCERTO DO TEXTO 5 DE ANTROPOLOGIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.

In this paper the eigenvalue system to find the eigenmodes of arbitrarily shaped thin membranes by means of the FE method was derived. The more realistic, but also more complicated Kirchhoff plates are deferred to a future work. For an interactive and comfortable exploration of such membranes, the graphical user interface NumChladni was developed, based on the Qt framework and the OpenGL. Basic problems like the meshing of the membranes and the solution of the eigenvalue system were delegated to specified libraries.

LEGENDAS:

• trecho em negrito: uso de conjunção

• trecho sublinhado: uso da passiva

QUADRO 23: EXCERTO DO TEXTO 10 DE FÍSICA E ASTRONOMIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.

116

The NTL website summarizes the project purposes into one general question, four research questions and three "tools" (which are) used to answer them.

The proposal (which / that is) synthesized from statements (i) and (iii) with the observation in (ii) becomes a problem when one tries to understand the global functioning of a theoretical paradigm.

LEGENDAS:

• trecho em negrito em parênteses: apagamento do pronome WH

• trecho sublinhado: uso da voz passiva

QUADRO 24: EXCERTOS DO TEXTO 6 DE LINGUÍSTICA DA SUBPASTA BRASIL. FONTE: O AUTOR.

117

This is important for low noise in any low noise amplifier. For this reason a very short input line, no impedance transformation or filtering, and a relatively thick 0.76 mm, low dielectric constant 2.2 were selected.

Resonance between capacitors. It is usually necessary to implement a small bypass capacitor say, 100 pF near the transistor for microwave frequencies and a large (…)

The noise temperatures of both amplifiers were measured at 300 and 17 K. The configuration for the 17 K measurements is shown in Fig. 8. The noise temperature and gain of the NXP amplifier at 300 and 17 K note the scale change are shown in Fig. 9.

(…) through the feedback resistors and becomes 28 dB when power is applied and negative feedback is active.

The second order product at 3.6 GHz and third order product at 2.4 GHz were then measured as a function of input power. The second and third order intercepts were determined to be 10.6 and 16.4 dBm, respectively, and referred to input. The intercepts referred to output are 32 dB higher.

LEGENDAS:

• trecho em itálico: uso de conjunção

• trecho em negrito: uso de adjetivo predicativo

• trecho sublinhado: uso da voz passiva

QUADRO 25: EXCERTOS DO TEXTO 1 DE ENGENHARIA DA SUBPASTA ESTADOS UNIDOS. FONTE: O AUTOR.

118

4.1.3 Área de estudo como variável independente

As Tabelas de 3 a 7 de estatísticas descritivas apresentadas acima tinham

como variável independente o país (origem) do autor. Deste ponto em diante, as

estatísticas descritivas apresentadas nas Tabelas de 8 a 12 mostram os resultados

quando a variável independente é a área de estudo. Da mesma forma, o R² pertinente a

cada uma das 5 dimensões é apresentado em porcentagem após cada tabela.

Ressaltamos que o valor de R² refere-se ao percentual que a variável independente field

(área) responde pela variação.

Área Média Desvio Padrão N

Pesquisa de Materiais

-23,053667 2,3809631 90

Ciências da Vida -22,697778 4,2981213 90

Química -22,505556 3,430029 90

Engenharia -20,806889 3,7387749 90

Psicologia -20,022111 4,4243386 90

Economia -19,605444 3,8906662 90

Física e Astronomia -18,407444 4,3223123 90

Antropologia -18,009111 5,0286352 90

Eng, e Ciência da Computação

-16,847222 5,0249378 90

Linguística -15,935333 5,380581 90

Total -19,789056 4,8703776 900

R²= 0,237 (R² Ajustado = 0,229). Temos 0, 237 x 100 = 2.37 %

TABELA 8: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 1

Para a dimensão 1, Produção com Interação versus Informacional, em que a

variável independente é uma das dez áreas de estudo (field), somente 2,3% da variação

presente no continuum ocorre devido à área. A variação entre elas é baixa. A área de

119

Pesquisa de Materiais apresenta um escore mais alto que as demais, com -23,0 e

Linguística apresenta o menor escore, que é -15,9. Todas as áreas pesquisadas se

concentram no polo negativo, de produção informacional, conforme é esperado de

artigos acadêmicos. Os excertos abaixo foram retirados do corpus aleatoriamente, sem

preocupação com a origem do autor. No entanto, as origens se encontram em parênteses

após a área.

Mechanical Characterization with the Aid of Nanoindentation (cf., e.g., [21]) was

carried out under ambient conditions using a commercial nanoindenter (Hysitron Tribo

Scope), which was attached to a scanning probe microscope (Nano Scope III

Multimode).

Applying the procedure of [23], hardness H and the (reduced) Young's modulus Er

were evaluated. The Meyer hardness [24] H (which is / was ) used here is defined as H

= F(hc) /A(hc), where F is the applied force and A(hc) is the area of the indent (which

is / was) projected onto the surface. hc is the true contact depth taking into account

only that part of the penetration depth which is defined by an indenter-specimen

contact. Examples of load-penetration curves are displayed in Figure 8 for bulk

trigonal sapphire prior to coating with TiC/VC (…)

Hardness H and reduced Young's modulus Er have been evaluated fr 10 and 11.

Obviously, MuLs are enhancing H of Si as well as of sapphire at the penetration depths

investigated (Figure 10). om F(h) curves and plotted in Figures 10 and 11.

LEGENDAS:

• trecho sublinhado: uso da voz passiva sem agente

• trecho riscado: uso de palavras longas

• trecho em negrito: uso de substantivos

• trecho em itálico: apagamento de verbo de ligação e WH

QUADRO 26: EXCERTOS DE TEXTO DA ÁREA PESQUISA DE MATERIAIS (ALEMANHA). FONTE: O AUTOR.

120

In Indian English, pre- is substituted for post- in postpone to create prepone, which indicates,

for example, that a meeting has been moved to a sooner time.

Often, one is substituted for a; for example, And one black lady.... The and a are often

dropped when they should be said and used when they should be left out. It is not uncommon

to hear something like, We are going to temple. Whether or not these apparent misuses are

actually arbitrary would require further study

LEGENDA:

• trecho sublinhado: uso da voz passiva sem agente

• trecho em negrito: uso de substantivos

• trecho riscado: uso de adjetivo atributivo

QUADRO 27: EXCERTOS DE TEXTO DA ÁREA LINGUÍSTICA (ÍNDIA). FONTE: O AUTOR.

121



Eng. e Ciência da Computação

-4,159333 0,7432994 90

Engenharia -4,152 0,8492643 90


-3,957444 0,5939632 90

Economia -3,95 0,7812681 90

Química -3,816111 0,667502 90

Ciências da Vida -3,606444 0,702564 90

Psicologia -3,173333 0,90127 90

Linguística -3,103556 0,9534718 90

Antropologia -2,689222 1,0952546 90

Total -3,694133 0,9511048 900

R²= 0,290 (R² Ajustado = 0,283). Temos 0,290 x 100 = 2,9 %

Tabela 9: Variável Independente Área – dimensão 2

Na dimensão 2, Preocupações Narrativas versus Não-Narrativas, Física e

Astronomia e Engenharia e Ciência da Computação são as áreas que apresentam textos

como menor número de características narrativas que as demais. Seus escores médios

são, respectivamente, -4,33 e -4,15. A diferença é sutil. Antropologia, cujos textos

apresentam escore médio -2,68, apesar de ainda estar no polo negativo (preocupações

não-narrativas), está mais distante que as outras áreas, no continuum, com mais

características narrativas. Somente 2,9% da variação dependem da área de estudo. Os

excertos abaixo servem para ilustrar as áreas de Física e Astronomia e Antropologia,

que são as duas áreas nos extremos.

122

The longitude where the RMs transition from being predominantly negative to predominantly positive in the outer Galaxy is what we are after in this study.

It is often assumed the Galactic magnetic field follows the spiral arms everywhere within the Galaxy

It is expected that new observations south of the Galactic disk, which are currently underway, will contribute considerably to the understanding of the disk-halo transition for the magnetic field in this region.

LEGENDAS:

• trecho em negrito: uso de advérbio

• trecho sublinhado: uso de expressão adverbial de lugar

QUADRO 28: EXCERTOS DE TEXTO DA ÁREA DE FÍSICA E ASTRONOMIA (CANADÁ). FONTE: O AUTOR.

Since 1969, which is, as previously said, the official date of the origin of this phenomenon, Skinheads bands had several conflicts with Hippy groups who were protesting against the Vietnam war.

In the end, the cobweb, especially those tattooed in a welldefined skin area, is a symbol which immediately reminds of space.

Unfortunately, it is also hard to establish since when it became an identification tag. Tattoo practice was really common, since the middle 1800, amongst English working class males.

LEGENDAS:

• Trecho em negrito: uso de advérbio e modo e lugar

• Trecho sublinhado: uso de expressão adverbial de lugar

QUADRO 29: EXCERTOS DE TEXTO DE ANTROPOLOGIA (ITÁLIA). FONTE: O AUTOR.

123


Física e Astronomia 4,920444 1,862072 90

Química 5,421889 1,9682781 90

Ciências da Vida 5,636 2,1461446 90


6,390667 1,7827537 90


6,491778 2,2721996 90

Engenharia 6,663111 1,8141043 90

Economia 6,839222 2,1327512 90

Linguística 7,019333 2,3623483 90

Antropologia 7,673556 2,4365615 90

Psicologia 7,731111 2,2050221 90

Total 6,478711 2,2756599 900

R²= 0,149 (R² Ajustado= 0,141). Temos 0,149 x 100 = 1,49 %

TABELA 10: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 3.

Para a variável independente Área, a dimensão 3 – Referências Explícitas

versus Dependentes do Contexto –, as áreas de Antropologia e Psicologia têm os

maiores escores médios. Com exceção da área Física e Astronomia, que tem o escore

4,9, as demais áreas estão bastante próximas, bem balanceadas. Mesmo assim, por se

encontrarem no polo positivo, é possível afirmar que os artigos acadêmicos de todas as

áreas apresentam referências explícitas. Isto é, têm traços próprios desse polo, como

orações adjetivas na posição de sujeito e também na posição de objeto, construções com

preposição em posição frontal e nominalizações. O R quadrado (R squared), com valor

igual a 1,49%, mostra que menos de 2% da variação no continuum da dimensão é

dependente da área de pesquisa. Os excertos abaixo ilustram os extremos: Psicologia e

Física e Astronomia.

124

In terms of the implicit memory experiment described above, significant priming

In this paper, we discuss how the ANCOVA model may be applied to priming data before considering the critical assumptions and limitations of the ANCOVA analyses.

To anticipate, the results of the analysis indicate that

In sum, the ANCOVA approach provides a very large increase in efficiency for the category-exemplar production

In this section, we apply the ANCOVA analysis to this design and find that this

For example, the effects of word frequency on the implicit memory test of word-fragment completion

For example, in the simplest case of two experimental conditions (J = 2),

In this approach, the assessment of the within subject effect is based on the J -1 orthogonal contrasts created

LEGENDAS:

• Trecho em negrito: preposição em posição frontal

• Trecho sublinhado: uso de nominalização

QUADRO 30: EXCERTOS DE TEXTO DE PSICOLOGIA (ESTADOS UNIDOS). FONTE: O AUTOR.

125

Several of the additional pulsation periods appear to be close multiples (e.g., 2P) and combinations (e.g., P + P) which are not particularly diagnostic.

In fact, our highly unique 4-part prediction is vindicated in a convincing manner.

LEGENDAS:

• Trecho em negrito: uso de advérbio e modo e lugar

• Trecho sublinhado: oração adjetiva na posição de sujeito

QUADRO 31: EXCERTOS DE TEXTO DE FÍSICA E ASTRONOMIA (ESTADOS UNIDOS). FONTE: O AUTOR.


Química -4,863778 1,0250115 90


-4,251667 1,1812184 90

Ciências da Vida -4,019889 1,5172191 90


Psicologia -3,477667 1,6576463 90

Antropologia -3,229 1,3096659 90

Engenharia -3,213778 1,5497608 90

Economia -2,684444 1,8076555 90

Linguística -2,574 1,8924396 90


-2,223111 1,6189584 90

Total -3,411489 1,7187 900

R²= 0,201 (R² Ajustado = 0,193). Temos 0,201 x 100 = 2,01 %


126

Na dimensão 4, Expressão Explícita de Persuasão versus Não-Explícita, todas

as áreas estudadas se encontram no polo negativo. Isto é, apresentam persuasão não-

explícita. Caso houvesse alguma área no polo positivo, seus artigos seriam

explicitamente persuasivos. Apenas o polo positivo apresenta traços, a saber: o uso de

infinitivo, modais de predição, necessidade e possibilidade e verbos de persuasão.

Conforme mostra R², apenas 2,0% da variação dos escores no continuum depende da

área específica de estudo na qual o artigo se enquadra. De acordo com os dados

estatísticos, entre as áreas estudadas, os artigos de Química são aqueles cuja persuasão

tende a ser a mais não-explícita. Por outro lado, os artigos de Engenharia e Ciência da

Computação tendem a ser os que apresentam menos traços de persuasão não-explícita.

Os excertos abaixo vêm corroborar que as duas áreas mencionadas apresentam poucos

traços dessa dimensão.

The adsorption kinetics is important for adsorption studies because it can predict the rate at which Pb(II) is removed from aqueous solutions.

To examine the thermal stability of as-synthesized Ni(OH)2 from pine template, TG-DTA analysis was performed and the related curves are presented in Fig. 1.

LEGENDA:

• Trecho sublinhado: modal de predição

• Trecho em negrito: uso de infinitivo

QUADRO 32: EXCERTO DE TEXTO DE QUÍMICA (CHINA). FONTE: O AUTOR.

127

The application of using conditional distribution theory to carry out scientific analysis and calculations with real data (…)

Conditional distribution for random variables derives from conditional probability for random events, so there is a close relationship between the two and the approaches to handle them are the same, but conditional distribution is more complex to deal with (Feng Tai, Liu De-yin. 1985)( Liang Yi. 1998).

LEGENDA:

• Trecho em negrito: uso de infinitivo

QUADRO 33: EXCERTO DE TEXTO DE ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO (CHINA). FONTE: O AUTOR.

128


Antropologia 3,991222 1,6399711 90

Economia 4,299 1,9818514 90

Linguística 4,525667 1,7744935 90

Psicologia 4,601111 2,1283361 90

Física e Astronomia 4,703667 2,3974338 90

Química 4,765333 2,064808 90


4,994 2,5201239 90

Ciências da Vida 5,036444 1,9817977 90

Engenharia 5,402222 2,4611205 90


5,463889 1,9326297 90

Total 4,778256 2,1414538 900

R²= 0,042 (R² Ajustado = 0,032). Temos 0,042 x 100 = 4,2%


A dimensão 5, Informação Abstrata versus Não-Abstrata, tem seus traços

concentrados no polo positivo (informação abstrata). As áreas de Pesquisa de Materiais

e Engenharia são as que aparecem com os maiores escores nessa dimensão. Conforme

pode ser observado na Tabela 12, seus escores são, 5,46 e 5,40, respectivamente.

Portanto, pode-se afirmar que essas são as áreas cujos artigos têm mais características

linguísticas que remetem à abstração. De todas as áreas, Antropologia é a que apresenta

menor escore, o que indica que ela é a menos abstrata. Conforme demonstra o R

quadrado, somente 4,2% da variação nessa dimensão é atribuído à área de estudo.

Podemos observar características dessa dimensão nos excertos abaixo, que ilustram os

dois extremos da tabela de estatística descritiva acima.

129

Fig. 2 Two cord technique: (a) A piece of fine retraction cord is placed in the gingival sulcus;

(b) A thicker cord is placed over the first leaving a tag for removal; (c) The thicker cord is

removed after washing (note clearly defined sulcus); and (d) The resulting impression of the

lower first premolar has been summarised in the tables.

Two stage unspaced -- putty is recorded first and after setting relined with a thin layer of wash.

Two stage spaced -- as for two stage unspaced except a space is created for the wash.

These systems are used in a way similar to the putty-wash technique for silicone rubbers

(which will be) described later in this article

Unfortunately, their elastic properties are not ideal and some of this strain may not be

recovered (high value for stress relaxation 2 minutes after setting time).

(…) they do have a high elastic modulus and consequently are relatively rigid when set,

hence considerable force may be required to remove the impression from both the mouth and

the stone cast

In such cases the above techniques are unsuitable and surgical crown lengthening with

osseous recontouring may be indicated to ensure that the gingival attachment

Every effort should be made to ensure that tooth preparations are being carried out in a healthy

mouth.

LEGENDAS:

• Trecho sublinhado: uso de voz passiva

• Trecho em negrito: uso de adjetivo predicativo

• Trecho riscado: apagamento do pronome WH QUADRO 34: EXCERTO DE TEXTO DE PESQUISA DE MATERIAIS (REINO UNIDO). FONTE: O AUTOR.

130

Thus, the European map is divided into several entities (which are) materialized by

different institutions.

But, European space is still divided into two parts: on the one hand, the members of the

European Union, and on the other hand, non-members.

"Space" can firstly be understood as an area in which social, cultural and political

processes are projected.

During the Cold War, the two European spaces were characterized by a bipolar identity:

on one hand a Western identity (which is) based on democratic and capitalist values and on the

other hand, identity (which is) based on communist ideology.

But, how can the Europeans of a Great Europe be defined?

This model implies state identity as primary and sense of belonging to Europe as secondary,

but also of importance.

LEGENDAS:

• Trecho em negrito: uso da voz passiva

• Trecho riscado: apagamento de pronome relativo WH

• Trecho em itálico: uso de conjunção QUADRO 35: EXCERTOS DE TEXTO DE ANTROPOLOGIA (FRANÇA). FONTE: O AUTOR.

131

4.2 DISCUSSÃO DOS RESULTADOS

Em pesquisas científicas, é essencial a escolha da metodologia adequada para

o desenvolvimento do estudo, capaz de proporcionar resultados que possam ser

analisados de maneira confiável. Neste estudo, a interface entre a Linguística de Corpus

e a Análise Multidimensional possibilitou a análise de um grande número de dados.

Foram estudos 900 artigos acadêmicos de 10 diferentes áreas de pesquisa.

Seguindo o caráter que é peculiar às pesquisas em Linguística Aplicada, os

resultados apresentados neste estudo podem ter um papel prático para áreas como o

ensino e a tradução. A revelação dos traços linguísticos de artigos acadêmicos escritos

por brasileiros e por cientistas de outras origens traz à luz informações que podem ser

relevantes para os pesquisadores que buscam publicar em periódicos estrangeiros.

Neste capítulo, apresentamos a discussão dos resultados. Essa discussão dar-

se-á da seguinte maneira: na primeira parte, será discutida a posição dos autores

brasileiros nas cinco dimensões de Biber (1988); na segunda, será apresentada uma

comparação entre as diferentes áreas de pesquisa, utilizando-se como referência as

dimensões de Biber (1988).

4.2.1 Autores brasileiros nas dimensões de Biber (1988)

Dimensão 1

Observando o valor de R² ajustado na dimensão 1, menos de 6% da variação

entre os artigos estudados dependem da origem do autor. Ou seja, a origem do autor não

influi significativamente na variação. Entretanto, embora não haja uma diferença grande

entre as médias dos escores para esta dimensão, o subcorpus Brasil se apresenta como o

mais informacional de todos os países estudados.

Os artigos dos autores brasileiros apresentam mais características referentes à

produção informacional do que aqueles escritos por pesquisadores considerados nativos

no âmbito deste estudo. Isso mostra que os artigos escritos por pesquisadores brasileiros

são letrados e apresentam traços que são esperados da escrita acadêmica, de acordo com

o que foi estabelecido a partir do estudo de Biber (1988).

132

Um dos traços nesta dimensão é o uso de palavras longas. Conforme pode ser

visto nos excertos do texto 1 de Química, que apresenta palavras como inflammatory e

demonstrate, com origem no latim, não apresentam nenhuma dificuldade para

pesquisadores brasileiros.

Por outro lado, os artigos dos brasileiros são menos interativos, ou seja,

apresentam o menor número de traços referentes à interação que, apesar de raros, são

características desta dimensão.

Dimensão 2

Nessa dimensão, o Brasil se encontra exacerbado no polo negativo, Não-

Narrativo, com escore -3,92. Apenas o escore da Alemanha é maior. Claramente os

resultados da análise dos artigos escritos por brasileiros se equiparam ao que Biber

(1988) encontrou para a prosa acadêmica. O resultado encontrado por Biber para prosa

acadêmica foi -2,6. Vale ressaltar que em seu estudo, Biber reuniu no registro prosa

acadêmica textos como palestras, instruções em materiais didáticos e cartas formais

escritas no meio acadêmico, entre outros. Sendo assim, não é possível determinar se,

caso os corpora fossem compostos com o mesmo tipo de registro, isto é, artigos

acadêmicos, os escores teriam sido mais semelhantes.

As expressões adverbiais de lugar são abundantes em artigos de brasileiros.

Muitas são referentes a lugar, com as quais o autor elabora sua referência no texto,

como podem ser observadas nos excertos abaixo. According to a recent survey (Nalon et al., 2008), only 3.6% of the area of the São José dos Dourados basin is occupied by natural vegetation. The remainder, including the riparian areas, is occupied primarily by pasture and sugar cane (Silva et al., 2007). (texto da pasta Ciências da Vida)

Mesohabitat use by brown trout (Salmo trutta) in a small groundwater-dominated stream. (texto da pasta Ciências da Vida)

According to BLUMENTHAL (1999), in Deer Valley Unified School District Arizona, a bus circulates with a mixture of B20. In some countries of Europe, as for instance in Germany, already significant fleet of vehicles, collective exists and of loads using. (texto da pasta Economia)

Na dimensão 2, podemos observar o uso de infinitivos como uma

característica de texto expositivo, como é o caso do excerto abaixo, cujos infinitivos

133

estão marcados em negrito. The Boltzmann model used to determine K computationally is able to simulate dynamically the mass transport as well as the momentum, which in this case is the Navier Stokes equation (NS equation).

(texto da pasta Física e Astronomia)

Dimensão 3

Nesta dimensão, o Brasil também está polarizado como a origem mais

explícita do grupo. Dessa forma, é possível afirmar que o texto escrito pelo pesquisador

brasileiro possui os seguintes traços: uso de nominalizações, preposições em posição

frontal e orações adjetivas. Tais características apontam que o texto é bastante

elaborado, com referências endofóricas. Nos excertos abaixo, retirados do mesmo

artigo, apesar da existência de outros traços, enfatizamos o uso abundante de

preposições em posição frontal. To better understand the factors that influence pain reactivity in preterm infants, it is useful to analyze the effects of individual variables such as gestational age, clinical health status, and sex.

In a set of cross-over studies, results showed relationships between stressful and painful procedures.

In a cross-sectional study, Bartocci et al. (2006) found sex differences in infants during a painful venipuncture procedure for blood collection.

At the thenar, children born full-term who remained in the NICU had higher heat pain thresholds than control full-term children.

In the second study, all three groups (high, moderate, and low) exhibited the same underlying structure of pain responses reflected by facial reactions, accounting for the greatest variance across all factors including both behavioral (facial reactions) and physiological (oxygen saturation and heart rate) indicators (Stevens et al., 2007c).

In conclusion, gestational age and neonatal illness severity influence pain responses in infants during the neonatal phase and in children born preterm.

In a cross-sectional study of 40 preterm infants (gestational ageage, 28-36 weeks), Bartocci et al. (2006) found that the increased magnitude of pain-induced cortical activation was negatively correlated with gestational age during a venipuncture procedure for blood collection.

In the first session, infants were assessed at 1-7 days of postnatal age during a heel lance procedure in the NICU.

(texto da pasta Psicologia)

134

Dimensão 4

É interessante observar que, apesar de todas as origens se encontrarem no polo

negativo, os artigos acadêmicos de autores brasileiros são aqueles que mais se

distanciam da persuasão explícita. Isto é, a persuasão em seus artigos é de maneira não-

explícita. Por outro lado, os artigos de pesquisadores do Reino Unido, embora estejam

no lado implícito da persuasão, estão mais próximos do polo positivo.

Os excertos abaixo são de um texto da área de Pesquisa e Materiais da

Subpasta Brasil. Neles observarmos variados usos de descrição. É possível

especularmos que esta seja uma forma de persuasão implícita.

Although, the water absorption appeared to rise with concentration of rock, between 1100 and 1200 °C, it remained practically the same for all samples, for all samples, considering the standard deviation in the measurements. The presence of fluxing oxides in the rock aided the formation of the liquid phase, while the quartz added decreased the retraction and water absorption of the ceramic pieces.

This finding is explained by the increased concentration of crystalline SiO2 and decrease in kaolinite and, consequently, alumina. Thus, these materials exhibit a chemical composition with large amounts of potassium, giving them a flux character [7].

The shoulder to the left of the first order peak (8.5° (10 Å)), indicates the presence of inter-stratified clay mineral, which is the mixed layer clay mineral most abundant and common in sedimentary rocks and soils [14].

(texto da pasta Pesquisa e Materiais)

Dimensão 5

Nesta dimensão, os artigos escritos por brasileiros teve escore 5,12. Isso

indica que esses textos têm traços de informação abstrata, como é esperado do registro

artigo acadêmico. No excerto abaixo, de um texto da área de Psicologia, é possível

observar o uso da voz passiva, que ocorre de maneira sequencial. Na ilustração, a

passiva está realçada em negrito. Chow and glucose availability are indicated by gray areas and black empty rectangles on the actograms and thermograms, respectively. Motor activity is represented in 15

135

min bins. Thermograms are presented in gray scale from 34°C to 39°C. Missing activity data are shown as a horizontal gray bar in the actograms.


Nessa discussão, podemos afirmar que o texto escrito pelo pesquisador

brasileiro é marcado. Das cinco dimensões propostas por Biber (1988), nas quatro

primeiras o texto brasileiro é bem acentuado, conforme mostram os resultados.

4.2.2 Comparação entre as áreas de pesquisa

Quanto às áreas estudadas na pesquisa, na dimensão 1, todas as áreas estão no

polo negativo, de Produção Informacional. Portanto, elas apresentam traços de escrita

informacional, o que seria esperado de artigos acadêmicos. Somente 2,37% da variação

é dependente da área de estudo.

Para a dimensão 2, mais uma vez todas as áreas se encontram no polo

negativo, de Preocupações Não-Narrativas. Assim, os traços que compõem essa

dimensão estão presentes nos artigos de todas as áreas estudadas. Apenas 2,9% da

variação existente são devidos à área. No entanto, é curioso observar que o uso escasso

do pretérito em textos não-narrativos, em negrito nos exemplos abaixo, pode indicar que

esta seja uma maneira de descrição.

In the second step of analysis, we wanted to determine whether achievers and underachievers could be differentiated in accordance with our explanatory (…)

For instance, Durr (1964), from the perspective of learning psychology, defined underachievement as a significant discrepancy between IQ and perfect (…)


Ainda na dimensão 2, foram observadas expressões adverbiais marcadamente

não convencionais, como podemos ver nos excertos abaixo, marcados em negrito.

Ressaltamos que os advérbios convencionais não foram marcados. No primeiro

exemplo, temos uma expressão de tempo e no segundo, uma expressão de lugar.

136

Since 1969, which is, as previously said, the official date of the origin of this phenomenon, Skinheads bands had several conflicts with Hippy groups who were protesting against the Vietnam war.

In the end, the cobweb, especially those tattooed in a welldefined skin area, is a symbol which immediately reminds of space.

(texto da pasta Antropologia)

Em relação à dimensão 3, observamos que, como nas dimensões anteriores, as

áreas que compõem o corpus de estudo seguem o que seria esperado; ou seja, estão no

polo positivo, de Referências Explícitas. Exceto Física e Astronomia, os escores entre as

áreas estão muito balanceados, com pouca variação. Esta dimensão apresenta o menor

percentual de variação devido à área, somente 1,49%. É interessante o número de

preposições em posição frontal que podem ser observadas em um único texto, como nos

excertos abaixo, apresentado no capítulo anterior e que revemos aqui.

In terms of the implicit memory experiment described above, significant priming

In this paper, we discuss how the ANCOVA model may be applied to priming data before considering the critical assumptions and limitations of the ANCOVA analyses.

To anticipate, the results of the analysis indicate that

In sum, the ANCOVA approach provides a very large increase in efficiency for the category-exemplar production

In this section, we apply the ANCOVA analysis to this design and find that this

For example, the effects of word frequency on the implicit memory test of word-fragment completion

For example, in the simplest case of two experimental conditions (J = 2),

In this approach, the assessment of the within subject effect is based on the J -1 orthogonal contrasts created


A dimensão 4 apresenta o segundo menor percentual de variação devido à

área, 2%. As características que compõem a dimensão 4 encontram-se no polo positivo,

de persuasão explícita. No entanto, todas as áreas se encontram no polo negativo.

Assim, é possível afirmar que a forma de persuasão encontrada pelos autores não é feita

por meio do uso intensivo de traços inerentes a esta dimensão. De fato, eles ocorrem em

137

menor número, conforme podemos ver nos exemplos abaixo em que o infinitivo, traço

de persuasão explícita, mostrado sublinhado, é usado duas e três vezes, respectivamente. In particular that means to explain the ultra relativistic electron spectra within the jet, which are believed to be responsible for the gamma radiation.

(texto da pasta Física e Astronomia)

In such a case, it may be useful to align all available RefSeq protein sequences for the gene of interest to see where they differ and to assess whether or not substantial differences require further investigation.

(texto da pasta Ciências da Vida)

Já nos dois excertos abaixo, é possível conjeturarmos que os verbos no

pretérito usados, tipicamente de textos descritivos, parecem sugerir uma forma de

persuasão por parte do autor. Aparentemente, a persuasão pode ser elaborada com

verbos descritivos.

The most parsimonious explanation for our results is our null hypothesis presented above, that (i ) individuals are (…)

Furthermore: (i ) as described above, our experiment was designed to minimize the potential for reciprocity;

(texto da pasta de Economia)

Da mesma forma, podemos sugerir que o excerto de Química abaixo, com

verbos de descrição, mostra uma persuasão não-explícita.

The second region represented the intra-particle diffusion which is the rate limiting step. The third region showed the final equilibrium stage where intra-particle diffusion slows down owing to the extremely low concentration of adsorbent left in the solutions.

(texto da pasta de Química)

Quanto à dimensão 5, relativa à Informação Abstrata versus Não-abstrata, em

que os traços que a caracterizam se encontram no polo positivo (Abstrato), podemos

afirmar que a área de Antropologia é a menos abstrata. Nessa dimensão, 4,2% da

138

variação é dependente da área. Antropologia apresenta o menor escore do grupo e

contrasta com as áreas de Pesquisa de Materiais e a área de Engenharia, que apresentam

os maiores escores. Esse resultado é esperado, uma vez que a linguagem usada na área

de Humanidades tende a ser de mais acessibilidade e compreensão geral, portanto

menos abstrata, do que aquela apresentada pela área das ciências duras, como é o caso

da Pesquisa de Materiais e da Engenharia.

Conforme dito no início desta tese, os artigos que compõem o corpus de

estudo foram coletados entre janeiro e dezembro de 2013. Com base nos resultados

obtidos, podemos concluir que os textos de autores brasileiros são semelhantes àqueles

produzidos por pesquisadores das outras origens pesquisadas. A partir dos resultados

desta pesquisa foi possível constatar que os artigos acadêmicos escritos por

pesquisadores brasileiros apresentam estrutura e léxico semelhantes aos artigos de

outras origens, situados nos mesmos patamares, e mesmo dentro das diferentes áreas de

estudo.

139

5. CONSIDERAÇÕES FINAIS

Esta pesquisa pretendeu contribuir de maneira original para uma área de

estudos linguísticos no mundo globalizado. O estudo teve como objetivo descrever, a

partir do mapeamento nas dimensões de variação de Biber (1988), 900 artigos

acadêmicos em língua inglesa, escritos por pesquisadores de dez áreas de estudo e de

nove diferentes origens. Apesar de o foco deste trabalho ser o autor brasileiro, outras

origens compuseram o corpus para fins comparativos, uma vez que nós esperávamos a

ocorrência de variação entre as origens.

O estudo mostrou que a escrita dos brasileiros cujos artigos compõem o

corpus CERA é semelhante ou equiparável àquela dos pesquisadores de outros países.

Dessa forma, acreditamos que os pesquisadores que tiveram seus artigos publicados

conseguiram vencer a barreira da língua.

Para a execução desta pesquisa não foi necessário termos o percentual de

pesquisadores brasileiros e estrangeiros que não conseguem ter seus artigos publicados.

No entanto, de acordo com relatos na literatura, sabemos que são muitos os que não

conseguem. Assim, podemos conjeturar que a dificuldade em publicar encontrada por

muitos pesquisadores, ou a resposta negativa a uma submissão a publicação, acontece

por vários motivos. Entre eles, podem ser destacados a falta ou insuficiência de apoio

por parte das instituições às quais os autores são filiados. Acreditamos que esse suporte

poderia ser feito, por exemplo, com a criação de uma secretaria de apoio ao pesquisador

e com a oferta de treinamento para aprimorar a escrita acadêmica em inglês, como já

fazem algumas instituição como a Unicamp e a Unesp.

Esta pesquisa mostrou traços de escrita acadêmica presentes em 900 artigos de

dez diferentes áreas de pesquisa, escritos por pesquisadores de nove origens. É possível

especularmos que os artigos cuja submissão a um periódico seja negada devido à

ausência das características apresentadas por esta pesquisa. Assim, apesar de não

solucionar as questões referentes à recusa de artigos submetidos para publicação, esta

pesquisa contribui para a discussão, trazendo à luz alguns aspectos linguísticos que, se

levados em consideração pelos autores, poderão agregar valores à escrita dos

140

brasileiros.

Embora não esteja no escopo do trabalho aqui apresentado, a partir dos

resultados deste estudo, materiais didáticos poderão ser desenvolvidos. Uma sugestão

seria um curso baseado nas características linguísticas típicas de cada área, de forma a

contribuir com um aumento da produtividade científica brasileira medida pelas

publicações indexadas no contexto internacional. Acreditamos que os resultados desta

pesquisa poderão ser úteis a tradutores e a outros pesquisadores que buscam publicar em

inglês.

Como todo estudo, este também teve limitações, que nos cabe apresentar.

Malgrado a pesquisa sobre a origem dos autores tenha sido bastante minuciosa, dado o

conceito de origem adotado (local de nascimento e trabalho do autor), as origens

encontradas e apresentadas na pesquisa são passíveis de erros. Outro ponto a ser

considerado é referente à autoria. O pesquisador está ciente de que, no processo

editorial, e, ainda, considerando os serviços de empresas de tradução, amplamente

divulgados no meio acadêmico, a possibilidade de que terceiros tenham contribuído

efetivamente na escrita dos artigos pode tornar questionável a autoria apresentada. No

entanto, apesar disso, é preciso ressaltar que o foco da pesquisa não são os indivíduos

escritores, mas sim os textos publicados. Sendo assim, esta pesquisa nunca teve a

intenção de responder a questões relacionadas a participação de indivíduos na produção

dos textos que compõem o corpus de estudo, sejam eles autor, revisor, editor, etc. Em

relação à anotação do corpus, sabe-se que, do total das etiquetas atribuídas às unidades

ortográficas, o etiquetador Biber Tagger apresenta um índice de precisão de 95%

(Biber, 1995). Apesar de esse ser um percentual alto e aceitável em estudos de corpora,

a ferramenta usada no processamento do corpus que gerou esse índice, como toda

ferramenta, é passível de erro.

A partir do objetivo de levantar as dimensões de variação do artigo de

pesquisa acadêmica do corpus CERA à luz das cinco dimensões de variação do inglês

propostas por Biber (1988), este estudo buscou responder às seguintes perguntas de

pesquisa:

141

1. Como essas áreas diferentes de conhecimento se comparam quanto às

dimensões do inglês propostas por Biber (1988)?

2. Como as diferentes origens dos autores se comparam quanto às dimensões

propostas por Biber (1988)?

Dessa forma, respondendo à pergunta 1, nossos resultados mostram que as

áreas de pesquisa estudadas têm os mesmos perfis nas cinco dimensões de Biber (1988).

Assim, ora todas estão no polo positivo de uma dimensão, ora todas estão no polo

negativo.

Em relação à pergunta 2, podemos dizer que o texto escrito pelo pesquisador

brasileiro é marcado. Das cinco dimensões propostas por Biber (1988), nas quatro

primeiras, o texto brasileiro é bem acentuado, conforme podemos observar nos

resultados e na discussão.

Com base nas descobertas desta pesquisa, outros estudos relacionados à

escrita de artigos acadêmicos poderão ser conduzidos, que darão continuidade a este

trabalho. Entre os temas possíveis de serem levantados, sugerem-se, por exemplo:

– conduzir um estudo que contemple uma análise fatorial completa;

– identificar as marcas de texto de cada origem;

– tentar prever as línguas dos autores com base nessas marcas;

– identificar as palavras-chave exclusivas de cada origem e área.

Esta pesquisa respondeu pesquisas até então deixadas em aberto sobre a

escrita acadêmica brasileira e estrangeira, mostrando empiricamente as semelhanças e

diferenças entre textos de autores de várias origens e áreas.

142

REFERÊNCIAS

ACUNZO, C. M. Uso de corpora para o ensino de lingua inglesa para profissionais de publicidade. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem. Pontifícia Universidade Católica de São Paulo. São Paulo, 2012.

ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR 6022: informação e documentação: artigo em publicação periódica científica impressa: apresentação. Rio de Janeiro, 2003.

BARTELL, M. Internationalization of universities: A university culture-based framework. Higher Education, Manitoba, Winnipeg, n. 1, v. 45, p. 43-70, 2003.

BENNETT, G. R. Using corpora in the language learning classroom: Corpus linguistics for teachers. ELT, Michigan, 2010.

BERBER SARDINHA, T. Usando o WordSmith Tools na investigação da linguagem. DIRECT Papers, São Paulo e Liverpool, n. 40, 1999.

_____. Beginning Portuguese corpus linguistics: exploring a corpus to teach Portuguese as a foreign language. D.E.L.T.A., São Paulo, n. 2, v. 15, 1999b.

______. Análise Multidimensional. D.E.L.T.A., São Paulo, n.16, v.1, 2000a.

______. Linguística de corpus: histórico e problemática. D.E.L.T.A., São Paulo, v. 16, n. 2, p. 323-367, 2000b.

______. O que é um corpus representativo?. DIRECT Papers, São Paulo e Liverpool, n. 44, 2000c.

______. Linguística de Corpus. Barueri, SP: Manole, 2004a.

______. Informatividade, interatividade e narratividade na reunião de negócios Análise Multidimensional e palavras-chave. Direct Papers, São Paulo e Liverpool, n. 52, 2004b.

______. A língua portuguesa no computador. Campinas: Mercado de Letras, 2005.

_____. Pesquisa em Linguística de Corpus com Wordsmith Tools. Campinas: Mercado de Letras, 2009.

______. Variação entre registros da Internet. In: SHEPHERD, Tania G. & SALIÉS, Tânia G. (Org.) Linguística da Internet. São Paulo: Contexto, 2013.

BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988.

_____. Representativeness in corpus design. Literary and Linguistic Computing, n. 8, p. 243-257, 1993.

_____. Dimensions of register variation: A cross-linguistic comparison. Cambridge: Cambridge University Press, 1995a.

_____. University Language: A corpus-based study of spoken and written registers. Philadelphia e Amsterdam: John Benjamins, 2006.

143

______. Multi-dimensional approaches. In: LÜDELING, Anke & KYTÖ, Merja (Ed.). Corpus Linguistics: An International Handbook. v.2. Berlin: Walter de Gruyter, 2009.

______. What can a corpus tell us about registers and genres? In: McCARTHY, M & O’KEEFFE, A. (Ed.). The Routledge handbook of Corpus Linguistics. Oxford: Routledge, 2010.

_____. Register as a predictor of linguistic variation. Corpus Linguistics and Linguistic Theory, n. 8-1, p. 9-37, 2012.

BIBER, D. & CONRAD, S. Register, genre, and style. Cambridge: Cambridge University Press, 2009.

BIBER, D.; CONRAD, S.; LEECH, G. Longman grammar of spoken and written English. London: Longman, 2002a.

BIBER, D.; CONRAD, S.; REPPEN, R. Corpus linguistics: investigating language structure and use. New York: Cambridge University Press, 1998.

BIBER, D.; CONRAD, S.; REPPEN, R.; BYRD, P.; HELT, M. Speaking and writing in the university: a multidimensional comparison. Tesol Quarterly, v. 36, n. 1, pp. 9-48, 2002b.

BIBER, D.; DAVIES, D.; JONES, J. K.; TRACY-VENTURA, N. Spoken and written register variation in Spanish: A multi-dimensional analysis. Corpora, v. 1, n.1, p. 1-37, 2006.

BURROUGH-BOENISCH, J. Editing Non-Native English – The 21st Century Text. Disponível em: http://21centurytext.wordpress.com/editing-non-native-en. 2011.

CAO, Y. & XIAO, R. A multi-dimensional contrastive study of English abstracts by native and non-native writers. Corpora, v. 8, n. 2, p. 209-234, 2013.

CARGILL, M. & O’CONNOR, P. Writing scientific research articles: Strategies and steps. Chichester: Wiley Blackwell, 2009.

CHAPMAN, S. & ROUTLEDGE, P. (Ed.). Key thinkers in Linguistics and the Philosophy of Language. Edinburgh: Edinburgh University Press, 2005.

CHIZZOTTI, A. & PONCE, B. J. Avaliação da produção docente no ensino superior: possibilidades e limites. E-curriculum, São Paulo, v.5, n.2, Julho 2010.

CHOMSKY, N. Syntactic structures. The Hague, Netherlands: Mouton, 1981 [1957].

CONDE, Helena M. A. Escolhas lexicais em composições de alunos avançados de inglês originários de instituições de ensino bilíngues e monolíngues – Um estudo multidimensional baseado em corpus. São Paulo, 2002. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem). LAEL/PUC-SP, São Paulo.

CONRAD, S. Corpus linguistics, language variation, and language teaching. In: SINCLAIR, J. (Ed.). How to use corpora in language teaching. Amsterdam: John Benjamins, 2004.

CORTES, V. Lexical bundles in Freshman composition. In: REPPEN, R.; FITZMAURICE, S. M.; BIBER, D. (Ed.). Using Corpora to Explore Linguistic Variation. Amsterdam e Philadelphia: John Benjamins, 2002.

144

CRUZ, O. M. S. S. A avaliatividade em pareceres de revista científica de linguística: uma perspectiva sistêmico-funcional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL, Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.

CRYSTAL, D. Global English. Macmillan Education ELT. Disponível em www.macmillanEnglish.com. 2009. Acesso em 10 ago. 2012.

______. English as a Global Language. 2 ed. Cambridge: Cambridge University Press, 2012.

DELEGÁ-LÚCIO, D. A variação entre textos argumentativos e o material didático de inglês: aplicações da análise multimensional e do Corpus Internacional de Aprendizes de Inglês (ICLE). Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.

FAPESP Número de artigos em inglês supera os publicados em português, de Elton Alisson. 2013. Disponível em: http://agencia.fapesp.br/18109. Acesso em 25 out.2013.

FIRTH, J. R. Selected Papers, 1952-59. PALMER, F. R. (Ed.). Bloomington: Indiana University Press, 1968.

FRIGINAL, E. Twenty-five years of Biber's Multi-Dimensional Analysis: introduction to the special issue and an interview with Douglas Biber. Corpora, v. 8, n. 2, p. 137-152, 2013.

GOSDEN, H. Success in research article writing and revision: A social constructionist perspective. English for Specific Purposes, v. 14, n. 1, p. 37-57, 1995.

GRAY, B. More than discipline: uncovering multi-dimensional patterns of variation in academic research articles. Corpora, v. 8, n. 2, p. 153-181, 2013.

HAEGEMAN, L. Introduction to government and binding theory. Oxford e Cambridge (US): Wiley Blackwell, 1995.

HALLIDAY, M. A. K. An introduction to functional grammar. London: Hodder Education, 2004.

HARDY, J. & RÖMER, U. Disciplinary variation in student writing: a multi-dimensional analysis of the Michigan Corpus of Upper-level Student Papers (MICUSP). Corpora, v. 8, n. 2, p. 183-207, 2013.

HIRANO, E. Research article introductions in English for specific purposes: A comparison between Brazilian Portuguese and English. English for Specific Purposes, n. 28, p. 240-250, 2009.

HOEY, M. Corpus Linguistics and word meaning. In: LÜDELING, Anke & KYTÖ, Merja (Ed.). Corpus Linguistics: An International Handbook. v.2. Berlin: Walter de Gruyter, 2009.

HUNSTON, S. Corpora in Applied Linguistics. Cambridge: Cambridge University Press, 2002.

HYLAND, K. English for professional academic purposes: writing for scholarly publication. In: BELCHER, D. (Ed.). Teaching Language Purposefully: English for Specific Purposes in Theory and Practice. New York: Cambridge University Press, 2007.

145

_____. “The past is the future with the lights on”: Reflections on AELFE’s 20th birthday. Ibérica 24 (2012): 29-42

KAUFFMANN, C. H. O. O corpus do jornal: variação linguística, gênero e dimensões da imprensa diária escrita. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2005.

KENNEDY, G. D. An Introduction to Corpus Linguistics. London: Longman, 1998.

KRIEGER, D. Corpus Linguistics: What it is and how it can be applied to teaching. The Internet TESL Journal, v. 9, n. 3, Março 2003.

LACOSTE, Y. & RAJAGOPALAN, R. A Geopolítica do Inglês. São Paulo: Parábola, 2005.

LANGONI, H. Internacionalização de Pesquisa. Veterinária e Zootecnia, v. 17, n.3, 2010.

LAUS, S. P. Alguns desafios postos pelo processo de internacionalização da educação superior no Brasil. IV Colóquio Internacional sobe Gestão Universitária na América do Sul. Florianópolis, 8, 9 e 10 de dezembro de 2004. Disponível em: http://repositorio.ufsc.br/xmlui/handle/123456789/35810.

LEECH, G. Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation. 2004. Disponível em: http://www.ahds.ac.uk/guides/linguistic-corpora/chapter2.htm

MARQUES, F. Os limites do índice-h. Pesquisa FAPESP, n. 207, Maio 2013.

MAURANEN, A. Lingua franca discourse in academic contexts: Shaped by complexity. In: FLOWERDEW, J. (Ed.). Discourse in Context: Contemporary Applied Linguistics. v. 3. London e New York: Bloomsbury, 2014.

McCARTHY, M. & O’KEEFFE, A. Historical perspective: what are corpora and how they have evolved?. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.

McENERY, T. & WILSON, A.Corpus Linguistics. Edinburgh: Edinburgh University Press, 1996.

McENERY, T. & HARDIE, A. Corpus Linguistics: method, theory and practice. Cambridge: Cambridge University Press, 2012.

McENERY, T. & GABRIELATOS, C. English Corpus Linguistics. In: AARTS, B.& MCMAHON, A. (Ed.). The handbook of English linguistics. Hoboken (NJ): Wiley Blackwell, 2006.

MINISTÉRIO DA EDUCAÇÃO E CULTURA (MEC). Programa Inglês sem Fronteiras. Disponível em http://isf.mec.gov.br/. Acesso em 15 set. 2013.

MOON, R. What can a corpus tell us about lexis?. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.

PAIVA, F. M. A avaliação da internacionalização da pesquisa científica e a pós-graduação no Brasil. IV Congresso Ibero-Americano de Política e Administração da Educação. Abril de 2014. Escola Superior de Educação do Instituto Politécnico do Porto, Portugal.

146

PERROTTI-GARCIA, A. J. Artigos médicos em inglês, publicados em periódicos do Brasil e do exterior: uma análise a partir de corpora comparáveis. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo, São Paulo, 2009.

PINTO, A. C. & ANDRADE, J. B. Fator de impacto de revistas científicas: qual o significado deste parâmetro?. Química Nova, v. 22, n. 3, 1999.

PINTO, A. C. & CUNHA, A. S. Avaliação da pós-graduação da área de Química na CAPES e a internacionalização das revistas da Sociedade Brasileira de Química: Journal of the Brazilian Chemical Society e Química Nova. Química Nova, v. 31, n. 8, p. 2.221-2.226, 2008.

QUIRK, R. S. et al. A Comprehensive Grammar of the English Language. Harlow: Longman, 1985.

SALAGER-MEYER, F. Writing and publishing in peripheral scholarly journals: How to enhance the global influence of multilingual scholars?. Journal of English for Academic Purposes, n. 13, p. 78-82, 2014.

SANCHEZ, A. Definición e historia de los corpus. In: SANCHEZ, A. et al. (Org.) CUMBRE – Corpus Lingüístico del Español Contemporáneo. Madrid: SGEL, p. 7-24, 1995.

SBPC. A internacionalização da ciência brasileira em debate. 25 de Novembro de 2013. Disponível em http://www.sbpcnet.org.br/site/noticias/materias/detalhe.php?id=2172.

SCIELO. Autores cujo idioma nativo não é o inglês e editores, avaliam dificuldades e desafios para publicar em periódicos internacionais. SciELO em Perspectiva. Disponível em: http://blog.scielo.org/blog/2014/05/19/autores-cujo-idioma-nativo-nao-e-o-ingles-e-editores-avaliam-dificuldades-e-desafios-para-publicar-em-periodicos-internacionais/. Acesso em 15 jul.2014.

SHERGUE, O. Dimensão de variação no discurso médico acadêmico: o artigo de pesquisa e a apresentação de trabalhos científicos em congressos. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2003.

SILVA, E. C. F. A estrutura genérica e as escolhas léxico-gramaticais das introduções de dissertações de mestrado na área de Linguística Aplicada. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2004

SINCLAIR, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press, 1991.

_____. Trust the text: language, corpus and discourse. New York: Routledge, 2004.

SOUZA, R. C. A revista TIME em uma perspectiva multidimensional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2012.

STUBBS, M. The search for units of meaning: A Tribute to John McHardy Sinclair (14 June 1933 - 13 March 2007). Universität Trier, Alemanha. 2008. Disponível em: http://www.uni-trier.de/fileadmin/fb2/ANG/Linguistik/Stubbs/stubbs-2008-sinclair-laudatio.pdf.

SWALES, J. Research Genre: Explorations and applications. Cambridge: Cambridge University Press, 2004.

147

TEIXEIRA, R. B. S. Termos de (Onco)mastologia: uma abordagem mediada por corpus. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2010.

TOGNINI-BONELLI, E. Theoretical overview of the evolution of corpus linguistics. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.

UNIVERSIDADE FEDERAL DO PARANÁ (UFPR). Normas para apresentação de documentos científicos: periódicos e artigos de periódicos. Curitiba: UFPR, 2000. v.4.

VASCONCELOS, M. R. & SORENSON, J. L. Scientist-friendly policies for non-native English-speaking authors: timely and welcome. Journal of Medical and Biological Research, v. 40, n. 6, p. 743-747, 2007.

VENEGAS, R. Multidimensional analysis of an academic corpus in Spanish. In: PARODI, G. (Org.). Academic and professional discourse genres in Spanish. Philadelphia: John Benjamins, 2010.

VEIRANO PINTO, M. A linguagem dos filmes norte-americanos ao longo dos anos: uma abordagem multidimensional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.

XIAO, R. Multidimensional analysis and the study of world Englishes. World Englishes, v. 28, n. 4, p. 421-450, 2009.

ZUPPARDO, M. C. Dimensões de variação em manuais de manutenção aeronáutica: um estudo baseado na análise multidimensional. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.

148

ANEXOS

149

Anexo 1:

MINISTÉRIO DA EDUCAÇÃO

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO ESPÍRITO SANTO

Autarquia criada pela Lei no. 11.892, de 29 de dezembro de 2008

PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO

DIRETORIA DE PESQUISA

Edital PRPPG 14/2014 – Prodif

FICHA DE INSCRIÇÃO

1. Nome do Proponente:

2. Campus/Coordenadoria de lotação.

3. Especificação do servidor: ( ) Docente ( ) Técnico-Administrativo

4. Quanto tempo é servidor do Ifes (em anos).

5. Nome dos autores do artigo original (Incluir

nesta lista o nome do proponente e indicar os

nomes na ordem da publicação).

Instituição dos autores do artigo original

Autor 01:

Autor 02:

Autor 03:

Autor 04:

Autor 05:

Autor 06:

Autor 07:

OBS. Se o artigo possuir mais de 07 autores, acrescente quantas linhas for necessário no Item 5.

6. Título do artigo original:

7. Serviço a ser contratado: ( ) Versão português-inglês

( ) Revisão do inglês

8. Quantas palavras o original possui?(Incluir

textos das Figuras e dos Gráficos, caso existam).

150

9. Nome da revista/periódico para o qual o artigo

será submetido e o ISSN da revista.

ISSN: Nome:

10. Versão da Revista. ( ) Impressa ( ) Eletrônica

11. O periódico ao qual o artigo será submetido

tem fator de impacto no JCR? No caso positivo

informar o valor do fator de impacto.

( ) Não ( ) Sim

Valor do Fator de impacto

12. O periódico ao qual se pretende submeter o

artigo possui QUALIS? No caso positivo informar

o QUALIS e a área de avaliação.

( ) Não ( ) Sim QUALIS Área de Avaliação

13. O proponente pertence a Grupo de Pesquisa?

Se positivo, informar o nome do Grupo.

( ) Não ( ) Sim Nome/Grupo:

14. O proponente já foi contemplado pelo Edital

PRPPG 02/2014 - Prodif? Se positivo, informar o

número de artigos originais já contemplados.

( ) Não ( ) Sim Número de artigos originais

contemplados:

Vitória, ____ de __________ de _______.

__________________________________________

Assinatura Proponente

ANEXO II

MINISTÉRIO DA EDUCAÇÃO

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO ESPÍRITO SANTO

Autarquia criada pela Lei no. 11.892, de 29 de dezembro de 2008

PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO

DIRETORIA DE PESQUISA

151

Edital PRPPG 14/2014

Prodif

Versão e revisão de artigos científicos

Termo de Compromisso

Eu,_____________________________________________________________, servidor do Ifes,

lotado no Campus_________________________________, inscrito sob SIAPE nº____________

estou submetendo o artigo original intitulado ___________________________________________

__________________________________________________________________________________

__________________________________________________________________________________

__________________________________________________________________________________

( ) para versão do idioma português para o inglês.

( ) para revisão do idioma inglês.

Estou ciente que com o término do serviço da empresa contratada pelo Ifes, terei que

submeter o artigo original para um periódico especializado em no máximo 15 dias. Estou ciente

da devolução à Instituição do valor pago para a realização do serviço, via GRU, no prazo de 45

(quarenta e cinco) dias contados a partir da data em que recebi o documento pela empresa

contratada, caso eu não venha submeter o artigo original após o fim do trabalho de versão ou de

revisão.

Vitória, ____ de __________ de _______.

__________________________________________

Assinatura Proponente

152

Anexo 2

Country Documents

Citable

documents

Citations Self-Citations Citations

per Document

H index

1 United States 7.063.329 6.672.307 129.540.193 62.480.425 20,45 1.380

2 China 2.680.395 2.655.272 11.253.119 6.127.507 6,17 385

3 United Kingdom 1.918.650 1.763.766 31.393.290 7.513.112 18,29 851

4 Germany 1.782.920 1.704.566 25.848.738 6.852.785 16,16 740

5 Japan 1.776.473 1.734.289 20.347.377 6.073.934 12,11 635

6 France 1.283.370 1.229.376 17.870.597 4.151.730 15,6 681

7 Canada 993.461 946.493 15.696.168 3.050.504 18,5 658

8 Italy 959.688 909.701 12.719.572 2.976.533 15,26 588

9 Spain 759.811 715.452 8.688.942 2.212.008 13,89 476

10 India 750.777 716.232 4.528.302 1.585.248 7,99 301

11 Australia 683.585 643.028 9.338.061 2.016.394 16,73 514

12 Russian Federation 586.646 579.814 3.132.050 938.471 5,52 325

13 South Korea 578.625 566.953 4.640.390 1.067.252 10,55 333

14 Netherlands 547.634 519.258 10.050.413 1.701.502 21,25 576

15 Brazil 461.118 446.892 3.362.480 1.151.280 10,09 305

16 Taiwan 398.720 389.411 3.259.864 790.103 10,41 267

17 Switzerland 395.703 377.016 7.714.443 1.077.442 22,69 569

18 Sweden 375.891 361.569 6.810.427 1.104.677 20,11 511

19 Poland 346.611 339.712 2.441.439 652.956 8,25 302

20 Turkey 306.926 291.814 1.935.431 519.675 8,24 210

Quadro Anexo 2: países e número de citações

Fonte: SCImago Journal & Country Rank, disponível em http://www.scimagojr.com/index.php

153

Anexo 3: Descrição das etiquetas de Biber (texto original em inglês)

Fonte: www.americannationalcorpus.org/.../Biber-tags.txt

Tag descriptions

Doug Biber

15 June, 1993

There are five tag fields, separated by a plus sign (+). For most words,

only one or two of the fields are used. The primary grammatical category of

a word is usually marked in the first tag field; many of these first-field

tags are identical to tags used in the LOB tag set.

In the case of adjectives (TAG = JJ), nouns (TAG = NN), and verbs

(TAG = VB), the tag ?? can appear in Tag Field 4 to mark words that were not in

the dictionary; in these cases, the grammatical category is assigned

based on morphology and the surrounding context.

The tags xvbn and xvbnx in Field 4 mark a word as being a past participle

form, regardless of function. Thus, some adjectives, nouns, and base verb forms

are marked as xvbn. All past tense verbs, perfect aspect verbs, and

passive verbs have this tag. The tag xvbnx is used to mark cases where

the grammatical function (e.g., perfect or passive) has been identified with

a very high degree of accuracy from the context; the tag xvbn is used for cases

where the assigned grammatical function is less certain.

The tags xvbg and xvbgx in Field 4 mark a word as being a present

participle form, regardless of function. Thus, some adjectives and nouns

are marked as xvbg. All present progressive verbs have this tag. The tag xvbgx

is used to mark cases where the grammatical function has been identified with a

very high degree of accuracy; the tag xvbg is used for

cases where the assigned grammatical function is less certain.

154

--------------------------------------------------------------------------

Field 1 + Field 2 + Field 3 + Field 4 + Field 5

Tag

Sequence

:+clp+++ colon + clause punctuation

;+clp+++ semi-colon + clause punctuation

?+clp+++ question mark + clause punctuation

!+clp+++ exclamation mark + clause punctuation

,++++ comma

-++++ dash

"++++ double quote mark

'++++ single quote mark

(++++ left parenthesis

)++++ right parenthesis

$++++ dollar sign

%++++ percent sign

&fo++++ formula symbols

&fw++++ foreign word

abl++++ pre-qualifier (rather, such)

abn++++ pre-quantifier (all, half)

abx++++ pre-quantifier/double conjunction (both)

ap++++ post-determiner (many, more, most, only, other, own, same, ...)

aps++++ (others)

at++++ singular indefinite article (a, an)

ati++++ singular definite article (the, no)

cc++++ coordinating conjunction (and, but, or)

cc+cls+++ coordinating conjunction + clausal connector

155

cc+phrs+++ coordinating conjunction + phrasal connector

cc"++++ multi-word coordinating conjunction (as well as)

cc++neg++ coordinating conjunction + + negation (nor)

cd++++ cardinal number (2, 3, 4, two, three, four, hundred, ...)

cd+date+++ cardinal number + date (year only)

cd1++++ cardinal number: 1, one

cd1s++++ cardinal number: ones

cds++++ cardinal plural (tens, hundreds, thousands)

od++++ ordinal number (1st, 2nd, first, second, ...)

cs+cnd+++ subordinating conjunction + conditional (if, unless)

cs+con+++ subordinating conjunction + concessive (although, though)

cs+cos+++ subordinating conjunction + causative (because)

cs+who+++ subordinating conjunction + WH word (whether)

cs+sub+++ subordinating conjunction + other (as, except, until, ...)

cs"++++ multi-word subordinating conjunction (in that, so that, ...)

dt+dem+++ determiner + demonstrative (this,that,these,those modifying N)

dt+pdem+++ determiner + demonstrative pronoun (this, that, these, those)

dti++++ singular or plural determiner (any, enough, some)

dt++++ other singular determiner (another, each)

dtx++++ determiner/double conjunction (either)

ex+pex+++ existential there

in++++ preposition

in+ppvb+++ preposition + prepositional verb (account for, join in, ...)

in+pl+++ preposition + place marker (above, behind, beside, ...)

in"++++ multi-word perposition (as to, away from, instead of, ...)

in+strn+++ preposition + stranded

156

jj+atrb+++ adjective + attributive function

jj+atrb++xvbg+ adjective + attributive function + + -ing form

jj+atrb++xvbn+ adjective + attributive function + + past participle form

jj+pred+++ adjective + predicative function

jj++++ adjective + indeterminate function

jjb+atrb+++ attributive-only adjective + attributive (chief, entire)

jjr+atrb+++ comparative adjective + attributive function

jjr+pred+++ comparative adjective + predicative function

jjt+atrb+++ superlative adjective + attributive function

-----------------------------------------------------------------------

All modal forms can be marked as 0 in Field 5 (e.g., md+prd+++0) to show that they

are contracted forms (e.g., 'll, 've)

md+nec+++ modal + necessity (ought, should, must)

md+pos+++ modal + possibility (can, may, might, could)

md+prd+++ modal + prediction (will, would, shall)

md"++pmd"++ modal + + multi-word periphrastic modal (e.g., be going to)

nn++++ singular common noun

nn+nom+++ singular noun + nominalization

nvbg+++xvbg+ singular noun + + + -ing form

nn+++xvbn+ singular noun + + + past participle form

nns++++ plural common noun

nns+nom+++ plural noun + nominalization

nnu++++ unit of measurement (lb, kg, ...)

np++++ singular proper noun

157

nps++++ plural proper noun

npl++++ locative noun

npt++++ singular titular noun

npts++++ plural titular noun

nr++++ singular adverbial noun (east, west, today, home, ...)

nrs++++ plural adverbial noun

----------------------------------------------------------------------

NB: In the following pronoun tags, be careful of the difference between the

number 1, used to mark first person, and the letter l (i.e. lower case L), used

to mark reflexives.

pp1a+pp1+++ first person subject pronoun + first person pronoun

pp1a+pp1+++0 first person subject pronoun + 1st person pro. + contracted

pp1o+pp1+++ first person object pronoun + first person pronoun

pp$+pp1+++ possessive determiner + first person pronoun (my, our)

ppl+pp1+++ singular reflexive pronoun + first person pronoun (myself)

ppls+pp1+++ plural reflexive pronoun + first person pronoun (ourselves)

pp2+pp2+++ second person pronoun + second person pronoun

pp$+pp2+++ possessive determiner + second person pronoun (your)

ppl+pp2+++ singular reflexive pronoun + second person pronoun (yourself)

pp3a+pp3+++ third person subject pronoun + third person personal pronoun

pp3o+pp3+++ third person object pronoun + third person personal pronoun

pp3+pp3+++0 third person pronoun + 3rd person personal pro. + contracted

pp$+pp3+++ possessive + 3rd pers. personal pro. (his, her, their)

ppl+pp3+++ sg. reflexive pronoun + 3rd pers. personal pro. (her/himself)

ppls+pp3+++ pl. reflexive pronoun + 3rd pers. personal pro. (themselves)

pp3+it+++ third person pronoun + third person impersonal pronoun (it)

pp$+it+++ possessive determiner + third person impersonal pronoun (its)

pp$$++++ possessive pronoun (mine, yours, ...)

158

pn"++++ multi-word nominal pronoun (no one, ...)

pn++++ nominal pronoun (someone, everything, ...)

ql++++ qualifier + (as, less, more, too)

ql+amp+++ qualifier + amplifier (very)

ql+emph+++ qualifier + emphatic (most)

qlp++++ post-qualifier (enough, indeed)

All adverb forms can be marked as splt in Field 3 (e.g., rb+amp+splt++)

to indicate that the adverb occurs within the auxiliary

(e.g., they've probably been looking...).

rb++++ general adverb

rb"++++ multi-word adverb (at last, in general)

rb+cnj+++ adverb + conjunct (however, therefore, thus, ...)

rb++neg++ neither

rb+amp+++ adverb + amplifier (absolutely, completely, entirely, ...)

rb+down+++ adverb + downtoner (nearly, only, merely, ...)

rb+emph+++ adverb + emphatic (just, really, so, ...)

rb+hdg+++ adverb + hedge (almost, maybe, ...)

rb"+hdg"+++ multi-word adverb + hedge (kind of, sort of)

rb+phrv+++ adverb + phrasal verb (get in, wrap up, ...)

rb+pl+++ adverb + place marker (abroad, ahead, far, upstream, ...)

rb+tm+++ adverb + time marker (afterwards, again, immediately, ...)

rb+dspt+++ adverb + discourse particle (anyway, well, ...)

rbr++++ comparative adverb (better, quicker)

rbr+tm+++ comparative adverb + time marker (earlier, later, sooner, ...)

rn+pl+++ nominal adverb + place marker (here, there)

rn+tm+++ nominal adverb + time marker (now, then)

rn+dspt+++ nominal adverb + discourse particle (now)

159

rp++++ adverbial particle (back, in, round, up, ...)

rp+pl+++ adverbial particle + place marker (away, behind, out, ...)

---------------------------------------------------------------------

tht+jcmp+++ that as dependent clause head + adjective complement

tht+ncmp+++ that as dependent clause head + noun complement

tht+vcmp+++ that as dependent clause head + verb complement

tht+rel+++ that as dependent clause head + relative clause

tht+rel+obj++ that as dep. clause head + relative clause + object position

tht+rel+subj++ that as dep. clause head + relative clause + subject position

--------------------------------------------------------------------------

to++++ infinitive marker

to"++++ multi-word infinitive marker (in order to)

uh++++ interjection/filler (hey, oh, ok, yes, erm ...)

vb++++ base form of verb, excluding verbs in infinitive clauses

(uninflected present tense, imperative)

vb+++xvbn+ base form of verb + + + past participle form

(e.g., cut, hit, hurt, ...)

vb+be+aux++ base form of verb + be + auxiliary verb

vb+be+vrb++ base form of verb + be + main verb

vb+bem+aux++ verb + am + auxiliary verb

vb+bem+aux++0 verb + am + auxiliary verb + + contracted ('m)

vb+bem+vrb++ verb + am + main verb

vb+bem+vrb++0 verb + am + main verb + + contracted ('m)

vb+ber+aux++ verb + are + auxiliary verb

vb+ber+aux++0 verb + are + auxiliary verb + + contracted ('re)

vb+ber+vrb++ verb + are + main verb

160

vb+ber+vrb++0 verb + are + main verb + + contracted ('re)

vb+do+aux++ verb + do + auxiliary verb

vb+do+vrb++ verb + do + main verb

vb+hv+aux++ verb + have + auxiliary verb

vb+hv+aux++0 verb + have + auxiliary verb + + contracted ('ve)

vb+hv+vrb++ verb + have + main verb

vb+hv+vrb++0 verb + have + main verb + + contracted ('ve)

vb+seem+++ base form of verb + seem / appear

vb+vprv+++ base form of verb + private verb (believe, feel, think, ...)

vb+vprv+tht0++ base form of verb + private verb + that deletion **

vb+vpub+++ base form of verb + public verb (assert, complain, say, ...)

vb+vpub+tht0++ base form of verb + public verb + that deletion **

vb+vsua+++ base form of verb + suasive verb (ask, command, insist, ...)

----------------------------------------------------------------------

All past tense verb forms (excluding were, was, did, had) are marked as

either xvbn or xvbnx; only the sequences with xvbn are listed below.

vbd+++xvbn+ past tense verb + + + past participle form

vbd+bed+aux++ past tense verb + were + auxiliary verb

vbd+bed+vrb++ past tense verb + were + main verb

vbd+bedz+aux++ past tense verb + was + auxiliary verb

vbd+bedz+vrb++ past tense verb + was + main verb

vbd+dod+aux++ past tense verb + did + auxiliary verb

vbd+dod+vrb++ past tense verb + did + main verb

vbd+hvd+aux++ past tense verb + had + auxiliary verb

vbd+hvd+vrb++ past tense verb + had + main verb

vbd+seem++xvbn+ past tense verb + seem/appear

vbd+vprv++xvbn+ past tense + private verb (believe, feel, think, ...)

vbd+vprv+tht0+xvbn+ past tense + private verb + that deletion **

vbd+vpub++xvbn+ past tense + public verb (assert, complain, say, ...)

161

vbd+vpub+tht0+xvbn+ past tense + public verb + that deletion **

vbd+vsua++xvbn+ past tense + suasive verb (ask, command, insist, ...)

** the tag tht0 marks the occurrence of a following that complement clause

when the complmentizer that has been deleted.

All present progressive verb forms are marked as either xvbg or xvbgx;

only the sequences with xvbg are listed below.

vbg+++xvbg+ present progressive verb + + + -ing form

vbg+beg++xvbg+ present progressive verb + being

vbg+beg+aux+xvbg+ present progressive verb + being + auxiliary verb

vbg+hvg++xvbg+ present progressive verb + having

vbg+vprv++xvbg+ pres. prog. + private verb (believe, feel, think, ...)

vbg+vprv+tht0+xvbg+ present progressive + private verb + that deletion **

vbg+vpub++xvbg+ pres. prog. + public verb (assert, complain, say, ...)

vbg+vpub+tht0+xvbg+ present progressive + public verb + that deletion **

vbg+vsua++xvbg+ pres. prog. + suasive verb (ask, command, insist, ...)

vwbg+++xvbg+ present progressive postnominal modifier

vwbg+beg++xvbg+ present progressive postnominal modifier + being

vwbg+hvg++xvbg+ present progressive postnominal modifier + having

vwbg+vprv++xvbg+ present prog. postnom. modifier + private verb

vwbg+vpub++xvbg+ present prog. postnom. modifier + public verb

--------------------------------------------------------------------------

vbi++++ base form of verb in infinitive clause

vbi+vprv+++ infinitive verb + private verb (believe, feel, think, ...)

vbi+vprv+tht0++ infinitive verb + private verb + that deletion **

vbi+vpub+++ infinitive verb + public verb (assert, complain, say, ...)

162

vbi+vpub+tht0++ infinitive verb + public verb + that deletion **

vbi+vsua+++ infinitive verb + suasive verb (ask, command, insist, ...)

---------------------------------------------------------------------------

vbz++++ 3rd person singular verb

vbz+bez+aux++ 3rd person sg. verb + is + auxiliary verb

vbz+bez+aux++0 3rd person sg. + is + auxiliary verb + + contracted ('s)

vbz+bez+vrb++ 3rd person sg. verb + is + main verb

vbz+bez+vrb++0 3rd person sg. + is + main verb + + contracted ('s)

vbz+doz+aux++ 3rd person sg. verb + does + auxiliary verb

vbz+doz+vrb++ 3rd person sg. verb + does + main verb

vbz+hvz+aux++ 3rd person sg. verb + has + auxiliary verb

vbz+hvz+vrb++ 3rd person sg. verb + has + main verb

vbz+seem+++ 3rd person sg. verb + seem/appear

vbz+vprv+++ 3rd person sg. + private verb (believe, feel, think, ...)

vbz+vprv+tht0++ 3rd person sg. + private verb + that deletion **

vbz+vpub+++ 3rd person sg. + public verb (assert, complain, say, ...)

vbz+vpub+tht0++ 3rd person sg. + public verb + that deletion **

vbz+vsua+++ 3rd person sg. + suasive verb (ask, command, insist, ...)

** the tag tht0 marks the occurrence of a following that complement clause

when the complmentizer that has been deleted.

All perfect aspect verb forms and passive verb forms are marked as

either xvbn or xvbnx; only the sequences with xvbn are listed below.

163

vprf+++xvbn+ perfect aspect verb + + + past participle form

vprf++tht0+xvbn+ perfect aspect verb + + that deletion **

vprf+ben+aux+xvbn+ perfect aspect verb + been + auxiliary verb

vprf+ben+vrb+xvbn+ perfect aspect verb + been + main verb

vpsv++agls+xvbn+ main clause passive verb + + agentless passive

vpsv++by+xvbn+ main clause passive verb + + by passive

vwbn+++xvbn+ passive postnominal modifier + + + past participle form

vwbn+vprv++xvbn+ passive postnominal modifier + private verb

vwbn+vpub++xvbn+ passive postnominal modifier + public verb

vwbn+vsua++xvbn+ passive postnominal modifier + suasive verb

---------------------------------------------------------------------

wdt+who+++ WH determiner + WH word (what, whatever, whichever, ...)

wdt+who+whcl++ WH determiner + WH word + WH clause

wdt+who+whq++ WH determiner + WH word + WH question

whp+rel+obj++ WH pronoun + relative clause + object position

whp+rel+pied++ WH pronoun + relative clause + object position with

prepositional fronting ('pied piping')

whp+rel+subj++ WH pronoun + relative clause + subject position

whp+who+++ WH pronoun + WH word (not a relative clause)

whp+who+whq++ WH pronoun + WH word + WH question

wrb+who+++ WH adverb (how, when, where, ...) + WH word

wrb+who+whcl++ WH adverb + WH word + WH clause

wrb+who+whq++ WH adverb + WH word + WH question

164

xnot++not++ not + + negation

xnot++not++0 not + + negation + + contracted form (n't)

xvbn+++xvbn+ past participle form -- indeterminate grammatical function

xvbg+++xvbg+ present participle form -- indeterminate grammatical function

zz++++ letter of the alphabet

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Ramos... · Agradeço ao meu sogro, Sr....

Documents

Transcript of PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Ramos... · Agradeço ao meu sogro, Sr....