PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Ramos... · Agradeço ao meu sogro, Sr....
-
Upload
nguyenphuc -
Category
Documents
-
view
214 -
download
1
Transcript of PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC … Ramos... · Agradeço ao meu sogro, Sr....
i
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP
Etelvo Ramos Filho
ARTIGOS ACADÊMICOS EM LÍNGUA INGLESA: UMA ABORDAGEM MULTIDIMENSIONAL
DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM
SÃO PAULO 2014
ii
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP
Etelvo Ramos Filho
ARTIGOS ACADÊMICOS EM LÍNGUA INGLESA: UMA ABORDAGEM MULTIDIMENSIONAL
Tese apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo PUC-SP, como requisto parcial para a obtenção do título de DOUTOR em Linguística Aplicada e Estudos da Linguagem, sob a orientação de Dr. Antônio Paulo Berber Sardinha.
DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM
SÃO PAULO 2014
iii
AUTORIZAÇAO
Na condição de autor, autorizo, somente para fins acadêmicos, a reprodução total ou parcial desta tese.
iv
Tese defendida e aprovada em ___ /___ /____
BANCA EXAMINADORA
_______________________________
_______________________________
_______________________________
_______________________________
_______________________________
v
Dedico este trabalho ao Seu Etelvo Melo Ramos, que partiu para o outro lado no meu percurso rumo ao doutorado, a meu filho,
Rodrigo, minha mãe, Dona Aryta e minha esposa, Flávia.
vi
AGRADECIMENTOS
Não é discurso, mas sinto orgulho de ter feito o doutorado na PUC, uma
grande instituição, que me deu oportunidade de crescer profissionalmente e conhecer
gente muito bacana e fazer amigos.
Gostaria de agradecer, em primeiro lugar, ao professor Tony Berber Sardinha,
orientador deste trabalho, por todo o conhecimento que ele dividiu comigo nos quatro
anos de convivência. Agradeço também pela paciência, profissionalismo, prontidão em
atender aos pedidos de ajuda, tolerância e “grand” senso de humor que ele sempre
“esteve tendo”, ao ministrar as disciplinas no LAEL e ao conduzir os estudos do GELC
(vou “estar sentindo” saudades do grupo).
Agradeço imensamente aos membros da banca pela ajuda: Profa. Célia Maria
Magalhães, que, com humildade, foi direta e profissional nas suas sugestões e
comentários enriquecedores; Profa. Cida Caltabiano, que com humildade, doçura,
profissionalismo e discernimento, pontuou o que deveria ser melhorado; Profa. Beth
Brait que, prontamente, aceitou participar da minha Banca, trazendo sua experiência,
alegria e expertise. Tive também a sorte de ter como membro da Banca a Profa. Renata
Condi de Souza, que sempre esteve pronta para ajudar, com boas ideias e muito
conhecimento da Análise Multidimensional, que recheavam meus textos com anotações.
Agradeço imensamente a Maria Lúcia e Márcia Martins, que, mesmo
ocupadas, estão sempre prontas a nos dar atenção e apoio no LAEL.
Agradeço aos amigos Profa. Karina Bersan e Prof. Antônio Carlos Gomes,
pelo incentivo; Christine Almeida, por ajudar o seu amigo aqui com orientações sobre o
preenchimento de formulários, e Juliana Ferrari, pelo empréstimo do livro que estava
esgotado.
Meus agradecimentos vão para Rosana de Barros Silva e Teixeira, pela grande
ajuda com seus conhecimentos de Linguística de Corpus e acolhimento quando cheguei
ao LAEL.
Wendel Mendes Dantas, obrigado pelo acolhimento quando cheguei ao
vii
LAEL.
Denise Delegá-Lúcio, sou muito grato a você por ter participado do meu
segundo exame de qualificação. Muito obrigado pelas anotações e sugestões de AMD.
Miss Carol Zuppardo, muito thanks por toda a ajuda e amizade, as caronas and
great time we spent talking about school, life in the USA, music, planes, and life in
general.
Eduardo (Mr.) Cassimiro, muito obrigado pela ajuda com o preenchimento de
formulários e incentivo. You’re a great guy!
Carlos (Mr.) Kauffmann, agradeço pelo profissionalismo na revisão do texto
final.
Meu agradecimento vai para todos os colegas e amigos do Grupo GELC:
Flávia Silva, Cristina Acunzo, Telma de Lurdes, Maria Cecília Lopes, Márcia Veirano,
Juliana Barreto, Helenice Serikaku, Agnes Scaramuzzi, Bárbara Silva, Alexandre (Mr.)
Trigo, Zé Lourenço (you are the man!) e Deutschlehrerin Cris Alberts. (Mr. Trigo, Zé
and Cris, just remember, guys, coffee is life!). Todos vocês me ajudaram muito.
Dona Alina da Silva Bonella, muito obrigado pelas revisões de texto, feitas
com grande expertise.
Meus agradecimentos vão também para a grande amiga Ciomara de Freitas
Gonçalves pelo apoio e acompanhamento com sessões de coaching.
Agradeço ao meu sogro, Sr. Gelço Ribeiro, por me levar ao aeroporto
inúmeras vezes e à Dona Onorita, minha sogra, uma segunda mãe. Obrigado por ajudar
a cuidar de meu filho em minha ausência.
Flávia, obrigado pela paciência, compreensão e dedicação, cuidando do nosso
filho, nossa casa, e nossos akitas – Suki e Aiko –, na minha ausência.
Agradeço aos meus pais, Seu Etelvo e Dona Aryta, que, com esforço, me
proporcionaram estudar inglês na adolescência, quando isso “era coisa para rico”.
Por fim, sou muito grato à Coordenação de Aperfeiçoamento de Pessoal de
Nível Superior (CAPES) pela concessão da bolsa.
viii
There are people in the world for whom "ʺcoming along"ʺ is a perpetual process,
people who are destined never to arrive.
James Baldwin, Go Tell It on the Mountain (1953)
ix
SUMÁRIO
INTRODUÇÃO ........................................................................................................................... 1 Justificativa ............................................................................................................................... 5
Objetivos e perguntas de pesquisa ......................................................................................... 11
Objetivo geral ..................................................................................................................... 11
Objetivos específicos .......................................................................................................... 11
Perguntas de pesquisa: ....................................................................................................... 11
1. CONTEXTUALIZAÇÃO ...................................................................................................... 12 2. FUNDAMENTAÇÃO TEÓRICO-METODOLÓGICA ........................................................ 24
2.1 O artigo acadêmico ........................................................................................................... 24
2.2 Linguística de Corpus ...................................................................................................... 30
2.2.1 Definição e premissas da Linguística de Corpus ...................................................... 32
2.2.2 Breve histórico .......................................................................................................... 34
2.2.3 Corpus: definição e tipologia .................................................................................... 40
2.2.4 Tipologia do corpus .................................................................................................. 44
2.2.5 Ferramentas usadas na LC ......................................................................................... 48
2.2.6 Padronização ............................................................................................................. 54
2.2.6.1 Colocação ........................................................................................................... 55
2.2.6.2 Coligação ............................................................................................................ 56
2.2.6.3 Prosódia semântica ............................................................................................. 57
2.2.6.4 Princípio idiomático e princípio da livre escolha ............................................... 58
2.3. Análise Multidimensional (AMD) .................................................................................. 58
2.3.1 Definições .................................................................................................................. 59
2.3.1.1 Traços ................................................................................................................. 59
2.3.1.2 Características .................................................................................................... 59
2.3.1.3 Registro e gênero ................................................................................................ 60
2.3.1.4 Tipos de texto ..................................................................................................... 60
2.3.1.5 Fator ................................................................................................................... 61
2.3.1.6 Dimensões .......................................................................................................... 61
x
2.3.2 Análise Fatorial ......................................................................................................... 62
2.3.2.1 Diagrama de sedimentação ................................................................................. 62
2.3.2.2 Anova ................................................................................................................. 63
2.3.2.3 R quadrado (ou R²) ............................................................................................. 63
2.3.2.4 Escore ................................................................................................................. 63
2.3.2.5 Variáveis ............................................................................................................. 64
2.3.3 Desenvolvimento e premissas da AMD .................................................................... 64
2.3.4 Dimensões de Biber e seus traços ............................................................................. 72
Dimensão 1: Produção com interação versus informacional ......................................... 72
Dimensão 2: Preocupações narrativas versus não-narrativas ......................................... 73
Dimensão 3: Referências explícitas versus dependentes do contexto ............................ 74
Dimensão 4: Expressão explícita de persuasão versus não-explícita ............................. 74
Dimensão 5: Informação abstrata versus não-abstrata ................................................... 75
2.3.5 Trabalhos com AMD ................................................................................................. 76
3. METODOLOGIA .................................................................................................................. 79 3.1 Descrição do corpus de estudo ......................................................................................... 79
3.1.1 (Pré-)processamento do corpus ................................................................................. 84
3.2 Procedimento de análise ................................................................................................... 92
3.3 Anotação e etiquetagem ................................................................................................... 92
3.4 Escores das dimensões no corpus CERA ....................................................................... 101
4. APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS ................................................ 104 4.1 Apresentação .................................................................................................................. 104
4.1.2 País como variável independente ............................................................................ 104
4.1.3 Área de estudo como variável independente ........................................................... 118
4.2 Discussão dos resultados ................................................................................................ 131
4.2.1 Autores brasileiros nas dimensões de Biber (1988) ................................................ 131
Dimensão 1 ................................................................................................................... 131
Dimensão 2 ................................................................................................................... 132
Dimensão 3 ................................................................................................................... 133
xi
Dimensão 4 ................................................................................................................... 134
Dimensão 5 ................................................................................................................... 134
4.2.2 Comparação entre as áreas de pesquisa ................................................................... 135
5. CONSIDERAÇÕES FINAIS ............................................................................................... 139 REFERÊNCIAS ....................................................................................................................... 142 ANEXOS .................................................................................................................................. 148
xii
LISTA DE QUADROS
Quadro 1: Países e número de citações. Fonte: SCImago Journal & Country Rank, disponível em http://www.scimagojr.com/index.php. ......................................................................... 13
Quadro 2: Corpora de destaque (adaptado de Berber Sardinha, 2004b) ................................... 38
Quadro 3: Tamanhos de corpus (Fonte: BERBER SARDINHA, 2004b, p. 26) ....................... 47
Quadro 4: Dimensões de Biber (2009) revisadas. Fonte: adaptada de BERBER SARDINHA, 2013 .................................................................................................................................... 71
Quadro 5: Traços da dimensão 1 (fonte: adaptado de BIBER, 1988) ........................................ 72
Quadro 6: Traços da dimensão 2 (fonte: adaptado de BIBER, 1988) ........................................ 73
Quadro 7: Traços da dimensão 3 (fonte: adaptado de BIBER, 1988) ........................................ 74
Quadro 8: Traços da dimensão 4 (fonte: adaptado de BIBER, 1988) ........................................ 75
Quadro 9: Traços da dimensão 5 (fonte: adaptado de BIBER, 1988) ........................................ 75
Quadro 10: CERA: origem, áreas e número de textos ................................................................ 81
Quadro 11: CERA: origem dos pesquisadores .......................................................................... 83
Quadro 12: CERA: áreas de pesquisa. Fonte: National Science Foundation Graduate Research Fellowship Program. .......................................................................................................... 84
Quadro 13: Composição do CERA. Contagem obtida pela ferramenta Wordlist, do programa WordSmith Tools 6.0. ......................................................................................................... 88
Quadro 14: Excerto de texto etiquetado pelo Biber Tagger ....................................................... 94
Quadro 15: Excertos do texto 1 de Química da subpasta Brasil. Fonte: o autor. ..................... 106
Quadro 16: Excerto do texto 8 de Ciências da Vida, da subpasta França. Fonte: o autor ....... 108
Quadro 17: Excertos do texto 3 de Psicologia da subpasta Alemanha. Fonte: o autor. ........... 108
Quadro 18: Excertos do texto 8 de Linguística da subpasta Brasil. Fonte: o autor. ................ 110
Quadro 19: Excerto do texto 5 de Engenharia da subpasta Brasil. Fonte: o autor. .................. 112
Quadro 20: Excerto do texto 6 de Eng. e Ciência da Computação da subpasta Índia. Fonte: o autor. ................................................................................................................................. 112
Quadro 21: Excerto do trecho 6 de Engenharia da subpasta Reino Unido. Fonte: o autor. ..... 113
Quadro 22: Excerto do texto 5 de Antropologia da subpasta Alemanha. Fonte: o autor. ........ 115
Quadro 23: excerto do texto 10 de Física e Astronomia da subpasta Alemanha. Fonte: o autor. .......................................................................................................................................... 115
Quadro 24: Excertos do texto 6 de Linguística da subpasta Brasil. Fonte: o autor. ................ 116
xiii
Quadro 25: Excertos do texto 1 de Engenharia da subpasta Estados Unidos. Fonte: o autor. . 117
Quadro 26: Excertos de texto da área Pesquisa de Materiais (Alemanha). Fonte: o autor. ..... 119
Quadro 27: Excertos de texto da área Linguística (Índia). Fonte: o autor. .............................. 120
Quadro 28: Excertos de texto da área de Física e Astronomia (Canadá). Fonte: o autor. ....... 122
Quadro 29: Excertos de texto de Antropologia (Itália). Fonte: o autor. ................................... 122
Quadro 30: Excertos de texto de Psicologia (Estados Unidos). Fonte: o autor. ...................... 124
Quadro 31: Excertos de texto de Física e Astronomia (Estados Unidos). Fonte: o autor. ....... 125
Quadro 32: Excerto de texto de Química (China). Fonte: o autor. .......................................... 126
Quadro 33: Excerto de texto de Engenharia e Ciência da Computação (China). Fonte: o autor. .......................................................................................................................................... 127
Quadro 34: Excerto de texto de Pesquisa de Materiais (Reino Unido). Fonte: o autor. .......... 129
Quadro 35: Excertos de texto de Antropologia (França). Fonte: o autor. ................................ 130
xiv
LISTA DE TABELAS
Tabela 1: Corpus usado por Biber (1988). Fonte: adaptado de SOUZA, 2012. ........................ 69
Tabela 2: Dimensões de Biber (1988) com CERA ................................................................... 103
Tabela 3: Variável Independente País – dimensão 1 ................................................................ 105
Tabela 4: Variável Independente País dimensão 2 ................................................................... 107
Tabela 5: Variável independente País – dimensão 3 ................................................................ 109
Tabela 6: Variável Independente País – dimensão 4 ................................................................ 111
Tabela 7: Variável Independente País – dimensão 5. ............................................................... 114
Tabela 8: Variável Independente Área – dimensão 1 .............................................................. 118
Tabela 10: Variável Independente Área – dimensão 3. ........................................................... 123
Tabela 11: Variável Independente Área – dimensão 4 ............................................................ 125
Tabela 12: Variável Independente Área – dimensão 5 ............................................................ 128
xv
LISTA DE FIGURAS
Figura 1: O modelo CARS. Fonte: Silva (2004). ........................................................................ 17
Figura 1: Modelo de artigo AIMRaD ......................................................................................... 26
figura 2: Pasta TXT ONLY. ......................................................................................................... 85
Figura 3: Pasta BRAZIL, com subpasta BRAZIL CHEMISTRY ................................................. 86
Figura 4: brazil_chemistry_1 em txt .......................................................................................... 86
Figura 5: Texto US_soc_scie_linguistics_5.txt após limpeza automática ................................. 87
Figura 6: Tela de abertura do WordSmith 6.0 ............................................................................ 89
Figura 7: Tela com a opção Choose Texts Now ......................................................................... 90
Figura 8: Inserção do corpus da pasta CLEAN NOTEPAD ....................................................... 90
Figura 9: Output estatístico da ferramenta WordList ................................................................. 91
Figura 10: Biber Tagger ............................................................................................................. 93
Figura 11: Biber Tag Count ....................................................................................................... 95
Figura 12: Planilha com o resultado obtido do Biber Tag Count ............................................... 96
Figura 13: Tela para inserção dos dados no SPSS ...................................................................... 97
Figura 14: Dados abertos no SPSS ............................................................................................. 97
Figura 15: Marcação das caixas Analyze, General Linear Models e Univariate ....................... 98
Figura 16: Marcação da dimensão 1 como variável dependente ............................................... 98
Figura 17: Marcação de país (origem) como fator fixo ............................................................. 99
Figura 18: Tela com Opções e Descriptive Statistics marcadas ................................................. 99
Figura 19: Tela com o resultado de Univariate e R² na dimensão 1 ........................................ 100
Figura 20: Tela com o resultado de Univariate e R² na dimensão 1(continuação) .................. 100
xvi
RESUMO
Fundamentada teórico e medotologicamente na Linguística de Corpus e na
Análise Multidimensional, esta tese analisa um corpus de 900 artigos de pesquisa em
língua inglesa, escritos por pesquisadores de dez áreas, provenientes de nove diferentes
origens. Para tanto, a pesquisa se apoia em uma área da Linguística Aplicada que vê a
língua como um sistema probabilístico e para cujos estudos são utilizados ferramentas
computacionais e corpora. A Análise Multidimensional é uma abordagem baseada em
corpus para o estudo de dimensões de variação que usa procedimentos estatísticos para
identificar relações entre traços linguísticos e registros em grandes quantidades de
textos. A metodologia incluiu a compilação de um corpus de estudo (Corpus of English
Research Articles – CERA), composto de artigos coletados por meio da internet, que
envolveu processamento do texto e análises por origem e área de estudo. A partir do
mapeamento nas cinco dimensões de variação de Biber (1988), o resultado das análises
por origem e área mostra que o corpus é composto por artigos cujos traços os situam
nos seguintes polos: 1) produção informacional, 2) preocupação não-narrativa, 3)
referências explícitas, 4) persuasão não-explícita e 5) informação abstrata.
Palavras-chave: Linguística de Corpus; Análise Multidimensional; Artigos de
Pesquisa.
xvii
ABSTRACT
This dissertation describes how a corpus of 900 research articles written in
English by researchers of 10 fields of study and nine different origins is mapped onto
the dimensions of variation proposed by Biber (1988). Its theoretical and
methodological underpinnings are provided by Corpus Linguistics and
Multidimensional Analysis. The former is an area in Applied Linguistics in which
language is seen as a probabilistic system and for whose studies computational tools and
corpora are used. The latter is a corpus based approach for the study of dimensions of
variations, which uses statistical procedures to identify relationships between linguistic
features and registers in large amounts of texts. The methodology included the
compilation of a corpus (Corpus of English Research Articles – CERA), which is
composed of articles collected using the Internet, its processing and analyses based both
on origin and field. The result of the analyses for both the origin and the field shows
that the corpus is composed of articles whose features characterize them in the 5
dimensions of variation proposed by Biber (1988) as: 1) being informational, 2) being
non-narrative, 3) having explicit reference, 4) having non-explicit persuasion, and 5)
having abstract information.
Keyworks: Corpus Linguistics; Multidimensional Analysis; Research Articles.
1
INTRODUÇÃO
Nas últimas décadas, a importância dada ao conhecimento de uma língua
estrangeira tem sido voltada de maneira especial para a língua inglesa. O conhecimento
da língua inglesa como língua estrangeira proporciona contemporaneamente mais
possibilidades de contato com pensamentos e ideias que surgem a cada dia, pois ela é o
meio usado para divulgação de grande parte do conhecimento mundial, em especial nas
áreas científicas e tecnológicas. Ademais, a constante internacionalização da pesquisa
aumenta a necessidade de domínio da escrita e da leitura em língua inglesa, o que
justifica o fato de muitos países terem feito dela a língua oficial ou a principal língua
estrangeira ensinada nas escolas (CRYSTAL, 2012).
A língua inglesa é usada por pesquisadores que buscam literatura, artigos,
pesquisas, manuais e livros das mais diversas áreas. Cada vez mais, também tem sido
usada por pesquisadores para publicação, em detrimento de publicações em suas línguas
nativas. Segundo Crystal (2009), a língua inglesa é a língua da ciência – o que faz com
que ela seja a mais utilizada em publicações científicas e técnicas. Publicar em inglês
proporciona ao autor maior divulgação de seu trabalho, pois ele encontrará um maior
número de leitores, tanto no modo impresso quanto no modo eletrônico.
De acordo com Hyland (2012), publicação internacional significa publicação
em inglês. O autor afirma que há uma tendência, que acadêmicos do mundo todo têm
seguido, de diminuição de publicações em suas línguas maternas e aumento de
publicações em inglês, o que resulta em maior número de citações de seus trabalhos.
Segundo Hyland (2012), referências a publicações em língua inglesa alcançaram 85%
em periódicos de ciências franceses e a língua inglesa compõe 95% de todas as
publicações no Science Citation Index1, Da mesma forma, Swales (2004) acrescenta que
muitos periódicos de primeira linha europeus e japoneses têm aderido à prática de
publicação de artigos em língua inglesa.
1Índice de citações inicialmente produzido para o Institute for Scientific Information. É parte do Science Citation Index Expanded, que engloba mais de 6.500 periódicos de renome e cobre 150 disciplinas.
2
Hyland (2012) afirma que o aumento do número de artigos escritos por
falantes não-nativos de inglês em grandes periódicos denota um movimento de
anglicização das publicações. O autor aponta que, em muitas universidades de prestígio
da China, doutorandos têm de ter pelo menos um artigo aceito por um periódico
internacional antes de completar o doutoramento. Ainda, segundo Hyland (2012), a
Academia Chinesa de Ciências complementa os salários de pesquisadores que publicam
em periódicos internacionais. Todavia, tendo em vista essa competitividade, há
periódicos com índices de rejeição de 93%.
Segundo Hyland (2012), vários fatores contribuem para o prestígio de um
periódico. Esses fatores englobam a editora, os membros do conselho editorial, os altos
índices de rejeição, a política de revisão às cegas por pares, o fácil acesso a leitores por
meio de distribuição internacional on-line rápida e, seguramente, o impact factor2.
Hyland acrescenta que, para muitos acadêmicos, é impossível não fazer parte
dessa rede global acadêmica traçada por publicações. A publicação está associada com
prestígio e com credibilidade e muitas universidades medem o valor de seus professores
de acordo com o número de publicações que eles produzem.
Segundo dados do jornal Folha de S. Paulo3, o Brasil não tem nenhuma
universidade no rol das 200 melhores do mundo. Além disso, de acordo com a lista de
2014 do Times Higher Education (THE)4, a Universidade de São Paulo (USP), única
universidade brasileira que constava na seleta lista desde 2011, passou do 158º lugar em
2013 para um grupo que vai do 226º ao 250º. Na lista do THE, a Universidade de
Campinas (Unicamp) também perdeu posições. Ela estava entre 251º e 275º e passou
para o grupo entre 301º e 350º em 2014.
2 Fator de impacto é a medida que reflete o número médio de citações de artigos científicos publicados em determinado periódico. O ranking dos periódicos pode ser encontrado no endereço http://thomsonreuters.com/products_services/science/science_products/a-z/isi_web_of_knowledge/, da Science Citation Index (SCI), que lista os melhores 3.700 periódicos, de 100 disciplinas.
3 Edição de 4.out.2014.
4 Publicação anual britânica desenvolvida pela Thomson Reuters e divulgada desde 2004.
3
A avaliação do THE é baseada em cinco itens principais, a saber: pesquisa,
ensino, citações, inovação tecnológica e internacionalização. De acordo com a Folha de
S. Paulo, o editor do THE informou que a baixa internacionalização das instituições
brasileiras é um dos principais pontos fracos que conferem o resultado que elas
alcançaram. O editor declarou que isso é negativo para o Brasil, na medida em que um
país com tal tamanho e poder econômico precisa de universidades competitivas.
Ainda segundo o jornal, a USP perdeu posições nos itens pesquisa, ensino e
citações, enquanto a Unicamp perdeu em pesquisa, ensino e internacionalização.
Percebe-se a importância da internacionalização, pois a citação de artigos acadêmicos
garante 30% da pontuação atribuída à universidade. Assim, no caso do Brasil, a
quantidade de citações de artigos científicos por outros pesquisadores cai se os trabalhos
estiverem em português.
O editor do THE declarou que, a exemplo de muitos países que já usam a
língua inglesa no meio acadêmico, é necessário o incentivo ao uso do inglês na sala de
aula. Em resposta, a USP declarou investimentos em internacionalização e a Unicamp
diz discordar dos critérios de avaliação.
Para ter seu artigo publicado, o pesquisador precisa ter conhecimento do
conteúdo e das metodologias de uma área específica. Conseguir esse feito requer um
aprendizado, pois o artigo precisa ter ideias e formas de argumentação estruturadas de
modo a torná-las familiares e apropriadas para o leitor.
Essas exigências assustam os falantes não-nativos de inglês que, por
insistência das editoras, têm seus textos submetidos à avaliação de falantes nativos e
revisores para correção da escrita antes de serem aceitos para publicação. Hyland
argumenta que essa dificuldade não é comum apenas aos falantes não-nativos de inglês,
já que o inglês acadêmico não é a primeira língua de ninguém. Para Swales (2004), é
uma questão de experiência. Segundo o autor, há autores mais experientes, que
conhecem os caminhos da escrita acadêmica, e outros menos experientes, que terão
mais dificuldades até terem seus artigos publicados.
No entanto, em países não-anglófonos, muitos pesquisadores apresentam
4
notória limitação quanto ao uso da língua inglesa. Dessa forma, o pesquisador que não
detém o conhecimento da língua inglesa em nível de escrita acadêmica se depara com
dificuldades para redigir um texto em inglês. Muitas vezes, esses pesquisadores buscam
o serviço de tradutores, especialistas que levarão à língua-alvo, no caso o inglês, o texto
fonte em português ou em outra língua. O desconhecimento do funcionamento de
qualquer língua em nível acadêmico pode atrasar o sucesso de uma carreira.
Segundo Mauranen (2014), no âmbito da escrita acadêmica, há um
desequilíbrio de poder. Periódicos concentrados nos Estados Unidos e no Reino Unido
geralmente colocam critérios básicos para publicação. Esses critérios vão além da
gramática correta e estilo retórico. É exigido que a escrita acadêmica em inglês seja
semelhante à escrita de um nativo (native-like English).
De acordo com Hyland (2012), a escrita para publicação apresenta desafios
que intimidam todos os acadêmicos, em especial no clima competitivo atual, quando
algumas áreas de estudo apresentam rejeição de mais de 90% das submissões. Essa
dificuldade, que não é comum apenas a pesquisadores brasileiros, é maior para autores
não-nativos, conforme mostram estudos. Hyland (2012) relata que há pesquisadores
espanhóis que recorrem à tradução do espanhol quando da revisão de seus artigos para
publicação. Dificuldade semelhante é encarada por pesquisadores chineses. Segundo o
mesmo autor, acadêmicos de Hong Kong dizem se sentir em desvantagem em relação
aos seus colegas falantes nativos do inglês. Da mesma forma, Gosden (1995), apud
Hyland (2012), relata a dificuldade de pesquisadores japoneses e descreve o caso de
uma pesquisadora nipônica que, orientada por um supervisor, um editor e um revisor,
reescreveu seu trabalho seis vezes, perfazendo um total de 320 alterações, para que ele
fosse aceito para publicação.
Hyland (2012) concorda com Swales, que afirma que a escrita acadêmica é
difícil para qualquer autor iniciante, independentemente de qual for sua língua materna.
Segundo Hyland (2012), os textos de não-nativos são enviados para revisões, que
consistem em trabalhar as metas retóricas, como estrutura e vocabulário específicos da
área. Dessa forma, ele atenderá melhor as necessidades do leitor, com mais facilidade
5
de leitura e adequação de conteúdo.
Devido à necessidade de se descrever o artigo acadêmico de modo aceitável,
apresento esta pesquisa, que tem como meta levantar as dimensões de variação do artigo
acadêmico em um corpus composto por artigos de dez áreas de estudo, escritos em
língua inglesa, por autores de nove diferentes origens. Assim, faz-se necessário
antecipar que dimensão, conceito usado na Análise Multidimensional, é um conjunto de
traços que subjazem a um corpus (BERBER SARDINHA, 2000b), como será visto em
maior detalhe a seguir.
A Linguística de Corpus alicerça a base teórica deste estudo. Assim, este
estudo compartilha de algumas características que são comuns aos trabalhos do âmbito
da Linguística de Corpus. De acordo com Berber Sardinha (2004a), tais trabalhos são
empíricos e utilizam grande número de textos naturais, coletados de maneira criteriosa –
o corpus, que serve de objeto para a análise, realizada com o auxílio do computador e
de programas automáticos e interativos. Segundo o mesmo autor, esses trabalhos
analisam padrões reais da linguagem em textos naturais.
Este trabalho usa a abordagem da Análise Multidimensional, que descreve a
relação entre uma gama completa de registros em uma língua (BIBER, 2006). Neste
caso, a Análise Multidimensional será empregada para a descrição do artigo acadêmico,
o registro em questão, no que tange a seus múltiplos parâmetros linguísticos de
variação. Ela também permite fazer uma comparação desse registro quanto as nove
diferentes origens dos autores e as dez áreas de estudo.
JUSTIFICATIVA
A Sociedade Brasileira para o Progresso da Ciência (SBPC) discutiu
recentemente a necessidade de proficiência em língua inglesa por parte do pesquisador
brasileiro. Em um debate intitulado “Oportunidades e desafios da internacionalização da
ciência brasileira”, ocorrido em novembro de 2013, a presidente da SBPC, Helena
Nader, alertou sobre um dos gargalos à internacionalização. Nader disse que as
6
universidades precisam mudar e o brasileiro precisa falar bem o inglês, que é a língua
internacional (SBPC, 2013).
Para participar dessa cooperação internacional por meio da publicação, é
aconselhável que pesquisadores brasileiros aprimorem a escrita acadêmica para que
seus artigos sejam aceitos em periódicos com visibilidade internacional. Segundo
aponta Mauranen (2014), para tais periódicos são necessários artigos que apresentem
padrões equiparáveis àqueles escritos por falantes nativos. Assim, são esperados artigos
com estrutura, padrão e léxico comparáveis aos textos escritos por pessoas que sejam
proficientes em língua inglesa – em particular, na escrita acadêmica. De acordo com
Mauranen (2014), seguindo o critério adotado pelo periódico em que o artigo será
publicado, o texto precisa estar em conformidade com um modelo, britânico ou
americano, de escrita.
Essas informações são corroboradas por Burrough-Boenisch (2011), que
afirma que acadêmicos não-nativos precisam atentar para a forma de inglês que usarão,
ao submeter artigos a periódicos americanos ou britânicos. Os artigos precisam seguir
não somente o estilo requisitado (grafia, pontuação e tipografia) pelo periódico e pela
editora, mas também precisa ter a variação de inglês usado pelo periódico. A autora
menciona, por exemplo, o New England Journal of Medicine, que usa o inglês
americano, e o British Medical Journal, cuja variação é a britânica. Segundo autora, os
manuais padrões de copidesque usados para as convenções do inglês britânico e
americano são, respectivamente, o Ritter e o University of Chicago Press. No entanto,
ela acrescenta, existem também outros guias para áreas específicas, como o Modern
Humanities Research Association e o Council of Science Editors.
O conhecimento aprofundado do funcionamento do artigo acadêmico em
inglês, que é justamente o que esta pesquisa intenta revelar, pretende ser uma
ferramenta que irá contribuir para o pesquisador brasileiro melhorar sua escrita de
artigos acadêmicos em inglês e, consequentemente, ter maiores chances de serem
aceitos por periódicos internacionais indexados.
Contribuem para esse conhecimento pesquisas em Linguística de Corpus e
7
Análise Multidimensional que descrevem o registro acadêmico, como Biber et al.
(2002b), que examinaram a linguagem comumente encontrada no ambiente
universitário, como aulas ministradas, atendimento ao aluno por parte do professor e
grupos de estudo. Biber & Conrad (2009), em cujo livro os autores descrevem os mais
importantes tipos de textos em inglês e introduzem técnicas metodológicas que podem
ser usadas para analisá-los e descrevê-los, sob a perspectiva de registro, gênero e estilo.
Os trabalhos de Cao & Xiao (2013), cujo estudo com Análise Multidimensional
examina as variações textuais entre resumos de 12 áreas de estudo escritos por
pesquisadores nativos (ingleses) e não-nativos (chineses), e de Gray (2013), que usou a
Análise Multidimensional para analisar a variação no uso de 70 traços lexicais e
gramaticais em 270 artigos de três sub-registros, também vêm contribuir para esse
conhecimento.
Todavia, o tema específico deste estudo parece não ter sido contemplado.
Tendo em vista o panorama apresentado, pode se dizer que há uma lacuna referente à
escrita acadêmica relativa à definição da origem dos autores. Isto é, para este estudo,
definiu-se como conceito de origem o local de nascimento e trabalho do autor.
A pesquisa com foco na origem pode elucidar questões de semelhanças e / ou
diferenças entre países e áreas sobre as quais os autores publicam. No entanto, não há
pesquisa, a partir de uma perspectiva de corpus, sobre características linguísticas de
artigos científicos escritos em inglês por pesquisadores brasileiros, que abranja as
grandes áreas de estudo. Isto é, não foram encontradas pesquisas baseadas em corpus
para descrever elementos linguísticos – como adjetivos, advérbios, verbos e
substantivos – presentes em textos acadêmicos escritos por brasileiros. Esta pesquisa,
portanto, buscará preencher essa lacuna.
Esta pesquisa tem como arcabouço teórico-metodológico a Linguística de
Corpus e, mais especificamente, a Análise Multidimensional, pois enxerga na
problemática da escrita acadêmica a questão da variação inerente aos textos, às áreas e
aos autores, com suas respectivas origens. Dessa forma, esta pesquisa se inscreve no
âmbito da Linguística Aplicada, pois ela trabalha questões sociais, como produção
8
acadêmica, origens, ascensão social, entre outras, em que a linguagem desempenha um
papel central.
Este estudo de corpus se justifica, pois ele propicia a observação de aspectos
morfológicos, sintáticos, semânticos e discursivos presentes no Corpus of English
Research Articles (CERA), visando contribuir de maneira original para o campo de
pesquisas no âmbito de estudos de Linguística de Corpus em interface com a Análise
Multidimensional.
O estudo aqui proposto se insere no Grupo de Pesquisa de Análise
Multidimensional do Grupo de Estudos de Linguística de Corpus (GELC). A análise do
corpus eletrônico compilado para esta pesquisa permitiu identificar a linguagem das dez
áreas de estudo usada efetivamente em artigos acadêmicos escritos em inglês por
pesquisadores brasileiros e de oito diferentes origens. Com essa análise, foi possível
descrever a partir do mapeamento dos artigos acadêmicos nas dimensões de Biber
(1988), os padrões de uso de natureza léxico-gramatical e as dimensões de variação
subjacentes ao registro artigo acadêmico.
Para Biber et al. (2002b, p. 10), “registro é um termo geral que abrange
qualquer variedade de linguagem definida em termos situacionais, incluindo o propósito
do interlocutor na comunicação, o tópico, a relação entre o interlocutor e o ouvinte, o
modo escrito ou falado, e as circunstâncias de produção” 5 (tradução minha; grifo dos
autores).
Segundo Biber et al. (1998), a abordagem baseada em corpus vem possibilitar
pesquisas de uso da língua que não podem ser baseadas em intuições ou em episódios
de uso. Dessa forma, os autores explicam que a abordagem baseada em corpus difere de
outras abordagens analíticas em linguística. Análises baseadas em corpus apresentam
características essenciais, como: o empirismo, o uso de computadores para análise por
meio de técnicas automáticas e interativas de padrões reais em textos naturais. Essas
5 No original: “The term register here is a cover term for any language variety defined in situational terms, including the speaker’s purpose in communication, the topic, the relationship between speaker and hearer, spoken or written mode, and the production circumstances”.
9
análises dependem tanto de técnicas analíticas qualitativas quanto de técnicas analíticas
quantitativas. Os autores enfatizam que sem o uso de computadores, que permitem
analisar grandes bancos de dados, a execução desse tipo de análise seria impossível.
De acordo com Biber et al. (1998), os estudos de uma língua podem ser sobre
duas áreas principais: sua estrutura e o seu uso. Eles dizem que, tradicionalmente, a
linguística tem o foco na estrutura. No entanto, eles explicam que, diferentemente de
querer descrever semelhanças e diferenças entre estruturas gramaticalmente corretas que
têm o mesmo significado, o foco no uso questiona quando e em qual contexto elas são
usadas. Eles sugerem que estudos com ênfase no uso podem investigar se a escolha de
um uso em detrimento de outro é mais comum na escrita, na fala, ou em um contexto
específico. Eles sugerem que, se bem explorado, um corpus pode mostrar muito sobre o
uso da linguagem.
Desse modo, este trabalho pretende contribuir de maneira original para a área
de escrita acadêmica em inglês. Para tanto, a pesquisa fundamentar-se-á, do ponto de
vista teórico-metodológico, na Linguística de Corpus (BERBER SARDINHA, 2004a) e
na Análise Multidimensional. A primeira “ocupa-se da coleta e da exploraçao de
corpora, ou conjunto de dados linguísticos textuais coletados criteriosamente, com o
propósto de sevirem para a pesquisa de uma língua ou variedade linguística” (BERBER
SARDINHA, 2004a, p. 3). A Análise Multidimensional (AMD), por sua vez, pode ser
definida como uma abordagem metodológica que identifica, a partir de análise
quantitativa / empírica, os padrões frequentes de coocorrência linguística numa língua
(BIBER, 2010).
Este estudo, composto por 900 artigos de dez diferentes áreas de estudo e de
nove origens é relevante para que sejam conhecidos seus padrões linguísticos, em
especial aqueles escritos por brasileiros. Espera-se que haja uma variação, daí a inclusão
de oito origens, além do Brasil, nessa pesquisa, o que possibilita comparar e descrever
se os traços observados nos artigos escritos por brasileiros são específicos de autores
dessa origem ou não.
Da mesma forma, será possível observar se são traços específicos de cada área
10
de estudo, independentemente da origem. Vale acrescentar que isso corroboraria o que
Biber et al. (2002b) pontuam sobre a grande gama de diferenças linguísticas que podem
ocorrer em textos de um mesmo registro:
Devido ao fato de que registros são definidos em termos situacionais e não linguísticos, textos de um
mesmo registro podem ter grandes diferenças linguísticas. Alguns registros, como documentos oficiais, são muito
uniformes em suas características linguísticas; textos de outros registros, como ficção, podem ser bastante
diferentes em termos de características linguísticas.6 (BIBER ET AL., 2002b, p. 10)
Finalmente, este estudo tem uma justificativa pessoal, despertada a partir da
experiência como professor de língua inglesa no Instituto Federal do Espírito Santo
(Ifes), campus Vitória. Era evidente a dificuldade que muitos têm com a produção de
artigos em inglês. Frequentemente, colegas de trabalho, professores do campus onde eu
leciono, vinham a mim com artigos escritos por eles em inglês e me pediam para revisá-
los. Alguns escreviam em português e pediam para que eu “passasse para o inglês”.
Outros professores de inglês do campus também eram abordados com pedidos
semelhantes.
Com o objetivo de atender a essa demanda por parte dos servidores dos 17
campi que compõem a rede, o Ifes lançou recentemente um edital (cf. Anecxo 1) que
contempla a submissão de artigos em duas modalidades. Eles podem ter sido escritos
em português e serão traduzidos para o inglês. Ou, se estiverem escritos em inglês, esses
artigos serão revisados. A instituição faz algumas exigências quanto à submissão dos
artigos que passarem pelo processo. O não-cumprimento pode acarretar na devolução
do valor investido à instituição pelo servidor. Essa pressão demonstra, inclusive, um
interesse por parte da instituição em participar do processo de internacionalização da
pesquisa.
6 No original: “Because registers are defined in situational rather than linguistic terms, texts from the same register can have extensive linguistic differences. Some registers, like official documents, are very consistent in their linguistic characteristics; texts from other registers, like fiction, can be very different in their linguistic characteristics”.
11
OBJETIVOS E PERGUNTAS DE PESQUISA
Objetivo geral
Esta pesquisa objetiva descrever, a partir do mapeamento nas dimensões de
variação de Biber (1988), 900 artigos acadêmicos em língua inglesa escritos por
pesquisadores de dez áreas de estudo e de nove diferentes origens.
Objetivos específicos
Descrever, a partir do levantamento das dimensões de variação do artigo de
pesquisa acadêmica, como as dez áreas de estudo que compõem o corpus se
assemelham ou diferem entre si quanto às cinco dimensões de variação do inglês
propostas por Biber (1988), e como as nove diferentes origens dos autores se comparam
quanto às dimensões de variação de Biber (1988).
Perguntas de pesquisa:
1. Como essas áreas diferentes de conhecimento se comparam quanto às
dimensões do inglês propostas por Biber (1988)?
2. Como as diferentes origens dos autores se comparam quanto às dimensões
propostas por Biber (1988)?
Esta tese está organizada da seguinte forma: no capítulo 1, é feita uma
discussão contextualizada sobre o uso do artigo acadêmico. No capítulo 2, a
fundamentação teórico-metodológica é apresentada com uma breve revisão da literatura
que destaca pesquisas em Linguística de Corpus e, especificamente, aquelas que
utilizam a Análise Multidimensional. No capítulo 3, que trata da metodologia, o corpus
de estudo é apresentado, assim como os programas de computador usados nesta
pesquisa e os passos que foram tomados para a execução deste trabalho. O capítulo 4
apresenta os resultados da pesquisa, seguido de uma discussão ilustrada com exemplos
retirados dos artigos que compõem o corpus, de acordo com suas diferentes origens e
áreas, nos termos das dimensões de variação estabelecidas por Biber (1988).
12
1. CONTEXTUALIZAÇÃO
Nesta seção, são apresentadas informações sobre a internacionalização da
pesquisa e a necessidade da produção acadêmica na língua inglesa por parte de
pesquisadores não-nativos. Há uma breve apresentação de indexadores e como eles
interferem no ranking de classificação dos periódicos internacionais e nacionais.
O desenvolvimento científico do Brasil passa pela formação de profissionais
que precisam fazer intercâmbio de informações, pesquisas e estudos. Esse intercâmbio
está inerentemente ligado a recursos linguísticos em português e em outras línguas,
notadamente o inglês.
É fato que a internacionalização das pesquisas tem como ferramenta a língua
inglesa, que é a mais utilizada academicamente. As razões políticas, amplamente
discutidas em Lacoste & Rajagopalan (2005) e Crystal (2012), que elevaram a língua
inglesa a esse patamar, fogem do escopo deste trabalho. No entanto, vale ressaltar que
dados do portal SCImago Journal & Country Rank, que inclui indicadores científicos de
periódicos e de países gerados a partir de informações contidas no banco de dados
Scopus, apontam os Estados Unidos como país com o maior número de publicações
científicas7.
Segundo Pinto e Andrade (1999), a partir dos anos 1960 surge a
cienciometria, área do saber que trata da análise de aspectos referentes à geração e
difusão de informações científicas. Essa ciência tem como principal ferramenta os
índices bibliométricos, que são obtidos a partir de bancos de dados onde estão
armazenados e catalogados grande parte da produção científica mundial. O Institute for
Scientific Information (ISI) é o organizador de um dos principais bancos de dados com
essa especialidade.
Esses números podem ser vistos no Quadro 1, a seguir, que abrange dados de
1996 a 2007. O endereço eletrônico não fornece uma lista mais recente. Optei por listar
apenas os 20 primeiros países, da extensa lista de 238, por uma questão de espaço. O
7 SCImago Journal & Country Rank. Disponível em www.scimagojr.com/. Acesso em 16 dez. 2012.
13
original, com os países e os itens em língua inglesa, encontra-se no Anexo 2.
País Documentos Documentos citáveis Citações Auto-
citações Citações por documentos Índice H
Estados Unidos 7.063.329 6.672.307 129.540.193 62.480.425 20,45 1.380
China 2.680.395 2.655.272 11.253.119 6.127.507 6,17 385
Reino Unido 1.918.650 1.763.766 31.393.290 7.513.112 18,29 851
Alemanha 1.782.920 1.704.566 25.848.738 6.852.785 16,16 740
Japão 1.776.473 1.734.289 20.347.377 6.073.934 12,11 635
França 1.283.370 1.229.376 17.870.597 4.151.730 15,6 681
Canadá 993.461 946.493 15.696.168 3.050.504 18,5 658
Itália 959.688 909.701 12.719.572 2.976.533 15,26 588
Espanha 759.811 715.452 8.688.942 2.212.008 13,89 476
Índia 750.777 716.232 4.528.302 1.585.248 7,99 301
Austrália 683.585 643.028 9.338.061 2.016.394 16,73 514
Federação Russa 586.646 579.814 3.132.050 938.471 5,52 325
Coreia do Sul 578.625 566.953 4.640.390 1.067.252 10,55 333
Países Baixos 547.634 519.258 10.050.413 1.701.502 21,25 576
Brasil 461.118 446.892 3.362.480 1.151.280 10,09 305
Taiwan 398.720 389.411 3.259.864 790.103 10,41 267
Suíça 395.703 377.016 7.714.443 1.077.442 22,69 569
Suécia 375.891 361.569 6.810.427 1.104.677 20,11 511
Polônia 346.611 339.712 2.441.439 652.956 8,25 302
Turquia 306.926 291.814 1.935.431 519.675 8,24 210
QUADRO 1: PAÍSES E NÚMERO DE CITAÇÕES. FONTE: SCIMAGO JOURNAL & COUNTRY RANK, DISPONÍVEL EM HTTP://WWW.SCIMAGOJR.COM/INDEX.PHP.
O conhecimento dos índices bibliométricos, como o índice H e os índices
qualis, é relevante para o pesquisador brasileiro que almeja publicar em grandes
14
periódicos. Assim parece ser necessária uma breve introdução sobre esses itens que,
quanto mais altos, indicam a maior visibilidade do periódico. Os índices acima – índice
H e índices qualis – são usados para aferir, respectivamente, o impacto de periódicos
estrangeiros e os periódicos brasileiros no Brasil.
Segundo Chizzotti & Ponce (2010), a biliometria e a cientometria são meios
que surgiram para mensurar a produção de científica. A “bibliometria extrai o volume e
o entrelaçamento dos textos citados, infere o desenvolvimento de um campo científico,
enuncia o estágio das publicações e a autoria das contribuições dadas em uma área de
investigação” (CHIZZOTTI & PONCE, 2010, p. 7). A cienciometria, por sua vez, mede
a relevância de periódicos em dada área de conhecimento.
A partir dessas informações, chegarmos ao foco dessa seção, que são os
pesquisadores brasileiros. Também são apresentadas algumas iniciativas tomadas por
instituições brasileiras, que visam atender à necessidade de melhorar a escrita
acadêmica em inglês de pesquisadores brasileiros.
Para uma melhor leitura da tabela, os itens que a compõem são apresentados
seguindo a explicação disponível na fonte. Os itens contemplados na tabela são country
(país), documents (documentos publicados), citable documents (documentos passíveis
de citações, como artigos, revisões e trabalhos apresentados em conferência, citations
(citações), self-citations (autocitações do país de documentos publicados), citations per
document (média de citações por documentos publicados) e H index – índice H, que
corresponde ao número (h) de artigos do país que receberam ao menos um número h de
citações.
O índice H foi criado por Jorge Hirsch, um físico argentino e professor da
Universidade da Califórnia (MARQUES, 2013). O índice H apresenta vantagens e
limitações. Entre as principais vantagens, Marques (2013) cita o fato de esse indicador
combinar quantidade e qualidade de maneira objetiva em um só indicador. Ele também
pode ser obtido por qualquer pessoa que acesse uma base de dados, como a Web of
Science, que é um portal que permite o acesso a várias bases de dados de referência
bibliográfica. Entre essas bases, se destacam Web of Science, Current Contents Connect
15
e Journal Citation Reports.
Quanto às limitações, o índice H não serve para fazer comparações entre
pesquisadores de disciplinas diferentes, uma vez que o volume de citações varia de
acordo com o tamanho de cada comunidade. Outra limitação é o fato de ele poder ser
manipulado através de autocitações. Adicionalmente, no cálculo do índice H livros e
artigos têm o mesmo peso, o que torna difícil comparar a produção de pesquisadores de
áreas com diferentes culturas de publicação. O autor cita, por exemplo, que, em
humanidades, é costume que resultados de pesquisas sejam publicados em livros, o que
diminui a quantidade de artigos publicados nessa área. Marques (2013) também aponta
que o índice não distingue entre um artigo de um só autor e um de múltipla autoria. No
último, a participação individual é de difícil avaliação.
De acordo com Chizzotti & Ponce (2010), no Brasil, a Coordenação de
Aperfeiçoamento de Pessoal de Nível Superior (CAPES) desenvolveu sua própria
metodologia de avaliação, com início em 1978, para os programas de pós-graduação. A
partir de 1998, com a ampliação da pós-graduação nacional, a CAPES adotou um
sistema de avaliação trienal, que leva em consideração a produção dos programas e de
seu corpo docente. A fim de qualificar a produção científica dos programas de pós-
graduação, a CAPES criou o programa Qualis. Trata-se de um conjunto de
procedimentos usados pela CAPES para estratificação da qualidade da produção
intelectual para classificação de periódicos, eventos e livros. Essa classificação objetiva
a elevação do padrão de qualidade técnica e científica das produções nacionais nas mais
diferentes áreas de pesquisa.
Em decorrência, a CAPES disponibiliza uma lista com a classificação desses
veículos que divulgam a produção dos referidos programas. Eles são aferidos pelo
Qualis, que enquadra os periódicos em estratos indicativos de qualidade. Essa
classificação é feita anualmente e os estratos começam em C, que tem peso zero, e
cresce até A1, o mais elevado. Os intermediários são, a partir do mais baixo, B5; B4;
B3; B2; B1; e A2.
Um estudo de Hirano (2009) sugere que, quando escrevem em inglês,
16
pesquisadores brasileiros usam o mesmo modelo de movimento da estrutura textual que
eles usam quando escrevem em português. A autora aponta que o conhecimento do
modelo CARS, proposto por Swales, de organização retórica usada na introdução da
maioria dos artigos de pesquisa, seria uma boa ferramenta pedagógica. Segundo a
autora, de posse desse modelo, o pesquisador brasileiro “pode estar em uma posição
melhor para fazer escolhas retóricas ao escrever em inglês”8. (HIRANO, 2009, p. 247;
minha tradução).
O modelo apresentado por Swales em 1990 é conhecido como CARS, do
inglês (Create a Research Space). Ele é composto por uma sequência retórica, que são
os movimentos e passos. No movimento 1, o autor estabelece o território da pesquisa. A
seguir, no movimento 2, o autor estabelece um nicho dentro do território. No
movimento 3, o autor ocupa o nicho que foi estabelecido. Em cada movimento existem
passos, conforme pode ser visto no esquema na Figura 1 a seguir, adaptado de Silva
(2004).
8 No original, em inglês: “…might be in a better position to make informed rhetorical choices when writing in English.”
17
Movimento 1 – Estabelecimento do território
Passo 1 reivindicação de centralidade;
e / ou
Passo 2 generalização sobre o tópico;
e / ou
Passo 3 revisão dos pontos de pesquisas anteriores.
|
Movimento 2 – Estabelecimento do nicho
A contra-argumentação;
ou
B indicação de falha;
Passo 1 ou
C levantamento de questionamentos;
ou
D continuação da tradição
|
Movimento 3 – Ocupação do nicho
A resumo dos objetivos;
Passo 1 ou
B apresentação da pesquisa;
Passo 2 apresentação dos principais achados;
Passo 3 indicação da estrutura do presente artigo.
FIGURA 1: O MODELO CARS. FONTE: SILVA (2004).
No entanto, ressaltamos que modelos de movimentos retóricos, como o
mostrado acima, não consideram as mesmas premissas da Linguística de Corpus. No
CARS, a quantidade de material é pequena e a análise é manual, o que contrasta com os
grandes corpora que são comuns em estudos de Linguística de Corpus. Sendo assim,
por se tratar de uma pesquisa em Linguística de Corpus, as análises não são feitas com
18
base no modelo CARS.
Conforme mostra a literatura apresentada aqui, o conhecimento da língua
inglesa para fins de escrita acadêmica tem sido abordado por vários autores. No entanto,
segundo a Scientific Electronic Library Online (SCIELO, 2014), o domínio da língua
inglesa ainda é um problema não solucionado. Editores qualificam artigos mal escritos
como um dos motivos mais recorrentes para rejeição. Para isso, há inúmeros serviços
profissionais de revisão e tradução de manuscritos em países cujo idioma nativo não é o
inglês.
De acordo com Salager-Meyer (2014), há dois grupos distintos de periódicos.
O primeiro é conhecido por mainstream, center, high-ranking ou elite9. Esses
periódicos são publicados em inglês, língua dos periódicos de maior prestígio, e são
indexados em um dos seguintes indicadores: Science Citation Index, Social Science
Citation Index e Arts and Humanities Citation Index, da Thomson Reuters.
O segundo é conhecido como peripheral ou small journals10, cujo nome não
está relacionado ao tamanho. As palavras “periférico” e “pequeno” aludem ao fato de
que esses periódicos são publicados em países periféricos, onde o meio de publicação
não é a língua inglesa. A maior parte deles não consta dos bancos de dados de
indexadores internacionais, como os mencionados no parágrafo anterior, ou outros
semelhantes.
Conforme relata Salager-Meyer (2014), a busca por maior visibilidade
internacional tem conduzido alguns periódicos periféricos, de países como México,
Rússia, Sérvia, Irã, Coreia do Sul e Brasil, a publicar em inglês. Outros passaram a ser
periódicos com publicações bilíngues, que apresentam edições com uma tradução
completa dos artigos publicados.
Salager-Meyer (2014) acrescenta que pesquisadores que não são falantes
nativos da língua inglesa enfrentam múltiplas dificuldades ao escrever um artigo em
9 Corrente principal, central, de alto nível e elite (minha tradução).
10 Periférico ou pequeno (minha tradução).
19
inglês para uma possível publicação em periódicos do tipo mainstream. São,
principalmente, dificuldades de cunho linguístico e discursivo. Entre essas dificuldades,
a autora menciona o baixo nível nas habilidades básicas de escrita acadêmica, as quais
incluem a habilidade retórica e argumentativa.
Além das barreiras linguísticas, a autora acrescenta que pesquisadores em
países em desenvolvimento enfrentam outras dificuldades, que abrangem problemas
locais comuns nessas regiões. Essas questões não fazem parte do cotidiano dos
pesquisadores de países ricos. Tais problemas vão desde a queda de energia elétrica,
conexão ruim de internet, pouco ou nenhum material bibliográfico e baixos salários.
Segundo a autora, com frequência, pesquisadores falantes não-nativos de
inglês precisam investir tempo e dinheiro a fim de produzir manuscritos que atendam as
expectativas de revisores e editores de periódicos de elite. No entanto, apesar desse
esforço e de gastos muitas vezes fomentados, é comum a frustração de terem seus
artigos rejeitados.
O fator de Impacto é um dos indicadores mais utilizados e aceitos na área
acadêmica. Esse indicador demonstra o número médio de citações de artigos científicos
publicados em um determinado periódico.
Laus (2004) discute a internacionalização da universidade e diz que projetos
de pesquisa internacionais são uma forma de realizar a internacionalização. Segundo a
autora, agências de fomento “buscam promover a integração dos grupos de pesquisas e
a paridade científica entre os cooperadores brasileiros e internacionais.” (p. 5)
De acordo com Pinto & Cunha (2008, p. 2.222), a internacionalização da
produção científica brasileira é medida pelos artigos produzidos no país que estão no
portal ISI Web of Knowledge:
que inclui os acessos ao Web of Science e ao Journal Citation Reports. Mais
recentemente vem ganhando espaço no País no meio acadêmico a base Scopus. O
conceito de internacionalização pode ser ampliado, por exemplo, para pesquisadores do
exterior que publicam seus artigos em revistas brasileiras. Talvez seja este atualmente o
critério mais importante para a definição de internacionalização da produção científica
20
brasileira.
Os crescentes intercâmbio e internacionalização de pesquisas acadêmicas, dos
quais o Brasil vem participando desde a década de 1990, tornam necessário que
estudantes e pesquisadores brasileiros publiquem cada vez mais em inglês. Isso se deve
ao fato de que, conforme mencionado, a língua inglesa é a língua da academia.
Segundo Paiva (2014), a internacionalização da pesquisa está associada à
internacionalização da pós-graduação. Um dos principais mecanismos para que a
internacionalização da pesquisa aconteça é a distribuição de bolsas de estudo para o
exterior.
Segundo dados da FAPESP (2013), o número de artigos científicos publicados
em inglês nos periódicos da Scientific Electronic Library Online - SciELO Brasil, que é
uma biblioteca eletrônica de artigos científicos em rede, superou o total de artigos
disponíveis em português. A agência tem feito esforços para aumentar a visibilidade e o
impacto internacional dos artigos publicados indexados na SciELO. De acordo com a
FAPESP (2013), a SciELO Brasil conta hoje com cerca de 270 revistas disponibilizadas
com acesso livre na internet.
Para ser incluído na SciELO Brasil11, o periódico deve aceitar os critérios para
admissão e permanência na Coleção. Esses critérios estão descritos no documento
“Critérios SciELO Brasil: critérios, política e procedimentos para a admissão e a
permanência de periódicos científicos na coleção SciELO Brasil”. O conteúdo da
Coleção é de acesso aberto e são textos completos de periódicos científicos brasileiros
de todas as áreas do conhecimento. São, predominantemente, artigos inéditos resultantes
de pesquisa científica original. A contribuição é avaliada por pares, que analisam
conteúdo e relevância dos artigos.
Ainda, de acordo com a FAPESP (2013), o esforço das sociedades científicas,
dos editores e das publicações tem contribuído de forma efetiva para aumentar a
quantidade de publicações em inglês. Como resultado, o número de artigos científicos
11 http://www.scielo.br/avaliacao/inclusao_pt.htm.
21
publicados em inglês nas revistas brasileiras da SciELO Brasil subiu de 38%, em 2007,
para 52%, em 2012. Da mesma forma, houve um crescimento de publicação de artigos
bilíngues – em português e inglês. As áreas com maior concentração de publicações
bilíngue são: a área da Saúde, que tem o maior número de publicações; em segundo
lugar, vem a área de Ciências Humanas.
O desempenho dos periódicos indexados na Rede SciELO, composta por
revistas brasileiras, da África do Sul e de outros 14 países ibero-americanos ainda é
baixo comparado ao desempenho de periódicos de países mais ricos. Aproximadamente,
90% desses periódicos têm fator de impacto abaixo da média em suas áreas nos índices
de referência internacional. De acordo com o coordenador do programa SciELO, ainda
existem muitos fatores que afetam o desempenho das coleções de periódicos da Rede
SciELO. Entre esses problemas, constam a qualidade e a relevância internacional das
pesquisas, o idioma de publicação e a baixa qualidade de artigos publicados em
colaboração com pesquisadores estrangeiros.
Algumas universidades brasileiras dispõem de programas que fomentam a
divulgação de pesquisas desenvolvidas por cientistas brasileiros. A Universidade
Estadual Paulista “Júlio de Mesquita Filho” (UNESP), por exemplo, tem o Programa de
Internacionalização da Pesquisa da UNESP. Esse programa busca fornecer subsídios
para que seus pesquisadores possam publicar em periódicos de maior prestígio. A
instituição reconhece que o inglês é o “idioma de uso preponderante na comunicação
entre pesquisadores. Publicar em outro idioma quase sempre implica menor visibilidade
na comunidade internacional.”
Segundo o Programa de Internacionalização da Pesquisa da UNESP,
“pesquisadores que conseguem publicar seus trabalhos nos periódicos de maior
prestígio ganham crédito junto às agências de fomento e projetam suas instituições de
origem no cenário científico internacional.”
Com o objetivo de estar inserida no contexto científico internacional, a
UNESP tem interesse que seus docentes publiquem em periódicos internacionais, para
uma maior visibilidade. Para isso, a estratégia da instituição é o financiamento de
22
versões de textos do português para o inglês e revisões de textos em inglês.
Porém muitos pesquisadores brasileiros têm deficiências que travam a
publicação de seus artigos. A questão tem sido discutida por cientistas brasileiros, como
Vasconcelos & Sorenson (2007), que defendem que as universidades brasileiras, a
exemplo de universidades estrangeiras, como as americanas e canadenses, mantenham
cursos de escrita acadêmica para todas as áreas.
Segundo Vasconcelos & Sorenson (2007), alguns cientistas brasileiros, como
o físico Fernando Lázaro, revisor de vários jornais internacionais, sugerem que as
universidades brasileiras contribuam com a fase de escrita e reescrita de manuscritos
para publicação, oferecendo cursos de escrita formal aos seus alunos de pós-graduação.
De acordo com Langoni (2010), o intercâmbio de experiências entre
estudantes de pós-graduação e professores de diferentes nacionalidades abre
perspectivas e dá aos participantes uma nova visão. Alguns órgãos de fomento
apresentam iniciativas para viabilizar a internacionalização da pesquisa. A Fundação de
Amparo à Pesquisa do Estado de São Paulo (FAPESP) tem como estratégia acordos de
cooperação com agências e / ou instituições científicas de diversos países, como
Alemanha, Canadá, Estados Unidos, França, México, Portugal, Reino Unido e Suíça. A
cooperação entre o Brasil e esses países permite aos pesquisadores brasileiros fazerem
intercâmbio e realizarem projetos conjuntos com pesquisadores estrangeiros.
Segundo Vasconcelos & Sorenson (2007), o periódico European Journal of
Epidemiology publicou um relatório com dados que demonstram a relação entre
financiamento de pesquisa, proficiência em língua inglesa e publicação em periódicos
médicos de renome. Segundo esses dados, países com alto investimento em
financiamento de pesquisas, mas com baixo escore no Test of English as a Foreign
Language (TOEFL) apresentam um nível relativamente baixo de publicação científica.
Os mesmos autores destacam que a Universidade Federal do Rio de Janeiro
(UFRJ) mantém um projeto relacionado à proficiência em inglês de cientistas brasileiros
e o tempo de publicação, que vai desde a primeira versão do artigo até sua aceitação
para publicação.
23
A ciência brasileira ganhou visibilidade nos últimos 25 anos, o que pode ser
visto no aumento do percentual de publicação do Brasil em periódicos indexados pelo
ISI, de 0,4% para 1,6% no período (VASCONCELOS & SORENSON, 2007). Os
autores afirmam que Conselho Nacional de Desenvolvimento Científico e Tecnológico
(CNPq) mantém um banco de dados, o qual sugere haver uma relação entre proficiência
em inglês escrito e publicações em periódicos internacionais. Nesse banco de dados
estão cadastrados 51.223 pesquisadores brasileiros.
A Universidade de São Paulo (USP), Campus São Carlos, mantém um portal
dedicado à escrita científica. Nele é possível encontrar um repositório de informações
destinadas a estudantes e pesquisadores interessados em aperfeiçoar a escrita científica
em português e em inglês. A USP mantém nesse portal um curso de escrita científica
que tem como um dos módulos a disciplina “Plain English, Escrever em Inglês”.
24
2. FUNDAMENTAÇÃO TEÓRICO-‐METODOLÓGICA
Esta é uma pesquisa de Linguística de Corpus (LC) que tem como foco a
análise da linguagem de artigos acadêmicos escritos em inglês. Por se tratar de uma
pesquisa que tem como objeto de estudo um extenso corpus, ela encontra na LC os
subsídios teórico-metodológicos que são necessários para sua execução. Ademais, ela
faz uma interface com a Análise Multidimensional (AMD), ao usar suas ferramentas de
investigação da linguagem. Esta seção está organizada da seguinte forma: começamos
com uma descrição do artigo acadêmico, que é o objeto desta pesquisa. A seguir,
apresentamos a definição e um breve histórico da LC, com destaque para alguns dos
autores importantes da área. Na sequência, apresentaremos alguns conceitos da palavra
corpus, bem como a sua tipologia. Depois, são apresentadas algumas ferramentas
comumente usadas na LC. Por fim, apresentamos a nomenclatura utilizada na LC. No
segundo momento, a Análise Multidimensional é definida, seguida por um breve
histórico. A seção é concluída com a definição de palavras que compõem o vocabulário
pertinente à AMD.
2.1 O ARTIGO ACADÊMICO
Na literatura, os termos artigo científico e artigo acadêmico são usados com o
mesmo significado. O conceito de artigo científico apresentado aqui foi proposto pela
Universidade Federal do Paraná (UFPR, 2000, v. 2). Segundo o manual de normas para
a apresentação de documentos científicos daquela instituição, artigo científico é um
trabalho técnico-científico, escrito por um ou mais autores, cuja finalidade é divulgar de
forma sintética estudos e resultados de pesquisa. A Associação Brasileira de Normas
Técnica (ABNT), com validade a partir de 30/06/2003, define artigo científico como:
“Parte de uma publicação com autoria declarada, que apresenta e discute idéias,
métodos, técnicas, processos e resultados nas diversas áreas do conhecimento” (ABNT,
2003).
Em Writing Scientific Research Articles, Cargill & O’Connor (2009) pontuam
que, ao escrever qualquer documento, é preciso pensar quem é o público ao qual ele se
destina. Acrescentam que, da mesma forma, para que um artigo seja eficaz e seja
25
publicado em periódicos internacionais, saber quem é o público-alvo é o primeiro passo
que o pesquisador deve tomar.
Melhorar a escrita acadêmica requer estratégias. De acordo com Hyland
(2007), o ponto de partida precisa ser a conscientização retórica e metalinguística do
autor. Ela precisa refletir sobre a maneira pela qual a língua é usada para comunicar a
pesquisa, independentemente de a língua de publicação do autor ser sua primeira língua
ou ser uma língua estrangeira. Ao preparar o texto para publicação, o primeiro leitor que
vem à mente do pesquisador são seus pares, ou seja, pessoas que trabalham em áreas
relacionadas à área do pesquisador e que querem conhecer os resultados de seus
estudos. Esses são, sem dúvida, o primeiro público. No entanto, há outro público, cujas
necessidades ou quesitos o autor deve atender para que seu artigo seja publicado: os
editores e revisores. Eles funcionam como filtros, ou “guardiões do portão”, que levam
à publicação. Essas pessoas são incumbidas de permitir que somente artigos que
atendam aos quesitos dos periódicos sejam publicados.
Visando preencher as exigências dos “guardiões” e obter sucesso, Cargill &
O’Connor (2009), sugerem ao pesquisador que este precisa conhecer muito bem as
expectativas dos dois públicos mencionados. Isso significa conhecer não somente o
conteúdo de cada seção de um artigo e sua apresentação, mas também as características
da língua inglesa que são comumente usadas para a apresentação do conteúdo.
Assim, os autores apresentam uma estrutura geral de artigos de pesquisa usada
nas ciências. Cargill & O’Connor (2009) dizem que o modelo segue um conjunto de
convenções que foram desenvolvidas ao longo dos anos desde 1665, quando a edição do
Philosophical Transactions12 surgiu na Inglaterra. A estrutura genérica convencional
12A Royal Society foi fundada em 1660 para promover a nova filosofia experimental da época, incorporando os princípios de sir Francis Bacon. Henry Oldenburg foi nomeado primeiro secretário (adjunto) da Royal Society e foi também o primeiro editor do periódico Philosophical Transactions, da Royal Society. Essa primeira edição do Philosophical Transactions surgiu em março de 1665 e apresentava correspondências de Oldenburg com cientistas europeus de ponta. Nos primeiros anos do periodico, Isaac Newton publicou dezessete artigos nele, incluindo seu primeiro artigo – New Theory about Light and Colours – que serviu efetivamente para lançar sua carreira científica em 1672 (disponível no endereço http://rsta.royalsocietypublishing.org/site/misc/about.xhtml; minha tradução).
26
para o artigo, que os autores chamam de AIMRaD, sigla em inglês para Introduction,
Materials and Methods, Results, and Discussions é representada por uma figura em
forma de ampulheta (hourglass), reproduzida abaixo:
(fonte: Cargill e O’Connor, 2009, p. 10)
FIGURA 1: MODELO DE ARTIGO AIMRAD
Os modelos de artigo científico contemplam basicamente os mesmos itens.
Ressaltamos que nem todo periódico segue o modelo de artigo científico proposto por
Cargill & O’Connor (2009), que contempla: resumo, introdução, métodos, resultados e
discussão, que interagem da seguinte forma:
(a) Toda a estrutura é regida pelos Resultados. Tudo no artigo deve
estar relacionado e em conexão com os dados e a análise apresentados na seção
Resultados.
(b1) A Introdução começa com um foco amplo. O ponto de partida
escolhido para a Introdução deve ser um que atraia o interesse do público-alvo,
que são os leitores internacionais de seu periódico-alvo.
(b3) A Introdução termina com um foco exatamente paralelo ao dos
Resultados; com frequência, trata-se de uma declaração sobre o propósito do
27
trabalho apresentado no artigo ou seus achados ou atividades principais.
(b2) Entre esses dois pontos, informações de fundamentação e
trabalhos anteriores são tecidas em conjunto para conectar de maneira lógica a
questão relevante com a abordagem selecionada no trabalho a ser apresentado
para abordar a questão.
(c) A seção de Metodologia ou similar estabelece credibilidade para os
Resultados, mostrando como eles foram obtidos.
(d) A Discussão começa com a mesma amplitude de foco que os
Resultados – mas termina com a mesma amplitude do ponto de partida na
introdução. No final, o artigo aborda as questões mais amplas que foram
levantadas no início, para mostrar como o seu trabalho é importante para o
“panorama geral”.
Os autores esclarecem que o modelo mostrado não serve para todos os artigos
de pesquisa científica. Assim, eles mostram dois outros modelos usados por dois
periódicos de grande impacto: Nature, do Reino Unido, e Science, dos Estados Unidos.
Cargill & O’Connor (2009) explicam que as propostas de ambos os periódicos é tornar
possível mostrar o avanço da ciência em modelos de artigos que sejam acessíveis para
cientistas que não são especialistas naquela área. Os autores advertem que esses são
periódicos que apresentam grande número de submissões. Consequentemente, há
bastante competitividade para publicação. Por conseguinte, não são recomendados para
cientistas iniciantes.
Tipicamente, o modelo de artigo usado pelos dois periódicos acima começa
com uma introdução cuidadosamente estruturada, apresentando informações gerais e a
fundamentação do trabalho para o vasto leque de leitores, seguida por um relato conciso
dos achados e uma breve discussão. A metodologia geralmente é resumida no artigo,
com um link para detalhes. Os detalhes completos sobre as estruturas exigidas por esses
periódicos podem ser encontrados em seus websites (CARGILL & O’CONNOR, 2009,
p.10-12).
Após apresentar modelos de artigos, Cargill & O’Connor discorrem sobre o
28
papel dos avaliadores (referees) de artigos para publicação e apresentam uma série de
perguntas que são típicas nos formulários de avaliação dos referees. As perguntas são
reproduzidas abaixo, em português (minha tradução).
A contribuição é nova?
A contribuição é significativa?
É adequada para ser publicada neste periódico?
A organização é aceitável?
A metodologia e tratamento dos resultados seguem padrões científicos aceitáveis?
Todas as conclusões estão solidamente embasadas nos dados apresentados?
O tamanho do artigo é satisfatório?
Todas as ilustrações são necessárias?
Todas as figuras e tabelas são necessárias?
As legendas das figuras e os títulos das tabelas estão adequados?
O título e o resumo indicam claramente o conteúdo do artigo?
As referências estão atualizadas, completas, e os nomes dos periódicos estão abreviados corretamente?
O artigo é excelente, bom ou pobre?
Além dos tópicos dos modelos mostrados acima e das perguntas usadas pelos
revisores avaliadores, Cargill & O’Connor (2009) apresentam em detalhes todas as
seções de artigos, com vários exemplos. Ao longo do livro, eles exploram também
recursos retóricos que podem ser aplicados aos artigos das ciências e dão explicações
gramaticais e sugestões de correção de estruturas inadequadas.
Pode-se observar, porém, que o item “língua” não é abordado diretamente em
nenhuma das 13 perguntas acima. No entanto, parece ser pertinente dizer que as
perguntas de número 6, 9, 10 e 12, permeiam, indiretamente, a língua usada na escrita
do artigo a ser avaliado. Entendemos que, por ser um quesito inerentemente essencial
para que um artigo seja aceito para publicação, a exigência do uso apropriado da língua
nem é tratada nos formulários de avaliação.
29
No Brasil, a submissão de um trabalho a um periódico também está sujeita às
normas referentes à formatação e conteúdo. Como exemplo, podemos citar duas revistas
quali A1: D.E.L.T.A.: Documentação de Estudos em Linguística Teórica e Aplicada13 e
Bakhtiniana: Revista de Estudos do Discurso14. Para publicação na D.E.L.T.A., os
trabalhos precisam ser contribuições inéditas, de caráter teórico ou aplicado referente ao
fenômeno linguístico. Também é dada preferência a trabalhos que contenham pesquisa
original, que poderão vir em forma de artigos, debates, questões e problemas.
Pesquisadores de quaisquer países são convidados a submeter seus trabalhos, os quais
serão avaliados anonimamente por dois membros do Conselho Editorial da revista. Os
trabalhos devem respeitar as normas de apresentação. São aceitos trabalhos escritos em
português, inglês, francês, espanhol ou italiano.
As orientações para os pareceristas de periódicos brasileiros parecem estar em
consonância com as recomendações apresentadas por Cargill & O’Connor (2009). Isso
pode ser observado na seção Instruções aos Pareceristas, do periódico Bakhtiniana. A
revista, que é uma publicação bilíngue (português / inglês) sugere aos pareceristas que
observem os seguintes aspectos, quando da avaliação e elaboração de pareceres:
Adequação do trabalho ao tema proposto;
Explicitação do objetivo do trabalho e coerência de seu desenvolvimento no texto;
Conformidade com a teoria proposta, demonstrando conhecimento atualizado da bibliografia relevante;
Originalidade da reflexão e contribuição para o campo de conhecimento;
Clareza, correção e adequação da linguagem a um trabalho científico.
Também um estudo de Cruz (2012) mostra a importância de o autor conhecer
os critérios para publicação em grandes periódicos, visto que serão esses critérios que
nortearão o papel dos avaliadores. A autora analisou os critérios estabelecidos por
revistas conceito A1, que indica prestígio nacional e internacional. No pedido de
13 ISSN 1678-460X.
14 ISSN 2176-4573.
30
avaliação, é solicitado aos pareceristas levar em consideração algumas questões, quais
sejam: “expressão clara do objeto do trabalho, cumprimento do objetivo proposto,
argumentação convincente, clareza e cumprimento dos pressupostos, consistência do
trabalho com a teoria proposta, bibliografia pertinente e a contribuição do trabalho”
(CRUZ, 2012, p. 79).
2.2 LINGUÍSTICA DE CORPUS
De acordo com Chapman & Routledge (2005), as pesquisas em linguagem por
meio de corpora podem ser consideradas uma herança advinda das ideias de estudos da
linguagem propostas pelo linguista britânico John Rupert Firth. Linguistas
contemporâneos de Firth, como Bloomfield, excluíam o “significado” dos estudos
linguísticos. A visão de Firth é contrária às ideias cartesianas de linguagem, como a
distinção entre langue e parole e competência e performance, propostas,
respectivamente, por Saussure (antes de Firth) e Chomsky (depois de Firth).
Chapman & Routledge (2005) esclarecem que o funcionamento da língua era
o interesse de Firth, para quem o estudo do significado e do contexto deveria ser o cerne
da Linguística. O linguista defendia que entidades fonológicas têm significado, pois elas
podem contrastar e se relacionar com outras entidades em determinados ambientes
fonológicos. Os autores esclarecem que, no âmbito do léxico, essa relação entre
entidades é realizada com o conceito da colocação, que Berber Sardinha (2005) define
como a “associação entre itens lexicais, ou entre léxico e campos semânticos” (p. 40).
Essa noção é um dos pilares da Linguística de Corpus.
As ideias de Firth sobre significado e contexto mudaram a visão sobre estudos
linguísticos. M. A. K. Halliday, seguidor de Firth, desenvolveu a Linguística Sistêmico-
Funcional (LSF) – uma teoria linguística baseada na observação da língua em uso, que
relaciona gramática, significado e discurso (HALLIDAY, 2004). Para esse teórico e
para Firth, o texto é uma unidade semântica.
Outro seguidor de Firth foi John McHardy Sinclair, que, de acordo com
Stubbs (2008), é considerado uma das figuras mais importantes na Linguística moderna,
aplicada e teórica. Para Sinclair, a língua é essencialmente lexical e formada por
31
unidades frasais, ao invés de palavras individuais.
Sinclair desenvolveu estudos de observação de padrões de linguagem
observados em corpora, que contribuíram para a lexicografia, a análise do discurso e o
ensino de ESP. Sinclair defendia que a língua tinha um caráter idiomático. O autor
sustentava que o significado não era inerente a uma única palavra. Ele buscava o
significado em unidades lexicais estendidas (duas ou mais palavras). De acordo com
Stubbs (2008), nos anos 60, em seus primeiros trabalhos de análise de corpus, Sinclair
estudou a relação entre colocações observáveis objetivamente e a sensação psicológica
do significado.
Um dos trabalhos mais significativos de Sinclair na Linguística de Corpus é o
OSTI Report (UK Government Office for Scientific and Technical Information),
conduzido em autoria com Jones e Daley. Stubbs (2008) informa que este relatório é
uma pesquisa quantitativa de dados de corpus que podem ser lidos por computador,
conduzida entre 1963 e 1969, que foi publicado em 2004.
Stubbs (2008) esclarece que o relatório, em conjunto com o projeto
Computational Analysis of Present Day American English (Brown Corpus), de Francis
& Kučera, traçou muitas das ideias usadas na Linguística de Corpus moderna. Eles
desenvolveram a teoria estatística de colocação, que estabelece que colocações são
evidências de significado. O projeto dos anos 60 estabeleceu questionamentos, como:
Quais tipos de padrão lexical pode ser encontrado no texto?;
Como a colocação pode ser descrita objetivamente?;
Qual tamanho de horizonte é relevante?;
Como que a evidência colocacional pode ser usada para estudar significado?
O autor (2008) acrescenta que, quanto aos princípios desenvolvidos pelo
projeto, estão15:
15 The unit of lexis is unlikely to be the word in all cases. Units of meaning can be defined via statistically defined units of lexis. Homonyms can be automatically distinguished by their collocations. Collocations differ in different text-types. Many words are frequent because they are used
32
É improvável que, em todos os casos, a unidade de léxico seja a palavra;
As unidades de significado podem ser definidas por meio de unidades de léxico definidas estatisticamente;
Hipônimos podem ser distinguidos automaticamente pelas suas colocações;
As colocações diferem em diferentes tipos de texto;
Muitas palavras são frequentes porque elas são usadas em frases frequentes;
Uma forma de um lema é regularmente muito mais frequente que as outras (o que coloca em dúvida o lema como unidade linguística).
2.2.1 Definição e premissas da Linguística de Corpus
De acordo com Bennett (2010), a Linguística de Corpus aborda o estudo da
língua em uso por meio de corpora. Os fundamentos da Linguística de Corpus existem
há quase um século, quando lexicógrafos começaram a coletar exemplos da língua em
uso para ajudar a definir palavras de maneira mais afinada no final do século 19
(BENNETT, 2010). No princípio, a coleta era, basicamente, feita em fichas de papel,
que eram armazenadas em escaninhos. A partir do uso do computador, essa coleta de
dados evoluiu para o que chamamos de corpora modernamente.
A Linguística de Corpus é a principal fundamentação teórica deste trabalho.
Ela pode ser definida como a área da Linguística que
“ocupa-se da coleta e da exploração de corpora, ou conjuntos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística.”
(BERBER SARDINHA, 2004a, p.3).
Segundo Berber Sardinha (2004a), pesquisas em Linguística de Corpus são
empíricas, possuem uma visão probabilística da linguagem e utilizam grande número de
textos naturais, coletados de maneira criteriosa, para serem analisados com o auxílio do
computador. Isso faz com que a Linguística de Corpus tenha grande influência na
pesquisa linguística em geral.
in frequent phrases. One form of a lemma is regularly much more frequent than the others (which throws doubt on the lemma as a linguistic unit).
33
Para o autor, trabalhos em Linguística de Corpus analisam padrões reais da
linguagem em textos naturais. Em virtude de trabalhar com dados reais utilizando
corpora eletrônicos, a Linguística de Corpus tem fornecido uma abordagem que
possibilita a observação de redes semânticas e campos lexicais, o que facilita o trabalho
do analista ao ter de manejar grande quantidade de dados.
O cerne da Linguística de Corpus é a noção de linguagem enquanto sistema
probabilístico, o que significa priorizar dados provenientes da observação da linguagem
natural. Assim, a Linguística de Corpus enquadra-se dentro do conceito formado pela
abordagem empirista, o que vai de encontro à visão da linguagem de forma racionalista.
Na visão de linguagem probabilística, traços linguísticos, apesar de serem possíveis
teoricamente, não ocorrem com a mesma frequência em uma dada linguagem, sendo
que “o mais importante da diferença de frequências entre os traços é não serem
aleatórias” (BERBER SARDINHA, 2000b, p. 351).
Berber Sardinha (2004a) aponta que a padronização da linguagem é
evidenciada por três conceitos, a saber: colocação, coligação e prosódia semântica.
Colocação, conforme descreve Hunston, é “a tendência de duas palavras coocorrerem,
ou a tendência de uma palavra atrair outra” (HUNSTON, 2002, p.68; tradução minha).
Coligação é a associação entre itens gramaticais e lexicais. A associação entre itens
lexicais e a conotação de campos semânticos, que pode ser positiva, negativa ou neutra
é chamada de prosódia semântica (BERBER SARDINHA, 2004a). Berber Sardinha
(2004a) diz que esses padrões apresentam regularidade, com frequências que podem ser
comparadas em corpora diferentes e variação sistemática (correlação com diversas
variedades textuais, dialetais, etc.).
Segundo o autor, existe uma variação sistemática de grupos de traços
linguísticos, não-aleatória, em relação a textos provenientes de situações comunicativas
específicas. Isso indica que há uma padronização da linguagem, que é evidenciada pela
recorrência. Isto é, colocações, coligações ou estruturas que se repetem de modo
significativo parecem ser, na realidade, padrões lexicais ou lexicogramaticais (BERBER
SARDINHA, 2004a).
34
Conforme pontuam Biber et al. (1998), uma abordagem baseada em corpus
serve para a identificação de padrões. Isso se deve ao fato de, nesse tipo de abordagem,
grandes volumes de dados linguísticos e fatores contextuais ou traços linguísticos são
analisados com a ajuda de computadores. De acordo com esses autores (1998), as
características essenciais de uma análise baseada em corpus são (p.4, minha tradução):16
– empírica, analisa os padrões reais de uso em textos naturais;
– usa uma grande coleção criteriosa de textos naturais, conhecida como
corpus, como base para a análise;
– faz uso extensivo de computadores para análise, usando tanto técnicas
automáticas quanto técnicas interativas;
– de técnicas tanto quantitativas quanto qualitativas.
Assim, o foco principal da Linguística de Corpus, que é revelar os padrões de
uso da língua de dados empíricos por meio de análise e, consequentemente, como a
língua se comporta, mostra-se fundamental para os estudos de linguagem. Em
decorrência, há um crescimento no número de pesquisas em Linguística de Corpus que
privilegiam as seguintes áreas de estudo, de acordo com Kennedy (1998), citado em
Berber Sardinha (2004b):
– Compilação de corpus;
– Desenvolvimento de ferramentas;
– Descrição da linguagem;
– Aplicação de corpora no ensino de línguas, no reconhecimento de voz, na
tradução, etc.
2.2.2 Breve histórico
Há vários trabalhos que fazem uma descrição da história da Linguística de
16 The essential characteristics of corpus-based analysis are: it is emprirical, analyzing the actual patterns of use in natural texts; it utilizes a large and principled collection of natural texts, know as a “corpus,” for the basis for analysis; it makes extensive use of computers for analysis, using both automatic and interactive techniques; it depends on both quantitative and qualitative analytical techniques.
35
Corpus. Parece ser consensual que nesse histórico constem os avanços da Linguística de
Corpus, propiciados pelo computador, conforme mostram alguns trabalhos de linguistas
de corpus resenhados a seguir.
Em Berber Sardinha (2000b), o autor celebra os 35 anos do Corpus Brown,
primeiro corpus eletrônico. Berber Sardinha fala de sua importância e seu lançamento,
sete anos após Chomsky apresentar “Syntactic Structures”17. É feita uma retrospectiva
da Linguística de Corpus, onde são discutidas questões teóricas e práticas. O autor parte
da compilação do corpus helenístico na Grécia Antiga, passa pela Idade Média e chega
ao século XX, quando pesquisas com corpora foram feitas pelo linguista Boas e
Thorndike. O último é um educador que compilou manualmente 4,5 milhões de
palavras e veio a mudar o ensino da língua materna e de línguas estrangeiras nos
Estados Unidos e na Europa.
Berber Sardinha (2000b) aborda a mudança no paradigma linguístico dos anos
1950: do gerativismo racionalista de Chomsky ao empirismo baseado em corpora.
Também é enfatizado que, à época, abordagens baseadas em corpora não eram muito
confiáveis, pois esses eram processados manualmente. Nos anos 1960, com os
computadores mainframe em universidades, isso começa a mudar e a Linguística de
Corpus passou a ter grande influência em pesquisa linguística na Europa. O mesmo não
ocorreu nos Estados Unidos, devido à forte influência do gerativismo.
De acordo com Haegeman (1995), uma hipótese adotada pelos gerativistas da
tradição chomskyana é a de que a gramática universal – um sistema com todos os
princípios que são comuns a todas as línguas humanas – é inata à espécie humana. A
gramática universal, base da linguística chomskyana é vista como um dom genético.
Nas palavras de Chomsky, “a gramática universal pode ser concebida como um sistema
de princípios, comum a espécie e disponível a cada indivíduo antes de sua existência”
17 Syntactic Structures é um trabalho seminal para a linguística do século 20, escrito pelo linguista americano Noam Chomsky. Ele é a base para seus estudos sobre gramática transformacional. Nesse livro, Chomsky usa a oração "Colorless green ideas sleep furiously" como exemplo de gramaticalidade, apesar de ela não fazer sentido.
36
(CHOMSKY, 1981 [1957], apud HAEGEMAN, 1995, p.13)18.
Ao discorrer sobre os avanços da Linguística de Corpus, Berber Sardinha
(2004b) descreve também um conjunto de ferramentas usadas na Linguística de Corpus,
sem as quais a área não teria crescido. O autor discute detalhadamente a terminologia da
Linguística de Corpus e questões inerentes a ela, como a visão racionalista da
linguagem (como possibilidade) de Chomsky, que é contrastada com a visão empirista
da linguagem (como probabilidade) de Halliday. Ademais, o autor defende que a
Linguística de Corpus tem afinidade com a linguística hallidayana. Ao discutir o
estatuto da Linguística de Corpus (se ela é disciplina ou metodologia), o sugere que o
termo ‘abordagem baseada em corpus’, cunhado por Biber é o preferido por linguistas
de corpus influentes.
Tognini-Bonelli também faz um histórico da Linguística de Corpus. Em
Theoretical Overview of the Evolution of Corpus Linguistics, Tognini-Bonelli (2010)
inicia explorando os pressupostos teóricos da Linguística de Corpus (LC). Ela afirma
que a LC está focada na performance e não na competência – a ênfase está no uso e não
nos universais linguísticos, o que a difere da linguística de Chomsky. Segundo a autora,
a ideia de corpus cresceu nos anos 1960 com os linguistas modernos, que se baseavam
nos linguistas de campo. Tinha foco nas interações linguísticas cotidianas, faladas e
escritas, de pessoas comuns. Segundo Tognini-Bonelli, o que influenciou o
desenvolvimento de corpora não foi o momento linguístico, mas sim a tecnologia.
A autora aponta que os trabalhos com computadores começaram com o Index
Thomisticus, de padre Busa (entre os anos 1950 e 1970). O Brown Corpus, da década de
1960, compilado na Universidade de mesmo nome, é o primeiro corpus eletrônico de
linguagem escrita e serviu de padrão por muitos anos. Com a invenção do gravador, foi
possível coletar dados falados.
Tognini-Bonelli (2010) acrescenta que, apesar de uma modesta propagação,
resultante de computadores lentos e com baixa memória, foi nos anos 1970 que os
18 Universal grammar may be thought of as some system of principles, common to the species and available to each individual prior to experience.
37
corpora se consolidaram. Não obstante as limitações da época, corpora com mais de
um milhão de palavras foram compilados. Os avanços vieram de países escandinavos,
que inspiraram linguistas de corpus por uma geração. A invenção do scanner
proporcionou novos avanços. Mais tarde, a digitalização de uma grande diversidade de
documentos e o advento da internet proporcionaram o surgimento de mais corpora. Para
a autora, nos anos 1990, o desenvolvimento quantitativo e metodológico pelo qual a
Linguística de Corpus passou se transformou em uma revolução teórica qualitativa.
McCarthy & O’Keeffe (2010) explicam o que são corpora e fazem um
histórico de como eles evoluíram. Segundo os autores, com a criação e difusão do uso
de computadores, o que era feito manualmente, consumindo bastante tempo, passou a
ser feito com mais prontidão e confiabilidade.
Os autores afirmam que os primeiros trabalhos feitos no século XIII, e
também em 1737 e 1890, foram feitos manualmente, consumindo anos e utilizando o
esforço de muitos monges. Para McCarthy & O’keeffe (2010), tais tarefas seriam feitas
em segundos por programas de concordância computadorizados de hoje. Os autores
pontuam que os primeiros dicionários, como A Dictionary of the English Language, o
primeiro da língua inglesa, lançado em 1755, e o Oxford English Dictionary, publicado
em 1884, foram elaborados a partir de fichas de papel, onde anotações eram feitas
manualmente.
Berber Sardinha (2000b) aponta ainda que a Linguística de Corpus saiu dos
centros universitários e está presente em empresas de diversas áreas, como informática e
editoras, resultado dos avanços da Linguística de Corpus. O mesmo autor afirma que “a
história da Linguística de Corpus está intimamente ligada à disponibilidade de corpora
eletrônicos” (2000, p.3). Assim, o autor relaciona uma lista de corpora que são marcos
na história da Linguística de Corpus. O quadro a seguir, adaptado de Berber Sardinha
(2004b), descreve alguns desses corpora de destaque, com números atuais para os
corpora que tiveram adições.
38
CORPUS DATA TOTAL DE PALAVRAS CONTEÚDO
Brown Corpus 1964 1 milhão Inglês americano escrito
LOB (Lancaster-Oslo-Bergen Corpus)
1978 1 milhão Inglês britânico escrito
LLC (London-Lund Corpus) 1980 500 mil Inglês britânico falado
Birmingham Corpus 1987 20 milhões Inglês britânico
TOSCA Corpus 1988 1.5 milhões Inglês britânico escrito
SEU Corpus 1989 1 milhão Inglês britânico escrito e falado
LCLE (Longman Corpus of
Learner’s English)
1992 10 milhões Inglês escrito por
estrangeiros
SEC (Lancaster/IBM Spoken
English Corpus)
1992 53 mil Inglês britânico falado
Wellington Corpus (of Written
New Zealand English)
1993 1 milhão Inglês neozelandês,
escrito
POW (Polytechnic of Wales
Corpus)
1993 65 mil Inglês infantil falado
BNC (British National Corpus) 1995 100 milhões Inglês britânico escrito e falado
Wellington Corpus of Spoken
New Zealand English
1995 1 milhão Inglês neozelandês,
falado
ICLE (International Corpus of
Learner English)
1997 2.5 milhões Inglês escrito por
estrangeiros
Bank of English 1997 450 milhões Inglês britânico
QUADRO 2: CORPORA DE DESTAQUE (ADAPTADO DE BERBER SARDINHA, 2004B)
Além dos corpora dispostos no Quadro 2, existem corpora em outras línguas
como francês, alemão, português e espanhol e também outros de língua inglesa, como o
Corpus of Contemporary American English (COCA), criado por Mark Davies, da
Brigham Young University. Esse é considerado o maior corpus de inglês de livre acesso
disponível. O COCA é também o único corpus grande e equilibrado de inglês americano
e é consultado por dezenas de milhares de usuários por mês, incluindo linguistas,
39
professores, tradutores e outros pesquisadores. As informações referentes a esse corpus,
bem como consultas a seus dados podem ser feitas no endereço
http://corpus.byu.edu/coca/.
O COCA, que contém mais de 464 milhões de palavras, engloba textos
falados, de ficção, revistas populares, jornais e textos acadêmicos. Foi compilado entre
1990-2012, período em que 20 milhões de palavras foram adicionadas anualmente e
ainda recebe atualização regularmente.
Para McCarthy & O’Keeffe (2010), os exemplos dos esforços do passado
serviram de inspiração e estão vivos em espíritos e intenções nos programas de software
que usamos hoje. Os autores também mencionam a importância dos trabalhos que o
jesuíta Busa desenvolveu. Segundo eles, embora os processos de concordância tenham
surgido com o trabalho dos monges, a vontade de criar corpora eletrônicos passou pelo
trabalho do padre jesuíta Roberto Busa, que começou na década de 1950 e concluiu,
duas décadas depois, a indexação lematizada eletrônica dos escritos de São Tomás de
Aquino.
Segundo os autores, nos anos 1950, era dos estruturalistas americanos, a
noção de coletar dados autênticos passou a ser valorizada. Os estruturalistas foram os
precursores a usar dados de linguagem autêntica. No período surgem as primeiras
concordâncias geradas por computador, usando cartões perfurados para armazenamento.
A partir dos anos 70, houve um crescimento no interesse por palavras-chave em
contexto (KWIC), substituindo os cartões de indexação e automatizando a análise de
assuntos nas bibliotecas. Nos anos 80 e 90 surgem os corpora tal como os conhecemos
hoje e que servem de ferramentas para linguistas e linguistas aplicados.
McCarthy & O’Keeffe (2010) reiteram que os avanços ocorridos na
tecnologia e a acessibilidade ao computador possibilitaram que a Linguística de Corpus
aflorasse, possibilitando o desenvolvimento, tamanho e multimodalidade de corpora.
Adicionalmente, o surgimento da internet e, por conseguinte, de maiores possibilidades
de acesso à informação, permitiu uma maior divulgação de programas para
processamento de corpora. Programas como o Oxford Concordance Program deram
40
lugar ao WordSmith Tools e Monoconc, de mais fácil utilização. Os autores discutem as
diversas aplicações da Linguística de Corpus no ensino e aprendizagem, na análise do
discurso, literatura, linguística forense, pragmática e outras áreas.
Biber (2012) diz que uma das maiores contribuições da pesquisa com corpus
nos últimos 40 anos é o reconhecimento crescente de que o léxico e a gramática estão
intimamente ligados. O autor menciona estudos investigativos para identificar palavras
associadas com construções gramaticais como, por exemplo, listas de verbos e adjetivos
que controlam uma that-clause ou uma to-clause.19
Uma das primeiras gramáticas a incluir uma gama de informações lexicais
desse tipo foi a Comprehensive Grammar of the English Language, de 1985. Outras,
como a Collins COBUILD English Grammar, de 1990, a Longman Grammar of Spoken
and Written English, de 1999, e a Cambridge Grammar of English, editada em 2006,
são contribuições mais recentes.
Segundo Biber (2012), essas gramáticas têm uma abordagem corpus-based,
isto é, dedutiva, na qual “construções gramaticais são distinguidas baseadas em critérios
linguísticos tradicionais, a partir dos quais conjuntos de palavras associadas a essas
construções são identificadas através de análise de corpus.”20 (BIBER, 2012, p. 10;
tradução minha).
2.2.3 Corpus: definição e tipologia
Em latim, corpus significa corpo, que na área da linguística se refere a um
“corpo de textos”. Entretanto, seu uso na Linguística Aplicada está relacionado a uma
grande coleção de textos que podem ser lidos por um computador (McEnery & Wilson,
1996).
Sinclair, linguista considerado o pai da Linguística de Corpus, define corpus
19 That-clauses são orações que começam com a palavra that. To-clauses são orações que começam com a palavra to.
20 grammatical constructions are distinguished on the basis of traditional linguistic criteria, and then the set of words associated with those constructions are identified through corpus analysis.
41
com uma declaração que vai além da definição prática: “Um corpus é algo
extraordinário, não pelo fato de ele ser uma coleção de textos de língua, mas devido às
propriedades que ele adquire se for bem desenhado e construído cuidadosamente.”21
(SINCLAIR, 2004).
De acordo com Hunston (2002), os linguistas em geral sempre definiram
corpus para descrever uma coleção de exemplos da língua que ocorrem de forma
natural, que podia ser qualquer coisa, como algumas orações ou um conjunto de textos
escritos ou gravações em fita, colecionadas para estudos linguísticos. No entanto, mais
recentemente, diz a autora, a palavra corpus “foi reservada para coleções de textos (ou
partes de texto) que são armazenadas e acessadas eletronicamente.”22 (HUNSTON,
2002, p. 7).
As definições propostas para corpus, cujo plural é corpora, têm basicamente o
mesmo cerne. Elas definem corpus como um conjunto de textos para análise com
computador. Entretanto, para este estudo foi usada a opção proposta por Sanchez
(1995), por ser completa, conforme mostra Berber Sardinha (2004a):
Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.
(SANCHEZ, 1995, pp. 8-9, apud BERBER SARDINHA, 2004a, p.18)
Ainda sobre a importância da Linguística de Corpus, Kennedy (1998, p. 9,
apud BERBER SARDINHA, 2004a, p. 37) acrescenta:
Embora o escopo da Linguística de Corpus possa ser definido em termos do que as pessoas fazem com corpora, seria um engano assumir que Linguística de Corpus é somente um meio mais rápido de descrever como a linguagem funciona [...]. A análise de um corpus pode revelar, e frequentemente revela, fatos a respeito de uma língua que nunca se pensou em
21 “A corpus is a remarkable thing, not so much because it is a collection of language text, but because of the properties that it acquires if it is well-designed and carefully-constructed.”
22 “More recently, the word [corpus] has been reserved for collections of texts (or parts of text) that are stored and accessed electronically.”
42
procurar.
Sendo assim, constata-se a necessidade de atenção a vários pontos relativos ao
corpus, pois sua origem, propósito, composição, formatação, representatividade e
extensão constituem os dados linguísticos que serão a matéria-prima da pesquisa. A
importância desses quesitos é descrita por Berber Sardinha:
A origem: os dados devem ser autênticos.
O propósito: o corpus deve ter a finalidade de ser um objeto de estudo linguístico.
A composição: o conteúdo do corpus deve ser criteriosamente escolhido.
A formatação: os dados do corpus devem ser legíveis por computador.
A representatividade: o corpus de ser representativo de uma língua ou variedade.
A extensão: o corpus deve ser vasto para ser representativo.
(BERBER SARDINHA, 2004b, p. 18-19)
A principal premissa das pesquisas em Linguística de Corpus é a adoção de
um corpus ou corpora como objeto de estudo para descrição da língua. No entanto,
Hunston (2002) adverte que, apesar de todos os benefícios advindos do estudo da
linguagem por meio de corpora, as limitações quanto ao seu uso devem também ser
consideradas. Essas limitações se resumem a quatro questões apontadas pela autora, a
saber:
Um corpus não é capaz de nos informar se alguma coisa é possível ou não; ele
simplesmente nos informa que algo é frequente ou não. Inclusive, a autora afirma que,
de acordo com Sinclair (1991), as descrições da língua inglesa estão caminhando em
direção ao que é típico e se distanciando das noções de boa formulação.
Um corpus pode oferecer evidência, mas não pode dar informações. Assim, o
corpus simplesmente oferece ao pesquisador diversos exemplos, mas somente o
pesquisador, com sua intuição, poderá interpretá-los.
Um corpus apresenta a língua fora de seu próprio contexto. Um exemplo é
questão de dados falados, em que a transcrição nunca pode representar a entonação, a
linguagem corporal e outras informações paralinguísticas de maneira bem apurada. Até
43
mesmo questões características visuais e relativas à entonação são ignoradas.
A quarta questão aparenta ser controversa. A autora diz que um corpus não
mostra nada além do seu próprio conteúdo. E conclui que uma afirmação sobre
evidências em um corpus é uma afirmação sobre aquele corpus; não podendo ser
generalizada. Hunston afirma:
“Um corpus não mostra nada além do seu conteúdo. Embora seja
(justificavelmente) chamado de representativo, todas as tentativas de gerar
generalizações de um corpus são, de fato, extrapolações. Uma declaração sobre
evidência em um corpus é uma declaração sobre aquele corpus, não sobre a língua ou o
registro do qual o corpus é uma amostra. Dessa forma, conclusões sobre língua feitas
de um corpus têm de ser tratadas como deduções, não fatos.”23
(HUNSTON, 2002, p. 22-23; grifos meus)
Tal afirmação não parece ser condizente com a importante característica
inerente ao corpus de estudo, que é ser uma amostra representativa de um todo ou
população que o pesquisador quer estudar. Conforme esclarece Berber Sardinha
(2000c), não existe uma resposta exata para a questão quanto ao tamanho do corpus. O
autor explica que, “à questão de o que seria uma amostra representativa de linguagem, a
estratégia que se tem posto em prática é utilizar um corpus o maior possível.”
(BERBER SARDINHA, 2000c, p. 2). Ele acrescenta que, para que o corpus tenha o
maior número possível de palavras raras, a ideia de quanto maior melhor é aplicada.
Isso serve como uma espécie de salvaguarda para garantir que o corpus seja o mais
representativo possível.
Além disso, se abandonarmos a ideia de generalização a partir do corpus de
estudo, pouco adiantaria estudar uma expressiva gama de textos que compõem os
corpora, conforme preconiza a Linguística de Corpus. Poderíamos, então, permanecer
23 Although it may (justifiably) claim to be representative, all attempts to draw generalization from a corpus are in fact extrapolations. A statement about evidence ina a corpus is a statement about that corpus, not about the language or register of which the corpus is a sample. Thus conclusions about language drawn from a corpus have to be treated as deductions, not as facts. (HUNSTON, 2002, p. 22-23).
44
com o estudo de um só texto e nos restringirmos apenas aos dados que temos, já que a
possibilidade de generalização seria inexistente.
Também Biber (1993c) trata de questões relacionadas à representatividade no
design de corpora linguísticos. Biber (1993c) discute o significado de representar uma
linguagem, a definição de população-alvo, amostragem estratificada versus
proporcional e questões relativas ao tamanho da amostra de um corpus. Para o autor,
qualquer seleção de textos é uma amostra. Para que uma amostra seja ou não
considerada representativa, é necessário analisar, primeiramente, a extensão para a qual
ela foi selecionada, dentro de uma gama de tipos de textos da população-alvo. Ou seja,
uma avaliação dessa representatividade depende de uma definição completa prévia da
população que a amostra pretende representar e das técnicas usadas para selecionar a
amostra daquela população.
2.2.4 Tipologia do corpus
De acordo com Hunston (2002), um corpus pode ser definido em termos de
sua forma e seu propósito. A autora esclarece que o desenho de um corpus é
estabelecido levando em consideração o seu propósito. Assim, de acordo com sua
necessidade, o pesquisador decidirá os parâmetros que determinarão a tipologia do seu
corpus de estudo.
Existem vários tipos de corpus, conforme esclarece Hunston (2002). A seguir,
há uma breve descrição daqueles que a autora considera os mais comuns.
– Corpus especializado (Specialized corpus): consiste em um corpus de um
tipo de texto em particular, tais como editoriais de jornal, livros didáticos de geografia
ou artigos acadêmicos de um assunto específico. A autora esclarece que não há limites
quanto ao grau de especificidade envolvido. No entanto, os parâmetros de restrição são
estabelecidos para limitar os tipos de textos que serão incluídos nesse corpus. A autora
menciona dois corpora especializados bastante conhecidos. São eles o Cambridge and
Nottingham Corpus of Discourse in English (CANCODE), composto por registros
informais, com 5 milhões de palavras, e o Michigan Corpus of Academic Spoken
45
English (MICASE), de registros falados em um contexto (ambiente) acadêmico nos
Estados Unidos.
– Corpus Geral (General corpus): é um corpus composto por muitos tipos de
texto, de língua falada ou escrita, ou de ambas. O corpus geral pode incluir textos
produzidos em diferentes países e é pouco provável que seja representativo de um
“todo” em especial. Geralmente são bem maiores que os corpora especializados. Podem
ser usados com referência na produção de materiais didáticos de tradução. Outra
aplicação desse corpus é servir como referência em estudos de corpora mais
especializados. Dois corpora de referência bem conhecidos são o British National
Corpus, com 100 milhões de palavras, e o Bank of English, com 450 milhões de
palavras. Esses dois corpora abarcam um leque de subcorpora de diferentes fontes.
Hunston esclarece que, antigamente, os corpora gerais eram o corpus LOB (sigla para
Lancaster-Oslo / Bergen), que consiste em textos de inglês britânico escrito, e o corpus
Brown. Ambos contêm 1 milhão de palavras cada e foram compilados nos anos 1960.
– Corpora comparáveis (Comparable corpora): são dois ou mais corpora em
línguas diferentes ou de variedades diferentes de uma língua. Podem ser, por exemplo,
textos de jornal de mesma proporção, conversas informais, etc. Tradutores e aprendizes
de línguas podem usá-los para cotejar equivalências e diferenças linguísticas.
– Corpora paralelos (Parallel corpora): são dois ou mais corpora em línguas
diferentes contendo, cada qual, textos que foram traduzidos de uma língua para a outra
ou textos que foram produzidos simultaneamente em duas ou mais línguas. Podem ser
usados por tradutores ou estudantes, investigando possíveis equivalências de expressões
nas línguas.
– Corpus de aprendiz (Learner corpus): é uma coleção de textos produzidos
por aprendizes de uma língua. Tem o propósito de investigar em quais aspectos os
aprendizes se diferenciam entre si e como se diferenciam da linguagem de falantes
nativos. Para a última situação, um corpus de textos produzidos por falantes nativos se
faz necessário para realizar essa comparação.
– Corpus pedagógico (Pedagogic corpus): é um corpus que consiste em todas
46
as palavras às quais o (a) aprendiz da língua foi exposto. Segundo Hunston (2002), na
maioria das vezes, tal corpus não existe em forma palpável para o aprendiz. Ele pode
ser uma coletânea de materiais, como livros-texto, Cds e leituras que o aprendiz usou.
Pode ser também uma coletânea de exemplos de uso de uma palavra ou frase
contextualizada.
– Corpus histórico ou diacrônico (Historical or diachronic corpus): é um
corpus composto por textos de diferentes períodos de tempo (épocas). É usado para
acompanhar o desenvolvimento de aspectos de uma língua ao longo do tempo. A autora
cita que o corpus diacrônico de inglês mais conhecido é o Corpus Helsinki, composto
por 1,5 milhão de palavras, com textos que datam de 700 a 1700.
– Corpus monitor (Monitor corpus): é um corpus elaborado para acompanhar
as mudanças que estão em curso na língua. Esse tipo de corpus recebe adições
anualmente, mensalmente ou, até mesmo, diariamente. Dessa forma, ele aumenta de
maneira rápida e constante.
– A tipologia dos corpora também pode ser definida em relação a outros
critérios. Conforme pontua Berber Sardinha (2004b), os corpora podem ser
classificados quanto:
– Ao modo: falado (o corpus é composto por porções de fala transcritas);
escrito (o corpus é composto por textos escritos, impressos ou não).
– À seleção: de amostragem (sample corpora), que são compostos por
porções de textos ou por variedades textuais, planejados para ser uma amostra finita da
linguagem como um todo; dinâmico, ou orgânico, ele permite o crescimento e a
diminuição e qualifica o corpus monitor; estático, opõe-se a dinâmico e caracteriza o
corpus de amostragem; equilibrado (balanced), no qual seus componentes, como
gêneros e textos, são distribuídos em quantidades iguais.
– Ao conteúdo: são especializados, com textos de tipos específicos, com
gêneros ou registros definidos; regional ou dialetal: com textos que provêm de uma ou
mais variedades sociolinguísticas específicas; multilíngue, inclui diferentes idiomas.
– À autoria: de aprendiz, conforme explicação acima proposta por Hunston
47
(2002); de língua nativa, no qual os autores são falantes nativos.
– À disposição interna: paralelo, explicação acima proposta por Hunston
(2002); alinhado, em que as traduções aparecem alinhadas abaixo de cada linha do
original.
– À finalidade: de estudo, que é o corpus que se pretende descrever; de
referência, que é usado para contrastar com o corpus de estudo; de treinamento ou teste:
sua construção visa o desenvolvimento de aplicações e ferramentas de análise.
Berber Sardinha (2004b) também esclarece que os corpora podem ser
classificados quanto à extensão ou tamanho, que é um dos critérios relacionados à
representatividade. Assim, quanto ao tamanho, medido pelo número de palavras, após
anos de observação, Berber Sardinha sugere que corpora podem ser classificados
conforme o quadro a seguir.
Tamanho em palavras Classificação
Menos de 80 mil Pequeno
80 a 250 mil Pequeno-médio
250 mil a 1 milhão Médio
1 milhão a 10 milhões Médio-grande
10 milhões ou mais Grande
QUADRO 3: TAMANHOS DE CORPUS (FONTE: BERBER SARDINHA, 2004B, P. 26)
Estudos de Linguística de Corpus dispõem de dois termos usados em
referência à quantidade de palavras nos corpora: types e tokens. Conforme explica
Berber Sardinha (2004b), o número de tokens, vocábulo que pode ser traduzido por
ocorrências, refere-se ao número total de vocábulos no texto. São as palavras corridas
(running words) do texto. Por outro lado, o número de types, que pode ser traduzido por
itens, equivale ao número de itens ou vocábulos diferentes no corpus. Assim, na oração
o carro azul está com o pneu vazio, dizemos que há oito tokens, que é o número de
palavras corridas. No mesmo exemplo, contam-se sete types: o (duas vezes), carro
(uma vez), azul (uma vez), está (uma vez), com (uma vez), pneu (uma vez) e vazio
(uma vez).
48
2.2.5 Ferramentas usadas na LC
A compilação criteriosa do corpus por si não é suficiente para a execução do
estudo e levantamento dos dados. As ferramentas que a Linguística de Corpus dispõe
podem ser usadas na organização e na extração de informações dos corpora, que
viabilizam a observação e interpretação de dados, fornecendo novas perspectivas à
análise linguística. A seguir as ferramentas computacionais usadas neste estudo são
apresentadas.
A partir da compilação do corpus de estudo, que é de linguagem real,
representativo do registro acadêmico, em forma de artigos de diferentes áreas de estudo
e escritos por pesquisadores de diferentes origens, o primeiro passo é a anotação do
corpus. Conforme explica Berber Sardinha (2004b), essa etapa consiste em inserir
cabeçalhos informativos nos arquivos e fazer a sua etiquetagem morfossintática. Ou,
ainda, de acordo com Souza, a anotação do corpus é “o processo de adicionar
marcações ao conjunto de texto que permitam facilitar a análise a partir da classificação
de cada uma das palavras do texto de acordo com uma categoria, seja ela morfológica,
sintática ou semântica.” (2012, p. 87).
McEnery & Hardie (2012) discorrem sobre tipos de anotação. Segundo os
autores, os metadados – informações descritivas contidas no corpus que dizem algo
sobre o texto em si, como autoria, publicação e idioma no qual foi escrito – podem
ajudar na investigação de seus dados. Eles podem ser codificados no texto do corpus ou
ser mantidos em um documento separado ou em um banco de dados. A marcação
textual, por sua vez, codifica outras informações dentro do texto – informações
estruturais do texto – tais como quebras de parágrafo, que são anotadas no corpus. Em
textos escritos a marcação textual pode ser, por exemplo, a formatação, a fonte, o uso de
itálicos, etc.
Em corpora falados transcritos, as informações de metadados serviriam para
identificar os falantes e dariam outras informações, como faixa etária e gênero. A
marcação textual serviria para indicar o início e fim da participação de cada falante, por
exemplo. Os autores usam exemplos do corpus BNC, que está marcado seguindo uma
49
convenção específica de codificação. Este padrão é chamado de “eXtensible Markup
Language” ou XML.
McEnery & Hardie (2012) esclarecem que a combinação de metadados com a
marcação textual possibilita diversas pesquisas. Segundo os autores, há três abordagens
de anotação linguística. São elas: anotação puramente automática, anotação
automatizada seguida de correção manual e anotação puramente manual. Eles
esclarecem que todas são passíveis de erros. Ademais, pontuam que, atualmente, não é
possível fazer anotação automatizada para todos os tipos de análise linguística e
mencionam vários softwares para esse propósito, como o Constraint Grammar System,
o CLAWS e o USAS.
Segundo McEnery & Hardie (2012), corpora anotados manualmente podem
servir de referência para medir a performance de etiquetadores automáticos. Eles
afirmam que não se pode dizer que as codificações feitas no corpus serão sempre
consistentes, o que eles consideram vexatório. Salientam que a anotação de corpus é um
processo de rotulação; e não um processo de criação ou transformação. Por conseguinte,
é necessário que a anotação seja feita de maneira consistente.
Ainda sobre a preocupação sobre a (in)constância na anotação de corpora,
eles afirmam que, apesar de a inconsistência ser inevitável, eles defendem a necessidade
de observação nas escolhas feitas na anotação para ser o menos inconsistente possível.
Para os autores, análises manuais, com anotações feitas por linguistas, são
mais confiáveis. Eles esclarecem que as escolhas do analista ou do programa de
anotação estarão presentes no texto de maneira explícita, o que os autores consideram
positivo. Dessa forma, qualquer inconsistência estará aberta para averiguação e
mudanças necessárias posteriormente.
Embora haja um grande número de pesquisas com corpora anotados,
McEnery & Gabrielatos (2006) dizem que há críticas relacionadas à anotação. Uma
delas sugere que a anotação impõe aos dados categorias de um modelo teórico, o que
poderia causar interferência em encontrar evidências contra aquela teoria ou mesmo em
encontrar traços linguísticos que a teoria não prediz. Além disso, segundo os autores, há
50
outra divergência: a anotação adiciona informação e, por conseguinte, determinado
valor a cada palavra do corpus; porém, em outro sentido, a anotação subtrai informação
da palavra, porque a ela somente é atribuída uma etiqueta inalterável, mesmo quando
algumas palavras não pertencem claramente a uma categoria existente (McENERY &
GABRIELATOS, 2006, p. 7).
Segundo Berber Sardinha (2004b), são quatro os tipos de anotação linguística,
a saber: (1) anotação morfossintática ou marcação de partes do discurso (part of speech
ou PoS), (2) anotação sintática (parsing), (3) anotação semântica (semantic) e (4)
anotação discursiva (discursive). Berber Sardinha (2004) diz que a etiquetagem pode ser
automática ou semi-automática. Segundo o mesmo autor, as marcações ou etiquetagens
de natureza morfossintática, semântica e discursiva são realizadas por programas
chamados etiquetadores. Os etiquetadores (taggers) atribuem uma etiqueta a cada
palavra do corpus. A etiquetagem morfossintática, por exemplo, marca cada palavra
com uma classe gramatical (substantivo, verbo, adjetivo, etc.). Ela é a mais comum e a
que oferece mais opções em termos de programas e rotinas. A etiquetagem sintática
identifica a estrutura sintática, ou seja, o sintagma verbal, nominal, etc. de cada frase. A
etiquetagem semântica define o sentido ou categoria semântica de cada palavra (por
exemplo, apartamento = moradia, alicate = ferramenta). Já a discursiva marca
características como referentes anafóricos, catafóricos, tópicos ou marcadores do
discurso.
De acordo com Leech (2004), a anotação é feita para dar um valor a mais ao
corpus. Pode ser feita manualmente, o que não é muito confiável, por ser um processo
laborioso, passível de erros e sujeito às inconsistências por parte do ser humano; ou por
meio de etiquetadores, como os mencionados acima.
Segundo Leech (2004), além da anotação morfossintática, existem outros tipos
de anotação, que correspondem a níveis diferentes de análise linguística de um corpus.
São elas: anotação fonética; anotação semântica; anotação pragmática; anotação
estilística; e anotação lexical. O autor adiciona que um etiquetador morfossintático
serve, por exemplo, para distinguir palavras que são escritas de uma mesma forma.
51
Vejamos present, citado por Leech (2004), que pode ser três palavras diferentes,
esclarecidas com as etiquetadas providas por um etiquetador morfossintático:
present_NN1 (substantivo comum singular) present_VVB (forma básica de um verbo lexical) present_JJ (adjetivo geral)24
De acordo com Berber Sardinha (2004b), as ferramentas mais comuns à
disposição da Linguística de Corpus são os programas para listar palavras, que fazem a
contagem das palavras em um corpus; os concordanciadores, que são programas que
permitem que o usuário procure por palavras específicas em um corpus, fornecendo
exaustivas listas para as ocorrências da palavra em contexto; e os etiquetadores, que
fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem
morfossintática, sintática, semântica ou discursiva.
Um dos programas que oferecem inúmeras possibilidades ao pesquisador é o
WordSmith Tools (WST). O programa, que possui várias aplicações além de geração de
listas de palavras, foi criado em 1996 pelo pesquisador e professor Mike Scott, da
Universidade de Liverpool, Reino Unido. De acordo com Berber Sardinha (1999), as
várias aplicações do programa compreendem desde o pré-processamento do corpus e a
organização dos dados até a análise propriamente dita. É apresentada aqui uma visão
geral deste software, cuja ferramenta WordList foi usada nesta pesquisa para a contagem
de types e tokens. O programa possui mais duas ferramentas além da que foi
mencionada: Concord e KeyWords e quatro utilitários, que são o File Manager, o
Splitter, o Text Converter e o Viewer & Aligner.
A partir da ferramenta WordList é possível gerar listas de palavras que contêm
todas as palavras do(s) arquivo(s) selecionado(s). Elas podem ser elencadas em grupo
com suas frequências absolutas e percentuais. A ferramenta também permite comparar
listas de palavras. Por meio de listas de consistência geradas é possível ver em quantas
listas cada palavra aparece. Esta ferramenta foi usada para saber o número de types e
24 No original, em inglês: singular common noun, base form of a lexical verb e general adjective.
52
tokens do Corpus of English Research Articles (CERA), que é o corpus de estudo desta
pesquisa.
Com a ferramenta Concord é possível gerar concordâncias, ou listagens de
uma palavra específica (o nódulo) juntamente com a parte do texto onde ela ocorreu. A
ferramenta também gera listas de colocados, que são as palavras que ocorreram perto do
nódulo (node ou search word).
A ferramenta KeyWords extrai de uma lista palavras cujas frequências são
estatisticamente maiores ou menores do que as frequências das mesmas palavras em um
corpus de referência. Ela também calcula as palavras-chave, que são chave em vários
textos.
De acordo com Berber Sardinha, as funções dos utilitários do programa são:
File Manager: abre uma janela para gerenciamento de arquivos.
Splitter: permite dividir um arquivo em vários arquivos menores.
Text Converter: oferece várias funções para o pré-processamento de textos, como a substituição de palavras, partes de palavras ou partes de textos, simultaneamente num conjunto de arquivos, a renomeação em massa de arquivos, e a mudança de pasta (diretório) de arquivos que apresentem certas características.
Viewer & Aligner: fornece meios para a visualização de textos e para o alinhamento (combinação) de dois textos num só.
(BERBER SARDINHA, 1999, p. 9-10)
Existem outros etiquetadores além do Constraint Grammar System, CLAWS e
USAS, mencionados por McEnerie & Hardie (2012). Berber Sardinha (2004b) apresenta
mais um leque de opções, como o Bill Tagger, Xerox Tagger, WinBrill, etc., além de
orientações de como usá-los. No entanto, para esta pesquisa o etiquetador usado foi o
Biber Tagger (BIBER, 1988). Ademais, apesar das críticas mencionadas em McEnery
& Gabrielatos (2006), a etiquetagem é inerente a uma pesquisa linguística com Análise
Multidimensional.
O programa etiquetador criado por Biber (1988, p. 214) opera em duas etapas.
Primeiro, ele identifica a categoria gramatical de cada palavra. Segundo, ele resolve
ambiguidades. Ao discorrer sobre o Biber Tagger, o autor relata que muitas das palavras
53
mais comuns da língua inglesa são ambíguas no que tange a sua categoria gramatical.
Assim, em casos de o dicionário listar mais de uma categoria gramatical possível para
uma palavra, o Biber Tagger resolve a ambiguidade. Ele menciona, por exemplo, que
palavras como account podem ser verbos ou substantivos e palavras como absent
podem ser adjetivos ou verbos. Ele acrescenta que a palavra that pode funcionar como
demonstrativo, pronome demonstrativo, pronome relativo, complementador ou como
conjunção subordinativa. Biber (1988) usou a gramática de Quirk et al. (1985) como
referência e desenvolveu algoritmos para desambiguar ocorrências como essas. Com o
uso dessa abordagem é possível ter mais precisão.
Biber (1988, p. 215) resume o funcionamento do Biber Tagger como:
Primeiro o programa identifica palavras que pertencem a qualquer categoria
gramatical fechada, como do, have, be, modals, subject pronouns, prepositions WH
pronouns, WH words, nominalizations, demonstratives, articles, sinais de pontuação
etc.25
No caso de uma palavra não corresponder a uma das categorias fechadas, o
programa tenta localizar a palavra no dicionário. Se houver somente uma entrada no
dicionário para aquele item lexical, ele será etiquetado. Se houver múltiplas entradas, o
item precisa ser desambiguado. Se o item lexical não for encontrado no dicionário e se
ele tiver mais de seis letras, há uma última checagem: se a palavra terminar em ing, ela
é etiquetada como particípio presente.
Há inúmeros estudos de Linguística de Corpus que são relevantes para esta
pesquisa, dos quais mencionamos: Berber Sardinha (1999b; 2004a; 2004b); Biber
(1988; 2009); Biber et al. (2002a,b); Conrad (2004); Cortes (2002); Hunston (2002);
Teixeira (2010), que, com subsídios da Linguística de Corpus e da Terminologia de
base linguístico-comunicacional, elaborou um glossário monolíngue, em português,
contendo 104 fichas com termos de (onco)mastologia. Um em especial, Perrotti-Garcia
25 Biber apresenta uma extensa lista de categorias gramaticais fechadas. No entanto, por uma questão de espaço, somente algumas foram listadas. Ademais, optei por não traduzi-las por se tratar de nomenclatura gramatical básica da língua inglesa.
54
(2009), se destaca pelo fato de discutir a escrita de brasileiros em inglês. Nele a autora
pesquisou as características da língua inglesa utilizada por autores brasileiros que
publicam em inglês em revistas médicas. Para isso, Perrotti-Garcia usou dois corpora
comparáveis, com cerca de cinco milhões de tokens (número total de palavras) cada: o
corpus BRAZIL, composto por artigos de revistas médicas brasileiras e o corpus
ABROAD, com artigos publicados em revistas médicas da Europa e dos Estados
Unidos, contendo inglês britânico ou norte-americano. A autora usou ferramentas do
programa WordSmith (WordList, Clusters e o Concordanciador Concord) e também
uma rotina de computador que foi desenvolvida em linguagem Shell. O estudo de
Perrotti-Garcia tinha como objetivo específico determinar de que maneira os autores
brasileiros usaram o verbo “submit” e quais estruturas os autores estrangeiros usaram
para expressar o mesmo significado. Ela concluiu que os médicos brasileiros usaram o
verbo “submit” para expressar a ideia de “submeter”, enquanto os médicos estrangeiros
usaram expressões como undergo, receive, take, have, initiate, start e assign, dentre
outras, em diferentes tempos e modos. Segundo a autora, houve também o uso de
adjetivação e de preposições.
2.2.6 Padronização
Ao nos forçar a considerar palavras em contexto, concordâncias de corpus nos
dão consciência de o quanto os significados das palavras derivam do contexto – até
mesmo ao ponto de questionarmos se as palavras têm significados independentes. Esta
interdependência de significado e contexto fica mais clara no caso de palavras
empobrecidas semanticamente, como é o caso do tão discutido take (MOON, 2008, p.
202).
Cabe aqui ressaltar que os conceitos apresentados nesta seção não são,
necessariamente, usados nesta pesquisa, para fins de análise e discussão dos resultados.
Eles são apresentados devido à relevância que têm para a área da Linguística de Corpus.
Para o linguista de corpus, o léxico é padronizado. Isto é, há uma regularidade
55
nos tipos de associação que as palavras de uma língua mantêm e que contribuem para o
seu significado. A padronização, que é evidenciada pela recorrência (repetição
sistemática), conforme explica Berber Sardinha (2004b), “é uma regularidade expressa
na recorrência sistemática de unidades coocorrentes de várias ordens (lexical,
gramática, sintática, etc.)” (p. 40).
Sinclair (2004) afirma que o ponto de partida para descrever o significado em
uma língua é a palavra. E acrescenta que, apesar de serem as unidades da linguagem, as
palavras tendem a ser ambíguas. Fala também de como o significado de “phrasal verbs”
pode não ser previsível. Expressões idiomáticas, jargões e clichês são exemplos de
padrões reconhecidos, nos quais a evidência das palavras é / está comprometida.
Sinclair afirma que os corpora computadorizados permitem usar métodos numéricos
para esclarecer regularidades de restrições lexicais.
Esses padrões apresentam regularidade e variação sistemática. Assim, suas
frequências podem ser comparadas em corpora diferentes e há correlação com diversas
variedades textuais. Segundo Berber Sardinha (2004b), são três as formas de
padronização observadas: a colocação, a coligação e a prosódia semântica, que são
descritas a seguir.
2.2.6.1 Colocação
O fenômeno da colocação, que foi introduzido por Firth, é o mais estudado.
Sua descoberta resulta da aplicação de corpora em estudos de língua que possibilitaram
ver o crescente número de evidências de associações entre palavras que ocorrem
próximas umas das outras nos textos. Segundo Berber Sardinha (2014), a colocação é
uma das contribuições de mais longa data da Linguística de Corpus para o nosso
entendimento da língua em uso.
Hoey (2009) discute, entre outras questões, a relação entre as palavras. O
autor diz que, na abordagem tradicional do estudo do significado das palavras, anterior
ao impacto da Linguística de Corpus, a maioria das palavras é vista como polissêmica.
Isto é, elas têm vários significados. O autor ressalta que um princípio-chave na
descrição do significado da palavra, conforme foi articulado por Lyons em 1977, é que
56
esse deriva da relação que ela forma com outras palavras em seu campo semântico.
Hoey (2009) defende que percepções da Linguística de Corpus podem ser
usadas para analisar sentidos de palavras. Por conseguinte, ele esclarece que as relações
não ocorrem entre palavras apenas, mas entre o que ele chama de escolhas “semi-
preconstruídas” ou “chunks”. Ademais, o autor diz que Sinclair, proponente da
expressão “item lexical”, para ser usada ao invés de “palavras”, descreveu os
“ambientes colocacionais”, o que facilitou a identificação de usos polissêmicos das
palavras.
Uma definição para colocação bastante clara apresentada aqui é proposta por
Hoey:
Colocação pode ser identificada como a associação entre duas palavras em uma língua que é feita conscientemente ou subconscientemente pelos usuários da língua; ela pode ser identificada em corpora como uma ocorrência recorrente de duas palavras juntas em um nível de frequência não contabilizado pela frequência estatística das palavras separadas no conjunto da língua como um todo.26
(HOEY, 2009, p. 977, minha tradução)
Berber Sardinha (2004b) apresenta exemplos de colocação em termos de
associação entre itens lexicais ou entre léxico e campos semânticos, que são repetidos
aqui:
Em termos lexicais, stark associa-se a contrast; sheer, a scale e number.
Em termos de campos semânticos, jam relaciona-se com itens do campo de
alimentos: tarts, butty e donuts.
2.2.6.2 Coligação
Além da definição de colocação (relação entre palavras), Firth também
apresentou a noção de coligação. Firth (1968) explica que a relação entre itens
gramaticais de categorias diferentes é chamada coligação. Firth declara:
26 “Collocation can be defined as the association between two words in a language that is made consciously or subconsciously by users of the language; it can be identified in corpora as the recurrent occurrence of two words together at a level of frequency not accounted for by the separate statistical frequency of the words in the language taken as a whole.”
57
As estruturas das palavras, frases ou outras ‘partes’ e das orações são especificadas em termos de elementos interrelacionados atribuídos ao fonológico, gramatical e outras categorias determinadas mutualmente. Esses elementos estão em relação sintagmática uns com os outros e se essas relações forem gramaticais, diz-se que constituem uma coligação.27
(FIRTH, 1968, p. 111, tradução minha.)
Firth exemplifica sua declaração, acrescentando que, em inglês, o pronome
masculino da terceira pessoa pode estar em coligação com um verbo na terceira pessoa
no singular e com um pronome objetivo feminino na terceira pessoa do singular.
A noção de coligação proposta por Firth em 1968 sofreu alterações, conforme
definem Berber Sardinha (2004b) e McEnery. A explicação de Berber Sardinha é
sucinta e didática. O autor diz que coligação é “a associação entre itens lexicais e
gramaticais” (BERBER SARDINHA, 2004b, p. 40). O autor apresenta como exemplo o
verbo start, que é mais comum com sintagmas nominais e orações com a terminação –
ing; enquanto o verbo begin é mais comum com um complemento to. De acordo com
McEnery & Gabrielatos (2006, p.11-12)28, atualmente a coligação é vista com um
sentido menos restrito do que quando foi definida por Firth e ela pode incluir a
coocorrência de léxico e categorias gramaticais, e em alguns casos ela é vista apenas
como coocorrência de categorias gramaticais.
2.2.6.3 Prosódia semântica
O terceiro conceito de formalização da padronização é a prosódia semântica.
Ela é definida por Berber Sardinha como “a associação recorrente entre itens lexicais e
um campo semântico, indicando uma certa conotação (positiva, negativa ou neutra) ou
instância avaliativa” (Berber Sardinha, 2004, p. 236).
27 The structures of words, phrases or other 'pieces' and of sentences are stated in terms of interrelated elements assigned to phonological, grammatical and other mutually determined categories. These elements are in syntagmatic relation with one another and if grammatical, are sated to constitute a colligation.
28 Colligation is now understood in a somehow less restricted sense than that defined by Firth (1968: 181), and may include de co-occurrence of lexis and grammatical categories, and in some cases it is understood as only the latter.
58
2.2.6.4 Princípio idiomático e princípio da livre escolha
O princípio idiomático foi proposto por John Sinclair a partir de sua
experiência na direção do projeto de execução da maior análise lexicográfica da língua
inglesa até então, o projeto Cobuild. Segundo Sinclair (1991; 2004), todo texto, escrito
ou oral, origina-se da combinação de dois conceitos: o princípio da livre escolha (open-
choice principle) e o princípio idiomático (idiom principle). Conforme explica Sinclair
(1991, p. 110)29:
um usuário de uma língua tem ao seu dispor um grande número de frases semi-preconstruídas que constituem escolhas únicas, embora elas pareçam analisáveis em termos de segmentos. Até certo ponto isso pode refletir a recorrência de situações semelhantes nas questões humanas; isso pode ilustrar uma tendência natural à economia do esforço; ou pode ser motivado em parte pelas exigências da conversa em tempo real. Embora aconteça, isso tem sido relegado a uma posição inferior por muitos na linguística atual, pois não se encaixa no modelo de livre escolha.
Sinclair (2004) esclarece que alguns traços do padrão da língua tendem a
favorecer um ou outro princípio. Assim, a tendência terminológica (terminological
tendency), que é tendência de uma palavra ter um significado fixo em referência ao
mundo, está propensa a acontecer com o princípio da livre escolha. Por outro lado, a
tendência fraseológica (phraseological tendency), que é quando as palavras se
combinam resultando em um significado, acontece com o princípio idiomático.
2.3. ANÁLISE MULTIDIMENSIONAL (AMD)
Esta é uma pesquisa de Linguística Corpus que investiga os padrões da
linguagem tal como ela é usada registro acadêmico. O uso da Análise Multidimensional
(BIBER, 1988; BERBER SARDINHA, 2000a, 2010; BIBER & CONRAD, 2009) se
torna viável para esta pesquisa, pois ela possibilita a análise das características
linguísticas a partir de um corpus que foi etiquetado. Assim, a Análise
29 a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices, even though they might appear to be analyzable into segments. So some extent this may reflect the recurrence of similar situations in human affairs; it may illustrate a natural tendency to economy of effort; or it may be motivated in part by the exigencies of real-time conversation. However it arises, it has been relegated to an inferior position in most current linguistics, because it does not fit the open-choice model.
59
Multidimensional possibilitou a comparação dos padrões nas diferentes áreas de estudo
e origens dos autores que compõem o corpus. A Análise Multidimensional é uma
metodologia que possibilita a identificação de coocorrências de padrões linguísticos e
funcionais que caracterizam uma língua ou um conjunto de tipos de textos de maneira
abrangente (BIBER, 1988).
2.3.1 Definições
Na abordagem da Análise Multidimensional, alguns conceitos-chave são
usados, que são apresentados nessa seção para que a abordagem seja mais bem
compreendida. Os conceitos apresentados nesta seção têm como base Berber Sardinha
(2004b) e Biber (1988; 1995).
2.3.1.1 Traços
Na Abordagem Multidimensional, traços são elementos linguísticos
pertinentes à análise, como número de infinitivos, gerúndios, substantivos, orações
subordinadas, que se quantificam (Berber Sardinha, 2004a). Segundo o mesmo autor, os
traços a serem levados em conta na Análise Multidimensional devem ser escolhidos
através de pesquisa na literatura disponível. Esses traços devem representar um aspecto
funcional no nível do texto. Para este estudo de análise de artigos acadêmicos, os traços
escolhidos são 67, propostos em Biber (1988), após pesquisa sobre diferenças escritas /
faladas em textos, que serão apresentados mais adiante.
2.3.1.2 Características
As características analíticas podem ser de dois tipos: as linguísticas e as não-
linguísticas ou situacionais. Para Biber (1995) e Berber Sardinha (2004b), as
características linguísticas são de ordem lexical, morfológica e sintática. As não-
linguísticas são interpretadas em termos funcionais, como seu propósito, circunstância
de produção, etc. e também outras características situacionais partilhadas pelos textos
em cada tipo de texto.
60
2.3.1.3 Registro e gênero
Na Análise Multidimensional, o termo registro30 (BIBER, 2009) é usado para
definir uma variedade linguística definida por aspectos situacionais, que inclui o
propósito do falante, sua relação com o ouvinte, e o contexto de produção. Segundo o
autor, embora diferenças entre registros sejam definidas em termos não-linguísticos,
existem diferenças linguísticas muito importantes entre registros. Ele acrescenta que,
em muitos casos, em uma cultura, os registros são denominados variedades, como
cartas, sermões e debates. Podem ser definidos, Biber (2009) acrescenta, em qualquer
nível de generalidade. Assim, a prosa acadêmica pode ser vista como muito geral,
enquanto que seções de metodologia em artigos de psicologia são um registro bem mais
específico.
A visão de Biber (2009) é corroborada por Berber Sardinha (2013), para quem
o termo registro tem abrangência ampla, podendo significar um gênero específico ou
mais geral. São exemplos de específico artigo acadêmico de física e carta de amor.
Gênero geral, no entanto, pode ser exemplificado por artigo, conversação, documento
oficial e humor, entre outros.
2.3.1.4 Tipos de texto
Ao explicar tipos de texto, Biber (1995) o relaciona com outro termo:
registro, que foi definida acima. Segundo o autor, tipos de texto são agrupamentos de
textos definidos estritamente em termos linguísticos. Ademais, ele acrescenta que os
“tipos de texto são definidos de tal modo que os textos dentro de cada tipo têm o
máximo de semelhança em suas características linguísticas, independentemente de suas
características situacionais” (BIBER, 1995, p. 320). Ele acrescenta que tipos de textos e
registros têm uma relação de complementação no espaço textual de uma língua. Para
Biber, tipos de texto e de registros são semelhantes, pois os dois conceitos podem ser
descritos em relação às suas características linguísticas e situacional / funcional.
30 In the present book, register is used as a cover term for any variety associated with particular situational contexts or purposes.
61
Todavia, os registros são definidos em termos de características situacionais /
funcionais. Os tipos de texto, por outro lado, são definidos linguisticamente. Biber
(1995) acrescenta que o agrupamento de textos que são semelhantes em termos
linguísticos, ou seja, são tipos de texto, pode ser identificado de forma empírica por
meio de um procedimento estatístico denominado cluster analysis. Os clusters
resultantes são interpretados como tipos de texto, levando em consideração as
características linguísticas, situacionais e funcionais dos textos agrupados em cada
cluster.
2.3.1.5 Fator
Biber (1995) define fator como um conjunto de traços que coocorrem
significativamente em termos estatísticos. Eles são extraídos por meio da análise
fatorial, procedimento estatístico em que um grande número de variáveis, os traços
linguísticos, são reduzidas a um pequeno conjunto de variáveis subjacentes derivadas.
De acordo com Berber Sardinha (2004a, p. 304), “Um fator é um grupo de variáveis que
coocorrem significativamente do ponto de vista estatístico.” Ainda, segundo Berber
Sardinha, apesar de a análise fatorial (explicada adiante) ser usada em estudos de AMD,
“não há métodos estatísticos comprovadamente eficazes para a identificação do número
exato de fatores subjacentes a um conjunto de dados” (2004b, p. 304).
2.3.1.6 Dimensões
Segundo Biber (1995, p. 83), dimensões são por definição os parâmetros
linguísticos de variação importantes do ponto de vista funcional representados
estruturalmente em cada língua. Essas dimensões identificam as estruturas linguísticas
comparáveis entre línguas, isto é, como elas se assemelham ou diferem entre si. Ainda
segundo Berber Sardinha, dimensão “é o estatuto que um fator assume assim que é
interpretado do ponto de vista de sua função comunicativa” (2004b, p. 304). Segundo o
mesmo autor, por meio da dimensão é possível visualizar características em comum
compartilhadas. Biber (1995) esclarece que as dimensões usadas na AMD são
parâmetros de variação contínuos e cada dimensão possibilita distinguir entre um leque
62
contínuo de textos ou registros.
As dimensões de variação têm conteúdo linguístico e funcional (Biber, 1995).
No âmbito linguístico, o conteúdo refere-se a um conjunto de traços linguísticos, como
nominalizações, sintagmas preposicionais, adjetivos distributivos, etc., que coocorrem
com uma alta frequência nos textos. Ele acrescenta que, ao assumirmos que a
coocorrência reflete uma função partilhada, esses padrões de coocorrência são
interpretados em termos das funções situacionais, sociais e cognitivas mais amplamente
compartilhadas pelos traços linguísticos. Isto é, traços linguísticos coocorrem em textos
porque eles refletem funções compartilhadas (BIBER, 1995, p. 30, minha tradução)31.
2.3.2 Análise Fatorial
Biber (1995) explica que, na Análise Multidimensional, as dimensões
representam conjuntos de traços linguísticos que coocorrem. A identificação desses
padrões de coocorrências é feita através de uma técnica estatística chamada análise
fatorial. Na análise fatorial, uma grande quantidade de variáveis originais é reduzida a
um conjunto de variáveis subjacentes chamadas fatores. Por meio da análise fatorial é
possível identificar grupos de traços linguísticos que coocorrem com bastante
frequência nos textos. Esses grupos são interpretados como dimensões textuais. De
acordo com o autor, o uso da análise fatorial para textos requer dois pressupostos, a
saber: são relativamente poucos os parâmetros funcionais subjacentes de variação
linguística em inglês; a coocorrência frequente de traços linguísticos em textos indica a
existência de uma função comunicativa subjacente que aqueles traços compartilham.
2.3.2.1 Diagrama de sedimentação
O diagrama de sedimentação é gerado a partir das comunalidades (que é o
quanto cada variável se relaciona com as outras). Ele possibilita determinar o número de
31 No original: Based on the assumption that co-occurrence reflects shared function, these co-occurrence patterns are interpreted in terms of the situational, social, and cognitive functions most widely shared by the linguistic features. That is, linguistic features co-occur in texts because they reflect shared functions.
63
fatores através da representação gráfica dos valores Eigen.
2.3.2.2 Anova32
De acordo com Biber (1995), ANOVA é um procedimento usado para testar
se há diferenças estatísticas significantes entre registros no que diz respeito às
dimensões.
2.3.2.3 R quadrado (ou R²)
O valor de R² é uma medida importante. O valor de R² mede o percentual de
variância entre os escores das dimensões que podem ser previstos conhecendo as
categorias de registros. Segundo (SOUZA, 2012), “sob a ótica da AMD, isso quer dizer
que o valor de R² ajustado explica quanto da variação de um determinado fator é
dependente do fator fixo considerado” (SOUZA, 2012, p. 173).
2.3.2.4 Escore
De acordo com Berber Sardinha (2000a), escore é a soma padronizada relativa
às quantidades das variáveis existentes em cada fator. Essa soma é a dos valores
padronizados, que têm como base a média e o desvio padrão, para que textos de
tamanhos diferentes não tenham escores influenciados pelo seu tamanho. É o valor
computado pela “Soma de frequência de cada um dos traços em um fator, para cada um
dos textos”33 (BIBER, 1988, p. 121).
32Dois conceitos: A função Análise de Variância de um fator realiza uma análise de variância simples, que somente investiga a hipótese de que as médias de várias amostras são iguais. Geralmente a análise é um processo estatístico de que se utiliza para determinar se as médias de duas mostras ou mais vêm da mesma população. Disponível no endereço www.laits.utexas.edu/orkelm/excelpor/anova1por.htm. The Analysis Of Variance, popularly known as the ANOVA, can be used in cases where there are more than two groups. It is used to compare the means of more than two samples. Disponíve no endereço https://explorable.com/anova. (A Análise de Variação, popularmente conhecida por ANOVA, pode ser usada em casos onde há mais de dois groups. Ela é usada para comparar a média de mais de duas amostras.) .
33 “…factor scores are computed by summing the frequency of each of the features on a factor, for each text;”
64
2.3.2.5 Variáveis
Variáveis são grupos que coocorrem de características e categorias linguísticas
gerados por meio da análise fatorial.
2.3.3 Desenvolvimento e premissas da AMD
Em 1988, através do uso de um procedimento estatístico multivariado para
descrever padrões de coocorrência em textos, Biber redefiniu um conjunto de
características de discurso falado / escrito. Por conseguinte, ele desenvolveu a Análise
Multidimensional, um modelo de pesquisa baseado em corpus, que pode ser aplicado a
contextos mais especializados. Segundo Friginal (2013), muito dos fundamentos da
AMD vieram da pesquisa de doutoramento de Biber e do trabalho que fez em parceria
com Edward Finegan na University of Southern California.
Segundo Biber, até 1988, os estudos de registros eram feitos de forma
comparativa. Biber (1988) diz que, tradicionalmente, a maioria das análises era feita em
dois passos. No primeiro, é feita uma distinção funcional ou situacional dos textos. O
segundo passo consiste em identificar os traços linguísticos associados àquela distinção.
No entanto, eram feitos de maneira limitada. Para o autor, tais estudos comparavam um
leque restrito de registros de variação em um único parâmetro situacional. A abordagem
da Análise Multidimensional proposta por Biber foi desenvolvida para ampliar esse
leque. Segundo Biber (1988), por meio da AMD, é possível descrever as relações entre
todos os registros em uma língua, no que tangem aos múltiplos parâmetros linguísticos
de variação.34
Biber (1988) esclarece que a abordagem da Análise Multidimensional tem
algumas características de destaque, quais sejam:
1. É baseada em corpus e depende da análise de um grande número de
textos naturais.
2. Depende de análises automáticas de traços linguísticos nos textos
34 MD analyses describe the relationships among the full range of registers in a language, with respect to multiple linguistic parameters of variation.
65
que requer o uso de computador. Essa característica permite a análise equitativa
de muitos traços linguísticos em muitos textos e variedades textuais.
3. O objetivo dessa abordagem é a análise linguística de textos,
gêneros, tipos de textos, estilos ou registros, ao invés da análise de construções
linguísticas individuais.
4. A abordagem presume a importância das perspectivas variacionista e
comparativa. Isso significa dizer que a abordagem é baseada na suposição de que
tipos diferentes de texto diferem linguisticamente e funcionalmente, de modo que
a análise de uma ou duas variedades de texto quaisquer não é adequada para
conclusões na esfera do discurso (por exemplo, a fala e a escrita em inglês).
5. A abordagem é explicitamente multidimensional. Isto é, Presume-se
a operação de muitos parâmetros de variação na esfera do discurso.
6. É quantitativa. As análises são baseadas na contagem de frequências
dos traços linguísticos e técnicas estatísticas multivariadas para a análise das
relações dos traços linguísticos entre os textos.
7. Ela sintetiza as abordagens quantitativa e funcional. Isto é, as
análises estatísticas são interpretadas em termos funcionais para determinar as
funções comunicativas subjacentes, associadas ao padrão distributivo. A
abordagem é baseada na suposição de que padrões estatísticos de coocorrência
são reflexos de funções comunicativas compartilhadas.
8. Ela sintetiza as abordagens microscópica e macroscópica. Isto é,
investigações microscópicas dos parâmetros gerais de variação linguística, que
são baseadas na análise da distribuição de muitos traços linguísticos em muitos
textos e gêneros, são complementadas por análises detalhadas de traços
específicos em textos específicos.
Em Variation Across Speech and Writing, em que ele descreve o uso da AMD
em detalhe, Biber (1988) explica que parâmetros situacionais ou funcionais, tais como
formalidade / informalidade, interatividade / não-interatividade, literário / coloquial e
restrito / elaborado sempre foram usados para a descrição de um texto. Ele concorda que
66
esses parâmetros podem ser usados como dimensões para descrever um texto. No
entanto, o autor defende que, para que um texto seja descrito de maneira mais apurada,
ele precisa ser descrito dentro de um continuum. Assim, um texto pode ser considerado,
por exemplo, em termos de formalidade, como mais ou menos formal. Isto é, o
parâmetro da formalidade deixa de ter os dois polos – formal / informal – e passa a ser
considerado uma dimensão contínua de variação.
De acordo com Souza, na Análise Multidimensional
...os dados de análise são as frequências dos padrões linguísticos determinados, os quais oferecem a caracterização quantitativa de um texto de modo que ele possa ser comparado com outros. Essas frequências são usadas para identificar a coocorrência de padrões em textos que levam à determinação de uma dimensão, que é caracterizada por uma variável de polaridade positiva ou negativa.
(SOUZA, 2012, p. 105)
Ainda, segundo a autora, as polaridades são medidas em escores, que são
valores que resultam da somatória das frequências de cada característica em um fator
para cada um dos textos.
Segundo Biber (1988), na abordagem tradicional, o agrupamento de traços é
identificado em termos das funções que eles compartilham; no entanto, eles não
representam, necessariamente, dimensões linguísticas. Com a AMD, Biber propõe o
oposto. Ele sugere que técnicas quantitativas sejam usadas para a identificação de
grupos de traços que realmente coocorrem nos textos. Posteriormente, esses
agrupamentos são interpretados em termos funcionais. Assim, é dada prioridade à
dimensão linguística, em detrimento da vertente funcional. A abordagem de Biber parte
da premissa de que a forte coocorrência de padrões linguísticos marca dimensões
funcionais subjacentes. Isso porque, para a AMD, traços não ocorrem de maneira
aleatória nos textos. Segundo Biber (1988)35,
Traços não coocorrem aleatoriamente nos textos. Se alguns traços coocorrem
35 Features do not randomly co-occur in texts. If certain features consistently co-occur, then it is reasonable to look for an underlying functional influence that encourages their use. In this way, the functions are not posited on an a priori basis; rather they are required to account for the observed co-occurrence patterns among linguistic features.
67
sistematicamente, então é razoável procurar uma influência funcional subjacente que influencie o seu uso. Dessa forma, as funções não são vistas a priori, mas como responsáveis pelos padrões de coocorrência observados entre os traços linguísticos.
(BIBER, 1988, p. 13)
Além da situação de uso do texto ou de sua função (noção situacional ou
funcional), a dimensão também pode ter uma perspectiva linguística, conforme explica
Biber (1988)36:
Da mesma forma que textos podem ser descritos e comparados em termos de sua caracterização
situacional, existem dimensões que comparam textos em termos de sua caracterização linguística, por exemplo,
nominal versus verbal, ou estruturalmente complexo versus estruturalmente simples.
(BIBER, 1988, p.12)
Embora tenha caráter essencialmente quantitativo e computacional (BERBER
SARDINHA, 2000a), a Análise Multidimensional é uma metodologia que permite fazer
análises tanto quantitativas quanto qualitativas. As primeiras são realizadas por meio de
um procedimento estatístico, a análise fatorial. As qualitativas, no entanto, emergem da
interpretação dos conjuntos de variáveis resultantes da aplicação das soluções
estatísticas. As técnicas estatísticas servem para investigar a distribuição qualitativa de
traços linguísticos entre textos e variedades de texto e também para analisar a
coocorrência linguística por meio da identificação de dimensões subjacentes de variação
através de uma análise fatorial.
Essas dimensões têm interpretação de conteúdo linguístico e funcional /
situacional, o que possibilita fazer uma descrição abrangente dos registros de variação
linguística e do uso da língua (BIBER & CONRAD, 2009). Elas permitem descrever
como, por meio das características linguísticas, e quanto, a partir de um valor ou escore,
um registro se aproxima ou distancia de outro em termos de semelhança.
O conteúdo linguístico é um conjunto de traços, como substantivos, adjetivos
atributivos e locuções prepositivas, que coocorrem com uma frequência variável
36 In the same way that that texts can be describe can compared in terms of their situational characterization, there are dimensions that compare texts in terms of their linguistic characterization, e.g., nominal versus verbal, or structurally complex versus structurally simple.
68
marcada nos textos. A coocorrência desses traços gera as dimensões, que são as
interpretações de caráter funcional dos traços linguísticos, ou seja, para quais funções a
língua serve.
Em seu estudo, Biber (1988) identificou cinco dimensões principais de
variação em um corpus geral de registros falados e escritos do inglês britânico. Para
isso, Biber criou um corpus a partir de textos compilados de dois corpora. Os textos
escritos foram extraídos do Corpus Lancaster-Oslo-Bergen (LOB) e as transcrições de
eventos falados foram extraídas do Corpus London-Lund, representativos de 23
categorias principais de registro, como prosa acadêmica, ficção, reportagem impressa,
cartas, entrevistas, discursos públicos, entre outros. A partir de uma análise da literatura,
foram selecionadas 67 características linguísticas, de cunho lexical e gramatical. Essas
características linguísticas foram divididas em 16 categorias, quais sejam: 1)
marcadores de tempos e aspectos verbais (presente, passado e perfectivos); 2) advérbios
de lugar e de tempo; 3) pronomes; 4) interrogações; 5) formas nominais; 6) passivas; 7)
verbos de estado (do como principal e there indicando existência); 8) características de
subordinação (complementos, infinitivos, formas de particípio, pronomes relativos,
orações subordinadas adjetivas e adverbiais); 9) sintagmas preposicionais, adjetivos
(atributivos e predicativos) e advérbios; 10) especificidade lexical (razão forma/item e
tamanho das palavras); 12 modais (de possibilidade, de necessidade e de predição); 13)
classes especiais de verbo (dicendi, de cognição e de persuasão); 14) formas reduzidas
(contrações); 15) coordenação; e 16) negação sintética e analítica.
Essas características foram usadas para a codificação manual e automática do
seu corpus, que continha 960 mil palavras distribuídas nos 481 textos. Ao final da
codificação, na qual etiquetas lexicais e gramaticais (etiquetagem morfossintática)
foram atribuídas ao corpus, o pesquisador deu prosseguimento à análise. A tabela
abaixo mostra a composição do corpus de estudo de Biber (1988).
69
REGISTRO NÚMERO DE TEXTOS
NÚMERO APROXIMADO DE
OCORRÊNCIAS
Linguagem escrita - LOB
Biografia 14 30.000
Cultura popular 14 30.000
Documento oficial 14 28.000
Imprensa – editorial 27 54.000
Imprensa – reportagem 44 88.000
Imprensa – resumo 17 34.000
Ficção científica 6 12.000
Ficção aventura 13 26.000
Ficção de mistério 13 26.000
Ficção geral 29 58.000
Ficção romântica 13 26.000
Hobbies 14 30.000
Humor 9 18.000
Prosa acadêmica 80 160.000
Religião 17 34.000
Carta pessoal 6 6.000
Carta profissional 10 10.000
Linguagem oral – LLC Corpus
Conversa face a face 44 115.000
Conversa telefônica 27 32.000
Discurso espontâneo 16 26.000
Discurso preparado 14 31.000
Entrevista 22 48.000
Transmissões 18 38.000
Total 481 960.000
TABELA 1: CORPUS USADO POR BIBER (1988). FONTE: ADAPTADO DE SOUZA, 2012.
70
A análise é dividida em duas partes: a primeira, de cunho quantitativo, e a
segunda, qualitativo. Para a primeira etapa, Biber usou um procedimento estatístico – a
análise fatorial, que utiliza a contagem dos traços linguísticos identificados. Cada traço
é referente a uma variável, para a identificação dos fatores. Segundo Biber, cada fator
representa uma área de grande distribuição de variação nos dados, um grupo de traços
linguísticos que coocorrem com grande frequência.37
Biber usou o procedimento estatístico da análise fatorial para identificar
grupos de traços linguísticos associados com cada dimensão. Ele definiu seis fatores,
que resultaram na identificação das seis dimensões abaixo:
1. Produção com interação versus informacional;
2. Preocupações narrativas versus não-narrativas;
3. Referências explícitas versus dependentes do contexto;
4. Expressão explícita de persuasão versus não-explícita;
5. Informação abstrata versus não-abstrata;
6. Elaboração informacional on-line.38
Vale ressaltar que um sétimo fator foi identificado. No entanto, quando do
processo de interpretação, esse fator foi descartado, pois não foi possível uma
interpretação conclusiva a seu respeito. Dessa forma, restaram seis fatores, cujas
interpretações resultaram nas dimensões acima.
A partir de novos estudos com o corpus usado no estudo de 1988, Biber
(2009) desconsiderou a sexta dimensão. Adicionalmente, ele alterou os nomes das
dimensões e também inverteu a polaridade da terceira dimensão. As cinco dimensões de
Biber (2009) com os nomes revistos, são elencadas abaixo e descritas no item seguinte,
com alguns traços linguísticos que as caracterizam.
37 “That is, each factor represents an area of high shared variance in the data, a grouping of linguistic features that co-occur with a high frequency.” (BIBER, 1988, p. 79 , tradução minha).
38 “(1) Informational versus Involved Production, (2) Narrative versus Non-Narrative Concerns, (3) Explicit versus Situation-Dependent Reference, (4) Overt Expression of Persuasion, (5) Abstract [versus] Non-Abstract Information, (6) On-line Informational Elaboration” (BIBER, 1988, p. 115).
71
Dimensão Nome
1 Produção com envolvimento versus informacional
2 Discurso narrativo versus não-narrativo
3 Referência dependente da situação versus elaborada
4 Argumentação explícita
5 Estilo abstrato versus não-abstrato
QUADRO 4: DIMENSÕES DE BIBER (2009) REVISADAS. FONTE: ADAPTADA DE BERBER SARDINHA, 2013
72
2.3.4 Dimensões de Biber e seus traços
Dimensão 1: Produção com interação versus informacional
Na dimensão 1, a variação ocorre num continuum que compreende diferenças
entre a linguagem falada e a linguagem escrita. O polo positivo é marcado por conteúdo
com interação, envolvimento e posicionamento. No outro extremo, o polo negativo,
tem-se o lado altamente elaborado e editado, com precisão de palavras, marcado por
registros informacionais, como documentos oficiais e de prosa acadêmica, com alta
densidade informacional. Biber afirma que esta dimensão é muito forte e representa um
parâmetro fundamental de variação entre textos em inglês. Esta dimensão é
caracterizada linguisticamente pela presença dos traços mostrados no Quadro 5, entre
outros:
Polo positivo
(produção com interação)
Polo negativo
(informacional)
- verbos privados
- apagamento do THAT
- contrações
- verbos no presente
- pronomes de 1ª e 2ª pessoas
- pronomes demonstrativos
- amplificadores
- perguntas com WH
- modais de possibilidade
- pronomes indefinidos
- BE como verbo principal
- preposição em final de frase
- orações adjetivas
- substantivos
- preposições
- adjetivos atributivos
- apagamento de pronome relativo WH
e verbo de ligação em construções
do particípio presente e também do
passado.
- voz passiva sem agente
- palavras longas
QUADRO 5: TRAÇOS DA DIMENSÃO 1 (FONTE: ADAPTADO DE BIBER, 1988)
73
Dimensão 2: Preocupações narrativas versus não-‐narrativas
A dimensão 2 distingue o discurso com propósitos narrativos do discurso com
propósitos não-narrativos (de exposição, descritivo, etc). Ela compreende a presença ou
a ausência de características que marcam os textos narrativos. Nesta dimensão, o polo
positivo concentra as características que são relevantes estatisticamente. Não há traços
estatisticamente relevantes no polo negativo. Sendo assim, a interpretação do fator 2 e a
nomeação da dimensão considera os traços do polo positivo. Esta dimensão é marcada
por registros de ficção, com os maiores escores médios nesta dimensão. No polo
negativo, há registros com menos preocupações narrativas, como documentos oficiais,
conversas telefônicas, cartas profissionais, prosa acadêmica e transmissões.
Polo positivo
(preocução narrativa)
Polo negativo
(preocução não-narrativa)
- verbos no pretérito
- pronomes de 3ª pessoa
- verbos em aspecto perfectivo
- verbos públicos
- orações de particípio presente
- negação sintética
- não há características estatisticamente relevantes
QUADRO 6: TRAÇOS DA DIMENSÃO 2 (FONTE: ADAPTADO DE BIBER, 1988)
74
Dimensão 3: Referências explícitas versus dependentes do contexto
A dimensão 3 distingue o discurso que identifica referência completa e
explicitamente por meio da relativização e o discurso que tem como base o uso de
dêiticos e referências externas para propósitos de identificação. No polo positivo
(referência explícita) estariam localizados documentos oficiais, por exemplo, que
precisam de clareza para evitar ambiguidades. No outro extremo estariam, por exemplo,
conversas telefônicas e conversas face a face. Os dois polos da dimensão 3 são
caracterizados por:
Polo positivo
(referência explícita)
Polo negativo
(dependente do contexto)
- orações adjetivas na função de
objeto
- orações adjetivas na posição de
sujeito
- construções com a preposição em
posição frontal39
- nominalizações
- expressões adverbiais de tempo
- expressões adverbiais de lugar
- advérbios
QUADRO 7: TRAÇOS DA DIMENSÃO 3 (FONTE: ADAPTADO DE BIBER, 1988)
Dimensão 4: Expressão explícita de persuasão versus não-‐explícita
O polo negativo desta dimensão não tem traços marcados. No polo negativo
encontram-se textos concisos, como resenhas. Biber (1988) defende que os traços do
polo positivo em conjunto expressam a opinião ou posicionamento do autor, com estilos
de argumentação para persuadir o ouvinte (destinatário). Ela não contém traços
negativos e os traços do polo positivo marcam um continuum entre a presença e a
ausência de traços que marcam a persuasão. Somente o polo positivo apresenta
características na dimensão 4:
39 Pied-piping constructions.
75
Polo positivo
(persuasão explícita)
Polo negativo
(persuasão não-explícita)
- infinitivos
- modais de predição
- verbos de persuasão (pedir, recomendar, concordar, etc.)40
- modais de necessidade
- modais de possibilidade
- não há características
QUADRO 8: TRAÇOS DA DIMENSÃO 4 (FONTE: ADAPTADO DE BIBER, 1988)
Dimensão 5: Informação abstrata versus não-‐abstrata
Esta dimensão distingue textos cujo foco é a informação altamente abstrata,
como a prosa acadêmica e técnica de textos com foco não abstrato. Não há traços
estatisticamente relevantes no polo negativo. Algumas das características da dimensão 5
são:
Polo positivo
(estilo abstrato)
Polo negativo
(estilo não-abstrato)
- conjunções
- voz passiva sem agente
- voz passiva com agente
- apagamento de pronome relativo WH
em construções de particípio passado
- adjetivos predicativos
- razão forma / item
QUADRO 9: TRAÇOS DA DIMENSÃO 5 (FONTE: ADAPTADO DE BIBER, 1988)
Com seu trabalho, Biber (1988, 2009) mostra a inter-relação entre registros
falados e escritos. Essa relação foi estabelecida nas dimensões de variação da língua
40 Suasive verbs.
76
inglesa identificadas. Friginal (2013, p. 3) acrescenta que Biber desenvolveu quatro
características metodológicas primárias necessárias para a execução da Análise
Multidimensional. São elas:
Uso de corpora de textos armazenados em computador, que servem de banco
de dados padronizados e de pronto acesso a uma gama de variação em situações e
propósitos comunicativos;
Uso de programas de computador para contar a frequência de certos traços
linguísticos em uma grande gama de textos, proporcionando a análise da distribuição de
muitos traços linguísticos em muitos textos e registros;
Uso de técnicas estatísticas multivariadas (a Análise Fatorial) para determinar
relações de coocorrência entre os traços linguísticos; e
Uso de análises microscópicas para interpretar os parâmetros funcionais
subjacentes aos padrões de coocorrência identificados quantitativamente.
2.3.5 Trabalhos com AMD
Segundo Xiao (2009), a abordagem da Análise Multidimensional para análise
de registro desenvolvida por Biber (1988) para comparar registros falados e escritos em
inglês tem sido aplicada para um amplo leque de pesquisas em variação linguística.
Entre essas áreas de pesquisa, podem ser destacadas:
Análises sincrônicas de registros e gêneros específicos e de autoria;
Estudos diacrônicos que descrevem a evolução de registros;
Pesquisa de inglês usado na universidade e desenvolvimento de materiais;
Análise de movimento e estudo de estrutura do discurso.
A AMD também tem sido aplicada a questões referentes a desenho de corpora
e também a questões relacionadas a registros / gêneros e tipos de texto. Xiao (2009)
acrescenta que, apesar de ser muito relacionado a estudos de categorias gramaticais, o
modelo da AMD tem incorporado também estudos de categorias semânticas e de classes
de palavras.
Conforme explica Biber, a Longman Grammar of Spoken and Written English
77
e a Cambrige Grammar of English são trabalhos de referência que aplicam análises
baseadas em corpus para mostrar como qualquer traço gramatical pode ter tanto as suas
características estruturais quanto os padrões de uso entre os registros falado e escrito
discutidos. Biber observa que há muitos estudos que descrevem a variação linguística
dentro de um contexto de um registro específico. São, na maioria, de um tipo de registro
acadêmico. Biber destaca ainda que estudos que identificam pacotes lexicais (lexical
bundles), que são peças importantes do discurso, podem ser feitos com o uso da Análise
Multidimensional (AMD).
Desde o trabalho de Biber (1988), é crescente o número de trabalhos com
Análise Multidimensional, entre outros: Biber, 1995; Berber Sardinha, 2000a; Biber et.
al, 2002b; Biber, 2006; Biber et al., 2006; Venegas, 2010; Gray, 2013; Cao & Xiao,
2013; Hardy & Römer, 2013.
Da mesma forma, a partir desse trabalho em que Biber mostra a inter-relação
entre os registros falados e escritos, estabelecida nas dimensões identificadas, a
quantidade de pesquisas com Análise Multidimensional vem crescendo no Brasil.
Esse avanço pode ser visto em dissertações e teses do Programa de Pós-
Graduação em Linguística Aplicada e Estudos da Linguagem (LAEL), na PUC-SP.
Destacam-se, dentre outros, Conde (2002), que investigou e comparou escolhas léxico-
gramaticais em composições escritas por alunos de inglês como língua estrangeira;
Shergue (2003), cujo estudo tem como ponto de partida uma necessidade da
comunidade médica acadêmica: usar a língua inglesa de maneira competente para fazer
apresentações orais e escrever artigos; Kauffmann (2005), que identificou semelhanças
e diferenças linguísticas em um corpus composto por textos e gêneros de um jornal
brasileiro, representativo da língua portuguesa de imprensa diária; Acunzo (2012), que,
a partir da extração dos padrões lexicogramaticais de um corpus de textos de
publicidade, propôs atividades de ensino para estudantes da respectiva área; Souza
(2012), cujo trabalho faz uma análise das matérias de capa da revista americana Time
desde 1923 até 2011, descrevendo suas dimensões de variação linguística ao longo de
quase um século; Delegá-Lúcio (2013), em cuja pesquisa a autora verifica a variação
78
entre textos argumentativos escritos por estudantes de inglês, com o propósito de
desenvolvimento de material didático para o ensino de inglês; Veirano Pinto (2013), que
investigou as dimensões na linguagem de 80 anos do cinema falado americano; e
Zuppardo (2014), que, visando contribuir para o ensino de inglês específico para a
aviação, usou a AMD para mapear a variação lexical e gramatical de manuais
aeronáuticos. A autora mostrou que eles são altamente informacionais e não-narrativos,
e apresentam variação entre eles.
A abordagem da Análise Multidimensional tem sido uma grande contribuição
para uma melhor compreensão da linguagem usada em diferentes contextos e situações.
O caráter analítico da abordagem da AMD faz com que ela seja apropriada para esta
pesquisa, pois ela permite a identificação de padrões de coocorrência dos artigos que
compõem o corpus de estudo. Ademais, seu uso possibilita verificar como a linguagem
varia sistematicamente em textos de uma mesma língua.
Na seção seguinte são apresentados o corpus utilizado na pesquisa e o
processo de análise de dados.
79
3. METODOLOGIA
3.1 DESCRIÇÃO DO CORPUS DE ESTUDO
Para este estudo foi necessário desenhar um corpus que fosse uma amostra
representativa do registro acadêmico em forma de artigos escritos em língua inglesa.
Conforme apontam Gray (2013) e Hardy & Römer (2013), estudos com Análise
Multidimensional mostram a variação na linguagem de uma disciplina para outra.
Ainda, Biber & Conrad (2009) explicam que, para identificar traços linguísticos em um
registro, é necessário que sejam feitas comparações com outros. Por esses motivos,
embora a escrita de pesquisadores brasileiros seja o que motivou este estudo, sua
comparação com textos de outras origens parece ser essencial para uma descrição nítida
do que é tipicamente traço da escrita de brasileiros.
Sendo assim, foram estabelecidos critérios que englobassem essas sugestões.
Foram elencadas dez diferentes áreas de conhecimento para elaboração do corpus de
estudo e nove diferentes origens, entre as quais falantes nativos e não-nativos, para fins
comparativos. Isso permite traçar um panorama mais abrangente dos padrões do registro
acadêmico do que o atualmente disponível na literatura de Análise Multidimensional
(Cf. BIBER, 1988).
Para satisfazer os critérios estabelecidos acima, foi utilizado na pesquisa o
corpus eletrônico denominado Corpus of English Research Articles (sigla CERA), de
grande extensão. O número de artigos das áreas elencadas, que foram minuciosamente
coletados para a compilação do corpus, atende à necessidade de representatividade
proposta por Biber (1993; 2006). Ele diz que há duas considerações principais que
influenciam a representatividade de um corpus. São elas o tamanho e a diversidade.
Para Biber, “um corpus deve ser ‘representativo’ para ser usado de maneira apropriada
como base para generalizações sobre uma língua como um todo” (1993, p. 1; minha
80
tradução)41. As origens dos pesquisadores e as diferentes áreas fornecem os dados
necessários para uma análise dos padrões linguísticos do artigo acadêmico escrito em
inglês.
Ainda sobre a importância da conformação do corpus, Berber Sardinha
(2004b) discorre sobre tipologia e esclarece que a nomenclatura usada em Linguística
de Corpus para sua classificação é bastante extensa, conforme mostrado na
Fundamentação Teórica. Tomando como base essa tipologia, pode-se dizer que o
corpus deste estudo apresenta o seguinte perfil: O modo deste corpus é escrito. Quanto
à temporalidade, ele é contemporâneo – os artigos coletados foram publicados entre
2001 e 2013. Sua seleção é de amostragem, pois ele é composto por trechos de textos
que são uma amostra da linguagem como um todo. Seu conteúdo é especializado: os
textos são de tipos específicos definidos – artigos acadêmicos.
Para a compilação ou criação do corpus foram escolhidos textos de uma
linguagem específica ou corpus do tipo especializado, de artigos acadêmicos, cujos
parâmetros de seleção envolvem origem do autor e área de pesquisa do autor. Os dados
que compõem o corpus foram coletados entre janeiro e dezembro de 2013. Os artigos
foram baixados de periódicos estrangeiros através do site Directory of Open Access
Journals42 e por meio da página Periódicos Capes43. O conteúdo assinado do Portal de
Periódicos Capes foi acessado via Instituto Federal do Espírito Santo, instituição à qual
o pesquisador é filiado e que é parte da Rede Nacional de Ensino e Pesquisa (RNP).
Vale ressaltar que, devido às dificuldades encontradas na compilação do corpus, muitos
dos periódicos que serviram como fonte não são os mais prestigiosos das áreas.
O corpus de estudo é composto de 900 artigos de dez diferentes áreas de
conhecimento, escritos por pesquisadores de nove origens. Das nove origens, três são
41 “a corpus must be 'representative' in order to be appropriately used as the basis for generalizations concerning a language as a whole”.
42 DOAJ é um diretório que indexa e fornece acesso livre a periódicos renomados revisados por pares. Disponível em www.doaj.org.
43 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior.
81
países cujos autores são falantes nativos de inglês e as outras seis são de países que não
tem o inglês como primeira língua. A escolha de autores nativos e não-nativos foi feita
para que a análise da escrita desses perfis pudesse ser comparada. As áreas de
conhecimento, assim como a origem e a quantidade de artigos por áreas podem ser
vistas no Quadro 3 abaixo.
ORIGEM
__________
ÁREAS
Brasil
China
Índia
Canadá
Reino
Unido
Estados
Unidos
França
Alemanha
Itália
Química 100 100 100 100 100 100 100 100 100
Engenharia e Ciência da Computação
100 100 100 100 100 100 100 100 100
Engenharia 100 100 100 100 100 100 100 100 100
Ciências da Vida 100 100 100 100 100 100 100 100 100
Pesquisa de Materiais 100 100 100 100 100 100 100 100 100
Física e Astronomia 100 100 100 100 100 100 100 100 100
Psicologia 100 100 100 100 100 100 100 100 100
Economia 100 100 100 100 100 100 100 100 100
Antropologia 100 100 100 100 100 100 100 100 100
Linguística 100 100 100 100 100 100 100 100 100
QUADRO 10: CERA: ORIGEM, ÁREAS E NÚMERO DE TEXTOS
No âmbito deste estudo, “origem” refere-se ao local de nascimento e trabalho
do pesquisador. O periódico de onde o artigo foi coletado, no entanto, pode ser uma
publicação de qualquer país, contanto que tenha sido escrita em inglês. Vale acrescentar
que, para artigos com mais de um autor, foi considerada a origem do primeiro autor
citado, pois parece ser um padrão que esse autor seja o de maior relevância. Textos de
82
coautoria os quais um dos autores é um falante nativo foram descartados.
Este corpus busca atender as sugestões de representatividade propostas por
Biber (1993) e Berber Sardinha (2004a). O corpus contém 93.570 itens (types) e
5.008.411 ocorrências (tokens), números que o enquadram, na classificação proposta
por Berber Sardinha (2004b), como um corpus médio-grande. Segundo o mesmo autor,
um corpus com 91.161 palavras já seria suficiente para englobar a variação das
categorias morfossintáticas da língua inglesa. O número de tokens (ocorrências) e de
types (itens) foram obtidos através da ferramenta WordList do programa WordSmith
Tools, versão 6.
A seleção das áreas de pesquisa foi feita em dois passos, levando em
consideração a questão das publicações de brasileiros em periódicos de língua inglesa,
que é o cerne desta pesquisa. Primeiramente, elas foram feitas tomando como base o
indicador de periódicos científicos SCImago Journal & Country Rank, que disponibiliza
gratuitamente dados de produção de todas as grandes áreas de estudo. Ele classifica
tanto os periódicos, de acordo com o número de citações (fator de impacto), quanto os
países, a partir de sua produção científica. Tais classificações estão disponíveis no
endereço eletrônico http://www.scimagojr.com, que é a página do indicador, e no sítio
do National Science Foundation Graduate Research Fellowship Program44.
A partir da seleção inicial, o passo seguinte foi consultar a Tabela de Áreas de
Conhecimento, da Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível
Superior (CAPES) e do Conselho Nacional de Desenvolvimento Cientifico e
Tecnológico (CNPq). Dessa consulta, foram elencadas as dez áreas de conhecimento
que melhor se comparavam àquelas selecionadas nos dados do indicador SCImago
Journal & Country Rank. Vale acrescentar que as áreas sem um equivalente específico
na tabela brasileira receberam uma tradução condizente com a nomenclatura usada no
Brasil. São elas: COMPUTER AND INFORMATION SCIENCE AND ENGINEERING
44 O National Sience Foundation (NFS) Graduate Research Fellowship Program (GRFP) é o programa de bolsas de pós-graduação mais antigo dos Estados Unidos. Endereço eletrônico: http://www.nsfgrfp.org/general_resources/about.
83
(CISE) (ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO), LIFE SCIENCES
(CIÊNCIAS DA VIDA), MATERIALS RESEARCH (PESQUISA DE MATERIAIS) e
PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA).
Optei por registrar as áreas de conhecimento em inglês, por ter sido esse o
idioma utilizado para pesquisar e garimpar nos periódicos disponíveis na internet os
textos que compõem o corpus. Cada item dos quadros é acompanhado de sua tradução,
em parênteses. Foram elencados artigos acadêmicos representativos de países com
grande produção acadêmica, escritos em inglês, por autores de três categorias de
origens: a) falantes nativos: Canadá, Estados Unidos e Reino Unido; b) países europeus:
Alemanha, França e Itália; e c) países com economia emergente, membros do BRICS45:
Brasil, China e Índia. Os Quadros 11 e 12, a seguir, mostram respectivamente as origens
dos pesquisadores e as nove áreas de pesquisa do corpus de estudo.
Falantes nativos BRICS Europa
Canadá
Estados Unidos
Reino Unido
Brasil
China
Índia
Alemanha
França
Itália
QUADRO 11: CERA: ORIGEM DOS PESQUISADORES
CHEMISTRY (QUÍMICA)
COMPUTER AND INFORMATION SCIENCE AND ENGINEERING (CISE) (ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO)
ENGINEERING (ENGENHARIA)
LIFE SCIENCES (CIÊNCIAS DA VIDA)
MATERIALS RESEARCH (PESQUISA DE MATERIAIS)
PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA)
PSYCHOLOGY (PSICOLOGIA)
ECONOMICS (ECONOMIA)
45 BRICS: grupo de cooperação política e econômica formado pelos seguintes países: Brasil, Rússia, Índia, China e África do Sul.
84
ANTHROPOLOGY (ANTROPOLOGIA)
LINGUISTICS (LINGUÍSTICA)
QUADRO 12: CERA: ÁREAS DE PESQUISA. FONTE: NATIONAL SCIENCE FOUNDATION GRADUATE RESEARCH FELLOWSHIP PROGRAM.
3.1.1 (Pré-)processamento do corpus
O processamento do corpus seguiu alguns passos que são comuns nos estudos
em Linguística de Corpus. Uma vez que esta pesquisa fez uso de um corpus específico,
ele precisou ser compilado a partir do modelo traçado, qual seja: um corpus com 900
artigos de dez áreas de estudo, de pesquisadores de nove origens diferentes, das quais
três provenientes de países falantes nativos do inglês. Tendo em vista que a origem foi
definida como local de nascimento e trabalho do pesquisador, todo artigo demandou
uma checagem de autoria, de modo a atender o desenho do corpus.
Um dos passos relevantes da pesquisa foi certificar-se minuciosamente de que
a autoria do artigo do corpus atenderia aos critérios estabelecidos no desenho do corpus.
Houve grande dificuldade de encontrar um curriculum vitae ou résumé dos
pesquisadores estrangeiros. Aparentemente, eles não mantêm um currículo em
plataformas, como a Lattes, comumente usada por pesquisadores brasileiros. Uma
alternativa encontrada foi pesquisar o local de nascimento e a formação acadêmica dos
autores. Desse modo, somente os artigos que atenderam aos requisitos foram mantidos.
Ou seja, aquele nos quais o local de nascimento e o de trabalho do pesquisador
coincidam.
À medida que os artigos eram encontrados e tinham sua autoria e origem
confirmadas, eram gravados no formato “portable document file” (arquivo de
documento portátil, ou pdf). Os artigos foram armazenados em subpastas das áreas de
85
estudo, dentro da respectiva pasta do país de origem do autor. Após a compilação dos
900 artigos em pdf, esses dados foram convertidos em artigos de texto (formato txt),
que são arquivos de textos sem formatação. Isto é, há apenas os caracteres do teclado
(letras, números e símbolos ortográficos). Os dados foram então armazenados em nove
pastas, uma para cada país, com dez subpastas cada, referentes às dez áreas de
conhecimento pesquisadas. As figuras abaixo mostram as pastas de organização e
armazenamento do corpus em formato txt. Na primeira (Figura 2), denominada TXT
ONLY, estão as nove subpastas com os países.
FIGURA 2: PASTA TXT ONLY.
86
Na Figura 3 abaixo, temos na pasta TXT ONLY, a subpasta BRAZIL, com a
subpasta BRAZIL CHEMISTRY. Ainda para efeito de ilustração, na Figura 4, pode ser
visto o primeiro dos dez artigos de química, em formato txt, da pasta BRAZIL
CHEMISTRY. Ele aparece com a anotação brazil_chemistry_1.
FIGURA 3: PASTA BRAZIL, COM SUBPASTA BRAZIL CHEMISTRY
FIGURA 4: BRAZIL_CHEMISTRY_1 EM TXT
87
Após a coleta e conversão dos artigos em textos sem formatação, iniciou-se o
processo de limpeza do corpus, que aconteceu em duas etapas. A primeira foi realizada
por meio de um script desenvolvido especialmente para esta pesquisa pelo orientador,
que utilizou o programa Cygwin46.
Concluindo a primeira etapa, os 900 textos foram submetidos ao script. A
Figura 5, abaixo, mostra um trecho do texto 5 da subpasta Linguística, Estados Unidos,
após a limpeza automática. A tela mostrada é a do editor de texto Notepad++47, usado
na segunda etapa da limpeza dos textos.
FIGURA 5: TEXTO US_SOC_SCIE_LINGUISTICS_5.TXT APÓS LIMPEZA AUTOMÁTICA
Posteriormente, todos os arquivos de texto foram revisados manualmente para
a eliminação de itens restantes que deveriam ter sido eliminados na limpeza automática.
Assim, por sugestão do orientador, foram retirados numerais, notas de rodapé e
46 Cygwin é um emulador gratuito do sistema operacional Unix para Windows, disponível online. Segundo Berber Sardinha (2004b, 54), “é uma ferramenta importante porque coloca à disposição do usuário de Windows um conjunto de utilitários fundamentais para a consecução de tarefas e pré-processamento de texto”.
47 Editor de texto versátil com suporte a várias linguagens de programação. Disponível gratuitamente no endereço: http://notepad-plus-plus.org/.
88
informações em cabeçalhos que não seriam computados para efeito de análise
linguística.
Após as etapas de pré-processamento, como conversão em formato txt e a
limpeza automática e manual, o corpus pôde ser processado por programas de análise
linguística. O primeiro usado foi o WordSmith Tools, versão 6.0, cuja ferramenta
WordList gerou os dados que são apresentados no Quadro 13 abaixo.
ORIGEM OCORRÊNCIAS (TOKENS) FORMAS (TYPES) TEXTOS
BRAZIL
(Brasil) 529.223 25.104 100
CHINA
(China) 447.951 20.441 100
INDIA
(Índia) 368.788 19.805 100
CANADA
(Canadá) 629.134 26.212 100
UK
(Reino Unido) 621.160 25.304 100
US
(Estados Unidos) 594.760 25.591 100
FRANCE
(França) 667.420 25.113 100
GERMANY
(Alemanha) 588.688 22.731 100
ITALY
(Itália) 561.287 26.012 100
TOTAL 5.008.411 93.570 900
QUADRO 13: COMPOSIÇÃO DO CERA. CONTAGEM OBTIDA PELA FERRAMENTA WORDLIST, DO PROGRAMA WORDSMITH TOOLS 6.0.
Para a geração do número de types e tokens com a ferramenta WordList foram
necessários os seguintes passos:
Primeiro, o programa deve ser aberto, conforme a figura abaixo. Em se
89
seguida, deve-se clicar em WordList, que é a terceira ferramenta na horizontal. Isso vai
gerar uma nova tela em que os artigos em txt deverão ser inseridos.
FIGURA 6: TELA DE ABERTURA DO WORDSMITH 6.0
90
A partir daí, clicar na palavra file (arquivo), no canto esquerdo da tela, e
depois escolher a opção new (novo). O resultado é a tela mostrada na Figura 7 abaixo.
Depois abrir a opção Choose Texts Now (tela abaixo), inserir o corpus para que ele seja
processado e clicar na caixa OK, do lado direito. Na presente pesquisa, foi incluído o
conteúdo da pasta CLEAN NOTEPAD, conforme aparece marcado na Figura 8.
FIGURA 7: TELA COM A OPÇÃO CHOOSE TEXTS NOW
FIGURA 8: INSERÇÃO DO CORPUS DA PASTA CLEAN NOTEPAD
91
Em seguida, clicar em OK, no canto direito da tela, e na opção Make a word
list now, que aparecerá na tela posterior. Dessa forma, o resultado é gerado, e aparece
como na tela abaixo (Figura 9). A partir daí, as palavras podem ser vistas listadas na
ordem alfabética, quanto à frequência e estatisticamente. A terceira opção forneceu o
número de types e tokens que foram mostrados no Quadro 13.
FIGURA 9: OUTPUT ESTATÍSTICO DA FERRAMENTA WORDLIST
92
3.2 PROCEDIMENTO DE ANÁLISE
O procedimento de análise seguiu os preceitos metodológicos propostos por
Biber para Análise Multidimensional. Berber Sardinha (2004a, p. 305) apresenta 13
itens que resumem os principais passos da AMD. Listamos aqui dez deles, que foram
seguidos nesta pesquisa. Ressaltamos que o último item, referente à interpretação dos
fatores e rotulação das dimensões, foi feito parcialmente.
• Levantamento das características linguísticas relevantes para análise
por meio de ampla consulta à literatura disponível.
• Coleta ou adoção de um corpus de dados linguísticos representativo e
compatível com as metas de análise.
• Transformação das características linguísticas em variáveis
quantificáveis.
• Codificação dos dados baseada nas variáveis selecionadas, usando-se
ferramentas computacionais para análise automática, semiautomática
(interativa) ou manual.
• Conferência manual da codificação feita por computador para se
assegurar de sua exatidão.
• Computação de frequência médias de cada variável.
• Padronização das frequências (em geral, por 1.000 palavras), para
permitir a comparação entre variedades (textos, registros ou corpora)
de extensões diferentes.
• Cálculo de escores de cada texto por fator pela padronização dos
escores com base na média e no desvio padrão.
• Cálculo de escores médios de cada variedade por fator.
• Interpretação de cada fator e rotulação das dimensões.
3.3 ANOTAÇÃO E ETIQUETAGEM
O primeiro passo foi a anotação e a etiquetagem (inserção de códigos) do
93
corpus. O corpus de estudo foi anotado automaticamente pelo etiquetador Biber
Tagger, que é um etiquetador computacional que atribui a todo elemento ortográfico do
corpus uma etiqueta de natureza linguística. O processo de etiquetagem do corpus segue
quatro passos: 1) selecionar o tipo de texto; 2) informar se há cabeçalhos no texto; 3)
informar se deseja inserir comentários nos resultados; e 4) iniciar a etiquetagem.
FIGURA 10: BIBER TAGGER
O resultado é um arquivo de texto sem formatação (.txt), com as palavras
etiquetadas morfossintaticamente em inglês, conforme pode ser visto no exemplo
mostrado no Quadro 14. O texto anotado pode ser lido no sentido vertical48. Cada linha
do arquivo contém uma unidade ortográfica do texto. As etiquetas atribuídas aos
elementos do texto, explicadas abaixo, constam do conjunto de etiquetas (tagset)49 do
programa Biber Tagger.
48 O excerto “Therefore, procedures for identifying gifted children that deliberately or inadvertently rely on a composite score…” foi retirado do corpus de estudo. Pertence ao texto 1 de psicologia, do subcorpus Estados Unidos.
49 O Anexo 3 apresenta uma completa descrição das etiquetas do Biber Tagger.
94
Therefore ^rb+cnj+++=Therefore,
, ^zz++++=EXTRAWORD
procedures ^nns++++=procedures
for ^in++++=for
identifying ^xvbg+++xvbg+=identifying
gifted ^jj+atrb+++=gifted
children ^nns++++=children
that ^tht+rel+++=that
deliberately ^rb++++=deliberately
or ^cc+phrs+++=or
inadvertently ^rb++++=inadvertently
rely ^vb++++=rely
on ^in++++=on
a ^at++++=a
composite ^nn++++=composite
score ^nn++++=score
QUADRO 14: EXCERTO DE TEXTO ETIQUETADO PELO BIBER TAGGER
No etiquetador Biber Tagger, há cinco campos de etiquetas separados por um
sinal de adição (+). No entanto, para a maioria das palavras, são usados apenas um ou
dois dos cinco campos existentes. Primeiramente, à direita da unidade ortográfica
etiquetada, tem-se o símbolo ^, que indica o início dos campos de etiquetas. A principal
categoria gramatical de uma palavra geralmente é marcada no primeiro campo das
etiquetas. Assim, interpretando as etiquetas atribuídas pelo Biber Tagger à unidade
ortográfica therefore, temos ^rb+cnj+++, onde rb indica, de acordo com o conjunto de
etiquetas do programa, que a palavra é uma advérbio qualquer, e cnj indica que ela é,
também, uma conjunção. A palavra procedures recebeu a etiqueta ^nns++++, que
indica que ela é um substantivo plural comum e há quatro sinais de adição, que
95
serviriam para separar outras etiquetas caso essas fossem atribuídas. Após o símbolo =,
observa-se, em maiúsculas, o texto em si. A exceção vai para os sinais de pontuação, a
quem o etiquetador atribui a palavra EXTRAWORD (palavra extra).
Após a etiquetagem, foi feita a contagem de frequência das características
lexicogramaticais anotadas por meio da ferramenta Biber Tag Count, também
desenvolvida por Douglas Biber. Para fazer a contagem, basta o pesquisador selecionar
o arquivo etiquetado pelo Biber Tagger e continuar o processamento pelo Biber Tag
Count.
FIGURA 11: BIBER TAG COUNT
O programa Biber Tag Count desempenha as seguintes funções:
- etiqueta as características lexicais do texto relacionadas ao posicionamento e
tipos de verbos e de substantivos;
- faz a leitura das etiquetas que o Biber Tagger inseriu;
- contabiliza as etiquetas como variáveis;
- estabelece a frequência das etiquetas em cada texto do corpus;
- agrupa as etiquetas em categorias morfossintáticas, semânticas e de
marcação de posicionamento.
Após o programa Biber Tag Count processar o corpus etiquetado, o resultado,
96
como no Biber Tagger, saiu em forma de arquivo de texto sem formatação (.txt). No
entanto, para melhor visualização, ele foi transferido para uma planilha Microsoft Excel,
como pode ser visto abaixo, na Figura 12.
FIGURA 12: PLANILHA COM O RESULTADO OBTIDO DO BIBER TAG COUNT
Com os dados na planilha do Microsoft Excel, eles se tornaram legíveis ao
software estatístico IBM SPSS Statistics 20 (SPSS)50. A partir desse ponto, os seguintes
passos foram tomados:
Os dados foram abertos no software estatístico SPSS;
As caixas Analyze, General Linear Models e Univariate foram marcadas;
A dimensão 1 foi marcada como variável dependente;
País foi escolhido como o fator fixo;
Clicou-se na caixa Opções e em seguida em Descriptive Statistics;
Clicou-se em Continue e em OK.
50 O SPSS é um programa de organização de dados e análise estatística. Através da seleção de opções em menus e caixas de diálogo, ele permite a realização de análises estatísticas desde as mais simples até às mais complexas e elaboradas. A sigla significa Statistical Package for the Social Sciences (SPSS Inc.).
97
FIGURA 13: TELA PARA INSERÇÃO DOS DADOS NO SPSS
FIGURA 14: DADOS ABERTOS NO SPSS
98
FIGURA 15: MARCAÇÃO DAS CAIXAS ANALYZE, GENERAL LINEAR MODELS E UNIVARIATE
FIGURA 16: MARCAÇÃO DA DIMENSÃO 1 COMO VARIÁVEL DEPENDENTE
99
FIGURA 17: MARCAÇÃO DE PAÍS (ORIGEM) COMO FATOR FIXO
FIGURA 18: TELA COM OPÇÕES E DESCRIPTIVE STATISTICS MARCADAS
100
FIGURA 19: TELA COM O RESULTADO DE UNIVARIATE E R² NA DIMENSÃO 1
FIGURA 20: TELA COM O RESULTADO DE UNIVARIATE E R² NA DIMENSÃO 1(CONTINUAÇÃO)
Esses passos geraram os escores médios, Univariate e o R² para a dimensão 1,
para cada país. Depois, os mesmos passos foram seguidos para as dimensões restantes,
isto é, da dimensão 2 à dimensão 5. Em seguida, trocou-se o fator fixo de Country (país)
para Field (área de estudo) e os passos foram repetidos, com cada dimensão
separadamente.
101
Na segunda etapa, o corpus é analisado qualitativamente. Nela são
identificadas as dimensões de variação. É feito um mapeamento dos resultados obtidos
na análise quantitativa (estatística) sobre as dimensões da língua inglesa mapeadas por
Biber.
3.4 ESCORES DAS DIMENSÕES NO CORPUS CERA
A primeira parte da análise foi realizada a partir do mapeamento do corpus
nas dimensões de Biber (1988). A Tabela 2, a seguir, mostra os 23 registros estudados
por Biber e o corpus CERA. Os números atribuídos aos registros e ao CERA são as
somas relativas às quantidades das variáveis existentes em cada dimensão. Com ela foi
possível responder a primeira pergunta desta pesquisa, conforme é descrito na seção
seguinte, Apresentação e Discussão dos Resultados.
102
REGISTRO Dim 1
Dim 2
Dim 3 Dim 4 Dim 5
Prosa acadêmica
(academic prose) -14,9 -2,6 4,2 -0,5 5,5
Ficção de Aventura
(adventure fiction) 0 5,5 -3,8 -1,2 -2,5
Biografias
(biografias) -12,4 2,1 1,7 -0,7 -0,5
Transmissões
(broadcasts) -4,3 -3,3 -9 -4,4 -1,7
Conversa face a face
(face-to-face conversation)
35,3 -0,6 -3,9 -0,3 -3,2
Ficção Geral
(general fiction) -0,8 5,9 -3,1 0,9 -2,5
Hobbies
(hobbies) -10,1 -2,9 .3 1,7 1,2
Humor
(humor) -7,8 0,9 -.8 -0,3 -0,4
Entrevistas
(interviews) 17,1 -1,1 -.4 1,0 -0,2
Ficção de Mistério
(mystery fiction) -0,2 6,0 -3,6 -0,7 -2,8
Documentos Oficiais
(official document) -18,1 -2.9 7,3 -0,2 4,7
Carta Pessoal
(personal letter) 19,5 0,3 -3,6 1,5 -2,8
Cultura popular
(popular lore) -9,3 -0,1 2,3 -0,3 0,1
Discurso preparado
(prepared speech) 2,2 0,7 .3 0,4 -1,9
Imprensa - editoriais -10,0 -0,8 1,9 3,1 0,3
103
(press editorials)
Imprensa - reportagem
(press reportage)
-15,1 0,4 -.3 -0,7 0,6
Imprensa - resumos
(press reviews) -13,9 -1,6 4,3 -2,8 0,8
Carta profissional
(professional letter) -3,9 -2,2 6,5 3,5 0,4
Religião
(religion) -7,0 -0,7 3,7 0,2 1,4
Ficção romântica
(romantic fiction) 4,3 7,2 -4,1 1,8 -3,1
Ficção científica
(science fiction) -6,1 5,9 -1,4 -0,7 -2,5
Discurso espontâneo
(spontaneous speech) 18,2 1,3 1,2 0,3 -2,6
Conversa por telefone
(telefone conversation)
37,2 -2,1 -5,2 0,6 -3,7
CERA -19,8 -3,6 6,4 -3,4 4,7
TABELA 2: DIMENSÕES DE BIBER (1988) COM CERA
104
4. APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS
4.1 APRESENTAÇÃO
O mapeamento do corpus nas dimensões de Biber (1988) foi feito com o uso
do software IBM SPSS Statistics 20. Para a compilação do corpus de estudo (CERA)
foram levadas em consideração a origem do autor e a área de estudo à qual o artigo
pertence. Da mesma forma, essas duas variáveis foram usadas para o processamento dos
dados. Foram então definidas como variáveis independentes o país (country) e a área de
estudo (field). Os resultados estão na forma de estatísticas descritivas (descriptive
statistics) mostradas nas tabelas a seguir. As Tabelas 3 a 7 têm como variável
independente country, enquanto as Tabelas 8 a 12 tomam como variável independente
field.
4.1.2 País como variável independente
Os valores de R² (R Squared), em porcentagem, referentes a cada dimensão,
são discriminados abaixo de cada tabela. O valor de R indica o percentual de variação
nos escores das dimensões que pode ser previsto, conhecendo a variável independente.
Sendo assim, os valores de R², nas Tabelas 3 a 7, representam (percentualmente) quanto
a origem (país) do autor responde pela variação apresentada. Por seu turno, nas Tabelas
8 a 12, os valores de R² representam o quanto a área do artigo responde pela variação.
105
País Média Desvio Padrão N
Índia -21,6536 5,5567428 100
Brasil -20,903 4,1422191 100
Alemanha -20,5363 4,339746 100
Itália -20,0356 4,2461063 100
China -19,9519 5,1359334 100
Estados Unidos -19,6151 4,7673711 100
França -19,5543 4,3322703 100
Canadá -18,2596 5,0122655 100
Reino Unido -17,5921 4,9764553 100
Total -19,789056 4,8703776 900
R²= 0,59 (R² Ajustado = 0,051). Temos 0,059 x 100 = 5,9%
TABELA 3: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 1
Pode-se observar nos dados acima que, na dimensão 1 – Produção com
Interação versus Informacional –, todos os textos se encontram no polo negativo. Há,
ainda, pouca variação entre eles. A origem (país) do autor responde por apenas 5,9 % da
variação. O Reino Unido aparece como o menos informacional dos países (escore -
17,59). O Brasil apresenta o escore -20,93, que o classifica como mais informacional do
que os países do grupo composto por autores nativos. O excerto abaixo mostra
características que são comuns à dimensão 1, como voz passiva sem agente,
apagamento do pronome relativo e do verbo de ligação, assim como a ocorrência de
palavras longas. Essas características estão legendadas para melhor visualização.
106
In vitro experiments demonstrated that the sample inhibited the production of NO and
inhibited nuclear factors involved in the inflammatory process [57]. Whereas the in vivo
experiments indicated the presence of anti-inflammatory activity, the in vitro tests were able
to indicate the mechanism of action. One of the main components of green Brazilian
propolis, 3,5-diprenyl-4-hydroxycinnamic acid, was tested against similar in vivo and in vitro
models of inflammation indicating that this compound is at least partially responsible for
these activities. Furthermore, there was good oral absorption of this compound, so it may be
taken orally for pain and inflammation [58].
Imunomodulatory effect A new line of research involving propolis involves its possible
application as a vaccination adjuvant, although most commercial vaccines use aluminum
salts to this end. (…) A combination of an inactivated oil vaccine against bovine herpes virus
type 5 and propolis extract also increased the humoral immune response in cattle [61].
Fractions of green propolis were tested against SuHV-1. Fraction J, containing an expressive
amount of caffeic and cinnamic acid derivatives, proved to be most effective, increasing both
humoral and cellular responses, (…) pathway. In a previous study, when the propolis extract
was tested alone, it was not as effective, possibly due to the presence of both
immunostimulatory and immunosuppressive substances [32]. A slight anti-allergic effect has
been observed with Brazilian propolis [31]. Another application of the imunomodulatory
activity
LEGENDAS:
• trechos sublinhados: passiva sem agente
• trecho em itálico: apagamento de pronome relativo e verbo de ligação
• trecho sublinhado em itálico: palavras longas
• trechos em negrito: uso de substantivos
• trechos riscados: uso de preposições
QUADRO 15: EXCERTOS DO TEXTO 1 DE QUÍMICA DA SUBPASTA BRASIL. FONTE: O AUTOR.
107
País Média Desvio Padrão N
Alemanha -4,0406 0,8303289 100
Brasil -3,9292 0,7483405 100
França -3,8655 0,7374326 100
China -3,8427 1,0205176 100
Índia -3,6998 0,9212442 100
Itália -3,6615 1,0031651 100
Estados Unidos -3,5923 0,8986768 100
Canadá -3,3774 1,1047836 100
Reino Unido -3,2382 0,971939 100
Total -3,694133 0,9511048 900
R² = 0,067 (R² Ajustado = 0,059). Temos 0,067 x 100 = 6,7 %
TABELA 4: VARIÁVEL INDEPENDENTE PAÍS DIMENSÃO 2
Quanto à dimensão 2, Preocupações Narrativas versus Não-Narrativas, o
escore médio das origens manteve-se entre -4,04 e -3,23. O total foi -3,69, o que é
comparável ao que Biber (1988) encontrou. Isto é, o texto acadêmico tem escore baixo
nesta dimensão, o que mostra que ele é não-narrativo. Em seu estudo, Biber observou
que a prosa acadêmica teve o escore -2,6. Para esta dimensão, 6,7% de sua variação é
dependente da origem do autor. Autores alemães tiveram o maior escore, enquanto os
autores do Reino Unido apresentaram o menor, ou seja, sua escrita apresenta menos
características narrativas, o que é próprio da escrita acadêmica. Retomamos que o polo
positivo – preocupações narrativas – é caracterizado pelos seguintes traços: verbos no
pretérito, pronomes de 3ª pessoa, verbos em aspecto perfectivos, verbos públicos,
orações de particípio presente e negação sintética. Assim, a pouca ocorrência do
pretérito, por exemplo, é vista como um valor marcado na dimensão 2, que caracteriza o
polo não-narrativo. De acordo com Biber (1988, p. 137-138), esse uso geralmente está
ligado a um propósito comunicativo, como em um texto expositivo. Da mesma forma,
nesse polo, é comum o uso do imperativo e do infinitivo. Nos excertos abaixo, podemos
108
observar alguns desses traços, que são destacados com legendas.
CRW proved for a long time to be a useful means to model animals' random search paths (Siniff and Jessen 1969, Kitching 1971, Skellam 1973). They involve a correlation between successive step orientations, which induces a local directional bias: any step tends to point in the same direction as the previous one, but the influence of the initial direction of motion progressively vanishes and step orientations are uniformly distributed in the long term.
LEGENDA:
• trecho em negrito: uso escasso do pretérito
QUADRO 16: EXCERTO DO TEXTO 8 DE CIÊNCIAS DA VIDA, DA SUBPASTA FRANÇA. FONTE: O AUTOR
In the second step of analysis, we wanted to determine whether achievers and underachievers could be differentiated in accordance with our explanatory (…)
For instance, Durr (1964), from the perspective of learning psychology, defined underachievement as a significant discrepancy between IQ and perfect (…)
LEGENDA:
• trecho em itálico: uso escasso do pretérito
QUADRO 17: EXCERTOS DO TEXTO 3 DE PSICOLOGIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.
109
País Média Desvio Padrão N
França 5,8513 1,9765875 100
Canadá 6,0739 2,4058829 100
Alemanha 6,1556 2,0434049 100
Índia 6,5635 2,0848411 100
Reino Unido 6,5752 2,3970797 100
Estados Unidos 6,6436 2,1345917 100
China 6,6796 2,3478698 100
Itália 6,7309 2,4693303 100
Brasil 7,0348 2,4012991 100
Total 6,478711 2,2756599 900
R²= 0,024 (R² Ajustado = 0 ,015). Temos 0,024 x 100 = 2,4%
TABELA 5: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 3
A dimensão 3 diz respeito a Referências Explícitas versus Dependentes do
Contexto. Ela é caracterizada no polo positivo (Referências Explícitas) com traços
como: orações adjetivas na função de objeto, orações adjetivas na posição de sujeito,
construções com a preposição em posição frontal e nominalizações. Nessa dimensão, a
variação entre as origens é muito pequena. Somente 2,4% da variação do corpus
dependem da origem dos autores. Os textos de autores brasileiros encontram-se como os
que apresentam mais características de referências explícitas. É possível especularmos
que esse resultado seja reflexo de sugestões por parte de professores e livros sobre
escrita acadêmica que defendem a escrita clara e concisa.
110
our perspective focuses on developing ownership of texts, which implies more than the possibility of "understanding" texts.
Capable of assuming themselves as subjects because of the capacity to recognize themselves as objects.
In order to work with this discursive view of reading, the teacher needs to respect and encourage the students´ readings of texts "reading does not consist merely of decoding the written word or language in which many people, including those who commissioned these materials, (…)
We expect students and teachers who use the materials we designed to become more aware of their possibilities (…)
LEGENDAS:
• trecho em negrito: uso de nominalização
• trecho em itálico: oração adjetiva na posição de sujeito
QUADRO 18: EXCERTOS DO TEXTO 8 DE LINGUÍSTICA DA SUBPASTA BRASIL. FONTE: O AUTOR.
111
País Média Desvio Padrão N
Brasil -4,1159 1,3816102 100
Índia -3,8672 2,0356143 100
China -3,6808 1,4558872 100
Itália -3,551 1,5879772 100
França -3,3894 1,6852856 100
Alemanha -3,3338 1,6580083 100
Canadá -3,1116 1,6776172 100
Estados Unidos -3,0371 1,7673014 100
Reino Unido -2,6166 1,7094273 100
Total -3,411489 1,7187 900
R²= 0,063 (R² Ajustado= 0,054). Temos 0,063 x 100 = 6,3 %
TABELA 6: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 4
A dimensão 4, Expressão Explícita de Persuasão versus Não-explícita, tem
traços em apenas um polo, o positivo (persuasão explícita), com os seguintes traços: uso
de infinitivos, modais de predição, verbos de persuasão, modais de necessidade e
modais de possibilidade, que, em conjunto, expressam o posicionamento do autor.
Entretanto, os textos do corpus situam-se no polo negativo desta dimensão, indicando,
portanto, que os textos têm uma persuasão implícita, conforme mostra a Tabela 6. Os
números acima mostram que, nesta dimensão, 6,3% do total da variação depende da
origem do autor. É interessante observar que todas as origens se encontram no polo
negativo. Isto é, a persuasão em seus artigos é de maneira não-explícita. Também
observamos que a escrita acadêmica de autores brasileiros, cujo escore é -4,11, está no
topo da lista, com o maior distanciamento da persuasão explícita. Em segundo lugar está
a Índia, que apresenta o escore -3,86. Por outro lado, os autores do Reino Unido, do
grupo falantes nativos, são aqueles cujos artigos estão mais próximos do polo positivo;
mas ainda situando-se no lado implícito da persuasão, conforme indica o escore -2,61.
112
O excerto abaixo é exemplo da escrita desses autores.
The energy concentration implies entropy lower values. This criterion may be used to choose the best mother wavelet among a group of orthogonal mother wavelet which can be used to transform the signals (Li et al., 2009). Besides to indicate the suitable mother wavelet for signal analysis, the entropy also shows the level of detail that contains information related to reflections of Lamb wave in the structure discontinuities. For the DWT of a signal x(t), an orthogonal mother wavelet is selected among several possibilities previously chosen for compatibility with the features to be extracted from the signal, for example, Biorthogonals, Coiflets, Daubechies, Symlets, discrete Meyer and others. Whereas cd,i are coefficients of the DWT of x(t), for a mother wavelet chosen arbitrarily the Shannon entropy of detail level d is given by: S (d ) =
LEGENDA:
• trecho em negrito: uso escasso de modais
QUADRO 19: EXCERTO DO TEXTO 5 DE ENGENHARIA DA SUBPASTA BRASIL. FONTE: O AUTOR.
However, since the set of all possible routes from S to D can be very large, discovering or keeping track of all such paths does not scale well as the size of network increases. Therefore, we decided to limit the number of routes in each route discovery process to some constant. When the destination node D receives the first route request message from a source node S, it sets a timer for that node and starts to respond to every route request message it receives from S, except for route requests from S which are not node-disjoint with the other paths D has already sent back to S.
LEGENDA:
• trecho em negrito: uso escasso de modais
QUADRO 20: EXCERTO DO TEXTO 6 DE ENG. E CIÊNCIA DA COMPUTAÇÃO DA SUBPASTA ÍNDIA. FONTE: O AUTOR.
113
In addition, there has been an inclination by clients to develop and undertake such projects in partnership with other companies as joint ventures, often collaborating with local companies based in the territory where the assets will be built. This has resulted in more multicultural project teams with team members from different cultures and backgrounds working together. A number of authors including Weatherley (2006) agree that project success is difficult enough to accomplish where the project team is located close to the construction project environment, and the situation is made considerably complex for multicultural project teams, that are widely geographically and that have dissimilar organisational and regional cultures. The geographical division of multicultural project teams poses its own communication challenges. Emmitt and Gorse (2007) have shown that, for factual data transfer, separated a number of communication problems have been addressed due to the development of rapid global information systems and telecommunications, however, when it comes to multicultural project teams many issues remain unresolved. For example, the loss of face-to-face communication can lead to misunderstanding and the loss of non-verbal signals - such as eye contact and body language.
LEGENDA:
• trecho em negrito: uso escasso de modais
QUADRO 21: EXCERTO DO TRECHO 6 DE ENGENHARIA DA SUBPASTA REINO UNIDO. FONTE: O AUTOR.
114
País Média Desvio Padrão N
Estados Unidos 3,8674 1,8644525 100
Índia 4,2388 2,2123306 100
Canadá 4,3313 2,1935284 100
Reino Unido 4,8177 1,8356249 100
China 4,9198 2,7232289 100
Brasil 5,1245 2,0287541 100
Itália 5,1659 1,8911747 100
França 5,1731 1,710981 100
Alemanha 5,3658 2,2183005 100
Total 4,778256 2,1414538 900
R² = 0,051 (R² Ajustado = 0 ,043). Temos 0,051 x 100 = 5,1 %
TABELA 7: VARIÁVEL INDEPENDENTE PAÍS – DIMENSÃO 5.
A dimensão 5, Informação Abstrata versus Não-Abstrata, é caracterizada por
traços como conjunções, voz passiva com ou sem agente, apagamento do pronome
relativo WH em construções de particípio passado e também pelo uso de adjetivos
predicativos. O escore médio dos países variou entre 3,86 (Estados Unidos) e 5,36
(Alemanha) nessa dimensão. O Brasil teve escore 5,12. O escore médio de Biber (1988)
para Academic Prose foi 5,5. Isso mostra que os valores encontrados estão bem
próximos ao que Biber encontrou. Mais uma vez, o percentual que responde pela
variação dos textos é baixo – apenas 5,1 % dependem da origem do autor. Os excertos
abaixo são representantes das três origens citadas.
115
But this expected result is neither completely compatible with the experimental findings (see
the experiments of Fehr and Gachter [7]), nor does it offer an explanation for the emergence of
institutions in human societies. Humans are intrinsically clever, and if they rationally pursue
their own advantage - as every agent in an evolutionary game is supposed to do -, they should
exploit the group solidarity recklessly and contribute to the group structure only when they are
rewarded. Altruism is evolutionarily stupid (except in cases of kin selection). Punishing
defectors is risky and costly.
LEGENDAS:
• trecho em itálico: uso de adjetivo predicativo
• trecho riscado: uso de conjunção
QUADRO 22: EXCERTO DO TEXTO 5 DE ANTROPOLOGIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.
In this paper the eigenvalue system to find the eigenmodes of arbitrarily shaped thin membranes by means of the FE method was derived. The more realistic, but also more complicated Kirchhoff plates are deferred to a future work. For an interactive and comfortable exploration of such membranes, the graphical user interface NumChladni was developed, based on the Qt framework and the OpenGL. Basic problems like the meshing of the membranes and the solution of the eigenvalue system were delegated to specified libraries.
LEGENDAS:
• trecho em negrito: uso de conjunção
• trecho sublinhado: uso da passiva
QUADRO 23: EXCERTO DO TEXTO 10 DE FÍSICA E ASTRONOMIA DA SUBPASTA ALEMANHA. FONTE: O AUTOR.
116
The NTL website summarizes the project purposes into one general question, four research questions and three "tools" (which are) used to answer them.
The proposal (which / that is) synthesized from statements (i) and (iii) with the observation in (ii) becomes a problem when one tries to understand the global functioning of a theoretical paradigm.
LEGENDAS:
• trecho em negrito em parênteses: apagamento do pronome WH
• trecho sublinhado: uso da voz passiva
QUADRO 24: EXCERTOS DO TEXTO 6 DE LINGUÍSTICA DA SUBPASTA BRASIL. FONTE: O AUTOR.
117
This is important for low noise in any low noise amplifier. For this reason a very short input line, no impedance transformation or filtering, and a relatively thick 0.76 mm, low dielectric constant 2.2 were selected.
Resonance between capacitors. It is usually necessary to implement a small bypass capacitor say, 100 pF near the transistor for microwave frequencies and a large (…)
The noise temperatures of both amplifiers were measured at 300 and 17 K. The configuration for the 17 K measurements is shown in Fig. 8. The noise temperature and gain of the NXP amplifier at 300 and 17 K note the scale change are shown in Fig. 9.
(…) through the feedback resistors and becomes 28 dB when power is applied and negative feedback is active.
The second order product at 3.6 GHz and third order product at 2.4 GHz were then measured as a function of input power. The second and third order intercepts were determined to be 10.6 and 16.4 dBm, respectively, and referred to input. The intercepts referred to output are 32 dB higher.
LEGENDAS:
• trecho em itálico: uso de conjunção
• trecho em negrito: uso de adjetivo predicativo
• trecho sublinhado: uso da voz passiva
QUADRO 25: EXCERTOS DO TEXTO 1 DE ENGENHARIA DA SUBPASTA ESTADOS UNIDOS. FONTE: O AUTOR.
118
4.1.3 Área de estudo como variável independente
As Tabelas de 3 a 7 de estatísticas descritivas apresentadas acima tinham
como variável independente o país (origem) do autor. Deste ponto em diante, as
estatísticas descritivas apresentadas nas Tabelas de 8 a 12 mostram os resultados
quando a variável independente é a área de estudo. Da mesma forma, o R² pertinente a
cada uma das 5 dimensões é apresentado em porcentagem após cada tabela.
Ressaltamos que o valor de R² refere-se ao percentual que a variável independente field
(área) responde pela variação.
Área Média Desvio Padrão N
Pesquisa de Materiais
-23,053667 2,3809631 90
Ciências da Vida -22,697778 4,2981213 90
Química -22,505556 3,430029 90
Engenharia -20,806889 3,7387749 90
Psicologia -20,022111 4,4243386 90
Economia -19,605444 3,8906662 90
Física e Astronomia -18,407444 4,3223123 90
Antropologia -18,009111 5,0286352 90
Eng, e Ciência da Computação
-16,847222 5,0249378 90
Linguística -15,935333 5,380581 90
Total -19,789056 4,8703776 900
R²= 0,237 (R² Ajustado = 0,229). Temos 0, 237 x 100 = 2.37 %
TABELA 8: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 1
Para a dimensão 1, Produção com Interação versus Informacional, em que a
variável independente é uma das dez áreas de estudo (field), somente 2,3% da variação
presente no continuum ocorre devido à área. A variação entre elas é baixa. A área de
119
Pesquisa de Materiais apresenta um escore mais alto que as demais, com -23,0 e
Linguística apresenta o menor escore, que é -15,9. Todas as áreas pesquisadas se
concentram no polo negativo, de produção informacional, conforme é esperado de
artigos acadêmicos. Os excertos abaixo foram retirados do corpus aleatoriamente, sem
preocupação com a origem do autor. No entanto, as origens se encontram em parênteses
após a área.
Mechanical Characterization with the Aid of Nanoindentation (cf., e.g., [21]) was
carried out under ambient conditions using a commercial nanoindenter (Hysitron Tribo
Scope), which was attached to a scanning probe microscope (Nano Scope III
Multimode).
Applying the procedure of [23], hardness H and the (reduced) Young's modulus Er
were evaluated. The Meyer hardness [24] H (which is / was ) used here is defined as H
= F(hc) /A(hc), where F is the applied force and A(hc) is the area of the indent (which
is / was) projected onto the surface. hc is the true contact depth taking into account
only that part of the penetration depth which is defined by an indenter-specimen
contact. Examples of load-penetration curves are displayed in Figure 8 for bulk
trigonal sapphire prior to coating with TiC/VC (…)
Hardness H and reduced Young's modulus Er have been evaluated fr 10 and 11.
Obviously, MuLs are enhancing H of Si as well as of sapphire at the penetration depths
investigated (Figure 10). om F(h) curves and plotted in Figures 10 and 11.
LEGENDAS:
• trecho sublinhado: uso da voz passiva sem agente
• trecho riscado: uso de palavras longas
• trecho em negrito: uso de substantivos
• trecho em itálico: apagamento de verbo de ligação e WH
QUADRO 26: EXCERTOS DE TEXTO DA ÁREA PESQUISA DE MATERIAIS (ALEMANHA). FONTE: O AUTOR.
120
In Indian English, pre- is substituted for post- in postpone to create prepone, which indicates,
for example, that a meeting has been moved to a sooner time.
Often, one is substituted for a; for example, And one black lady.... The and a are often
dropped when they should be said and used when they should be left out. It is not uncommon
to hear something like, We are going to temple. Whether or not these apparent misuses are
actually arbitrary would require further study
LEGENDA:
• trecho sublinhado: uso da voz passiva sem agente
• trecho em negrito: uso de substantivos
• trecho riscado: uso de adjetivo atributivo
QUADRO 27: EXCERTOS DE TEXTO DA ÁREA LINGUÍSTICA (ÍNDIA). FONTE: O AUTOR.
121
Área Média Desvio Padrão N
Física e Astronomia -4,333889 0,6232115 90
Eng. e Ciência da Computação
-4,159333 0,7432994 90
Engenharia -4,152 0,8492643 90
Pesquisa de Materiais
-3,957444 0,5939632 90
Economia -3,95 0,7812681 90
Química -3,816111 0,667502 90
Ciências da Vida -3,606444 0,702564 90
Psicologia -3,173333 0,90127 90
Linguística -3,103556 0,9534718 90
Antropologia -2,689222 1,0952546 90
Total -3,694133 0,9511048 900
R²= 0,290 (R² Ajustado = 0,283). Temos 0,290 x 100 = 2,9 %
Tabela 9: Variável Independente Área – dimensão 2
Na dimensão 2, Preocupações Narrativas versus Não-Narrativas, Física e
Astronomia e Engenharia e Ciência da Computação são as áreas que apresentam textos
como menor número de características narrativas que as demais. Seus escores médios
são, respectivamente, -4,33 e -4,15. A diferença é sutil. Antropologia, cujos textos
apresentam escore médio -2,68, apesar de ainda estar no polo negativo (preocupações
não-narrativas), está mais distante que as outras áreas, no continuum, com mais
características narrativas. Somente 2,9% da variação dependem da área de estudo. Os
excertos abaixo servem para ilustrar as áreas de Física e Astronomia e Antropologia,
que são as duas áreas nos extremos.
122
The longitude where the RMs transition from being predominantly negative to predominantly positive in the outer Galaxy is what we are after in this study.
It is often assumed the Galactic magnetic field follows the spiral arms everywhere within the Galaxy
It is expected that new observations south of the Galactic disk, which are currently underway, will contribute considerably to the understanding of the disk-halo transition for the magnetic field in this region.
LEGENDAS:
• trecho em negrito: uso de advérbio
• trecho sublinhado: uso de expressão adverbial de lugar
QUADRO 28: EXCERTOS DE TEXTO DA ÁREA DE FÍSICA E ASTRONOMIA (CANADÁ). FONTE: O AUTOR.
Since 1969, which is, as previously said, the official date of the origin of this phenomenon, Skinheads bands had several conflicts with Hippy groups who were protesting against the Vietnam war.
In the end, the cobweb, especially those tattooed in a welldefined skin area, is a symbol which immediately reminds of space.
Unfortunately, it is also hard to establish since when it became an identification tag. Tattoo practice was really common, since the middle 1800, amongst English working class males.
LEGENDAS:
• Trecho em negrito: uso de advérbio e modo e lugar
• Trecho sublinhado: uso de expressão adverbial de lugar
QUADRO 29: EXCERTOS DE TEXTO DE ANTROPOLOGIA (ITÁLIA). FONTE: O AUTOR.
123
Área Média Desvio Padrão N
Física e Astronomia 4,920444 1,862072 90
Química 5,421889 1,9682781 90
Ciências da Vida 5,636 2,1461446 90
Pesquisa de Materiais
6,390667 1,7827537 90
Eng. e Ciência da Computação
6,491778 2,2721996 90
Engenharia 6,663111 1,8141043 90
Economia 6,839222 2,1327512 90
Linguística 7,019333 2,3623483 90
Antropologia 7,673556 2,4365615 90
Psicologia 7,731111 2,2050221 90
Total 6,478711 2,2756599 900
R²= 0,149 (R² Ajustado= 0,141). Temos 0,149 x 100 = 1,49 %
TABELA 10: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 3.
Para a variável independente Área, a dimensão 3 – Referências Explícitas
versus Dependentes do Contexto –, as áreas de Antropologia e Psicologia têm os
maiores escores médios. Com exceção da área Física e Astronomia, que tem o escore
4,9, as demais áreas estão bastante próximas, bem balanceadas. Mesmo assim, por se
encontrarem no polo positivo, é possível afirmar que os artigos acadêmicos de todas as
áreas apresentam referências explícitas. Isto é, têm traços próprios desse polo, como
orações adjetivas na posição de sujeito e também na posição de objeto, construções com
preposição em posição frontal e nominalizações. O R quadrado (R squared), com valor
igual a 1,49%, mostra que menos de 2% da variação no continuum da dimensão é
dependente da área de pesquisa. Os excertos abaixo ilustram os extremos: Psicologia e
Física e Astronomia.
124
In terms of the implicit memory experiment described above, significant priming
In this paper, we discuss how the ANCOVA model may be applied to priming data before considering the critical assumptions and limitations of the ANCOVA analyses.
To anticipate, the results of the analysis indicate that
In sum, the ANCOVA approach provides a very large increase in efficiency for the category-exemplar production
In this section, we apply the ANCOVA analysis to this design and find that this
For example, the effects of word frequency on the implicit memory test of word-fragment completion
For example, in the simplest case of two experimental conditions (J = 2),
In this approach, the assessment of the within subject effect is based on the J -1 orthogonal contrasts created
LEGENDAS:
• Trecho em negrito: preposição em posição frontal
• Trecho sublinhado: uso de nominalização
QUADRO 30: EXCERTOS DE TEXTO DE PSICOLOGIA (ESTADOS UNIDOS). FONTE: O AUTOR.
125
Several of the additional pulsation periods appear to be close multiples (e.g., 2P) and combinations (e.g., P + P) which are not particularly diagnostic.
In fact, our highly unique 4-part prediction is vindicated in a convincing manner.
LEGENDAS:
• Trecho em negrito: uso de advérbio e modo e lugar
• Trecho sublinhado: oração adjetiva na posição de sujeito
QUADRO 31: EXCERTOS DE TEXTO DE FÍSICA E ASTRONOMIA (ESTADOS UNIDOS). FONTE: O AUTOR.
Área Média Desvio Padrão N
Química -4,863778 1,0250115 90
Pesquisa de Materiais
-4,251667 1,1812184 90
Ciências da Vida -4,019889 1,5172191 90
Física e Astronomia -3,577556 1,6604124 90
Psicologia -3,477667 1,6576463 90
Antropologia -3,229 1,3096659 90
Engenharia -3,213778 1,5497608 90
Economia -2,684444 1,8076555 90
Linguística -2,574 1,8924396 90
Eng. e Ciência da Computação
-2,223111 1,6189584 90
Total -3,411489 1,7187 900
R²= 0,201 (R² Ajustado = 0,193). Temos 0,201 x 100 = 2,01 %
TABELA 11: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 4
126
Na dimensão 4, Expressão Explícita de Persuasão versus Não-Explícita, todas
as áreas estudadas se encontram no polo negativo. Isto é, apresentam persuasão não-
explícita. Caso houvesse alguma área no polo positivo, seus artigos seriam
explicitamente persuasivos. Apenas o polo positivo apresenta traços, a saber: o uso de
infinitivo, modais de predição, necessidade e possibilidade e verbos de persuasão.
Conforme mostra R², apenas 2,0% da variação dos escores no continuum depende da
área específica de estudo na qual o artigo se enquadra. De acordo com os dados
estatísticos, entre as áreas estudadas, os artigos de Química são aqueles cuja persuasão
tende a ser a mais não-explícita. Por outro lado, os artigos de Engenharia e Ciência da
Computação tendem a ser os que apresentam menos traços de persuasão não-explícita.
Os excertos abaixo vêm corroborar que as duas áreas mencionadas apresentam poucos
traços dessa dimensão.
The adsorption kinetics is important for adsorption studies because it can predict the rate at which Pb(II) is removed from aqueous solutions.
To examine the thermal stability of as-synthesized Ni(OH)2 from pine template, TG-DTA analysis was performed and the related curves are presented in Fig. 1.
LEGENDA:
• Trecho sublinhado: modal de predição
• Trecho em negrito: uso de infinitivo
QUADRO 32: EXCERTO DE TEXTO DE QUÍMICA (CHINA). FONTE: O AUTOR.
127
The application of using conditional distribution theory to carry out scientific analysis and calculations with real data (…)
Conditional distribution for random variables derives from conditional probability for random events, so there is a close relationship between the two and the approaches to handle them are the same, but conditional distribution is more complex to deal with (Feng Tai, Liu De-yin. 1985)( Liang Yi. 1998).
LEGENDA:
• Trecho em negrito: uso de infinitivo
QUADRO 33: EXCERTO DE TEXTO DE ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO (CHINA). FONTE: O AUTOR.
128
Área Média Desvio Padrão N
Antropologia 3,991222 1,6399711 90
Economia 4,299 1,9818514 90
Linguística 4,525667 1,7744935 90
Psicologia 4,601111 2,1283361 90
Física e Astronomia 4,703667 2,3974338 90
Química 4,765333 2,064808 90
Eng. e Ciência da Computação
4,994 2,5201239 90
Ciências da Vida 5,036444 1,9817977 90
Engenharia 5,402222 2,4611205 90
Pesquisa de Materiais
5,463889 1,9326297 90
Total 4,778256 2,1414538 900
R²= 0,042 (R² Ajustado = 0,032). Temos 0,042 x 100 = 4,2%
TABELA 12: VARIÁVEL INDEPENDENTE ÁREA – DIMENSÃO 5
A dimensão 5, Informação Abstrata versus Não-Abstrata, tem seus traços
concentrados no polo positivo (informação abstrata). As áreas de Pesquisa de Materiais
e Engenharia são as que aparecem com os maiores escores nessa dimensão. Conforme
pode ser observado na Tabela 12, seus escores são, 5,46 e 5,40, respectivamente.
Portanto, pode-se afirmar que essas são as áreas cujos artigos têm mais características
linguísticas que remetem à abstração. De todas as áreas, Antropologia é a que apresenta
menor escore, o que indica que ela é a menos abstrata. Conforme demonstra o R
quadrado, somente 4,2% da variação nessa dimensão é atribuído à área de estudo.
Podemos observar características dessa dimensão nos excertos abaixo, que ilustram os
dois extremos da tabela de estatística descritiva acima.
129
Fig. 2 Two cord technique: (a) A piece of fine retraction cord is placed in the gingival sulcus;
(b) A thicker cord is placed over the first leaving a tag for removal; (c) The thicker cord is
removed after washing (note clearly defined sulcus); and (d) The resulting impression of the
lower first premolar has been summarised in the tables.
Two stage unspaced -- putty is recorded first and after setting relined with a thin layer of wash.
Two stage spaced -- as for two stage unspaced except a space is created for the wash.
These systems are used in a way similar to the putty-wash technique for silicone rubbers
(which will be) described later in this article
Unfortunately, their elastic properties are not ideal and some of this strain may not be
recovered (high value for stress relaxation 2 minutes after setting time).
(…) they do have a high elastic modulus and consequently are relatively rigid when set,
hence considerable force may be required to remove the impression from both the mouth and
the stone cast
In such cases the above techniques are unsuitable and surgical crown lengthening with
osseous recontouring may be indicated to ensure that the gingival attachment
Every effort should be made to ensure that tooth preparations are being carried out in a healthy
mouth.
LEGENDAS:
• Trecho sublinhado: uso de voz passiva
• Trecho em negrito: uso de adjetivo predicativo
• Trecho riscado: apagamento do pronome WH QUADRO 34: EXCERTO DE TEXTO DE PESQUISA DE MATERIAIS (REINO UNIDO). FONTE: O AUTOR.
130
Thus, the European map is divided into several entities (which are) materialized by
different institutions.
But, European space is still divided into two parts: on the one hand, the members of the
European Union, and on the other hand, non-members.
"Space" can firstly be understood as an area in which social, cultural and political
processes are projected.
During the Cold War, the two European spaces were characterized by a bipolar identity:
on one hand a Western identity (which is) based on democratic and capitalist values and on the
other hand, identity (which is) based on communist ideology.
But, how can the Europeans of a Great Europe be defined?
This model implies state identity as primary and sense of belonging to Europe as secondary,
but also of importance.
LEGENDAS:
• Trecho em negrito: uso da voz passiva
• Trecho riscado: apagamento de pronome relativo WH
• Trecho em itálico: uso de conjunção QUADRO 35: EXCERTOS DE TEXTO DE ANTROPOLOGIA (FRANÇA). FONTE: O AUTOR.
131
4.2 DISCUSSÃO DOS RESULTADOS
Em pesquisas científicas, é essencial a escolha da metodologia adequada para
o desenvolvimento do estudo, capaz de proporcionar resultados que possam ser
analisados de maneira confiável. Neste estudo, a interface entre a Linguística de Corpus
e a Análise Multidimensional possibilitou a análise de um grande número de dados.
Foram estudos 900 artigos acadêmicos de 10 diferentes áreas de pesquisa.
Seguindo o caráter que é peculiar às pesquisas em Linguística Aplicada, os
resultados apresentados neste estudo podem ter um papel prático para áreas como o
ensino e a tradução. A revelação dos traços linguísticos de artigos acadêmicos escritos
por brasileiros e por cientistas de outras origens traz à luz informações que podem ser
relevantes para os pesquisadores que buscam publicar em periódicos estrangeiros.
Neste capítulo, apresentamos a discussão dos resultados. Essa discussão dar-
se-á da seguinte maneira: na primeira parte, será discutida a posição dos autores
brasileiros nas cinco dimensões de Biber (1988); na segunda, será apresentada uma
comparação entre as diferentes áreas de pesquisa, utilizando-se como referência as
dimensões de Biber (1988).
4.2.1 Autores brasileiros nas dimensões de Biber (1988)
Dimensão 1
Observando o valor de R² ajustado na dimensão 1, menos de 6% da variação
entre os artigos estudados dependem da origem do autor. Ou seja, a origem do autor não
influi significativamente na variação. Entretanto, embora não haja uma diferença grande
entre as médias dos escores para esta dimensão, o subcorpus Brasil se apresenta como o
mais informacional de todos os países estudados.
Os artigos dos autores brasileiros apresentam mais características referentes à
produção informacional do que aqueles escritos por pesquisadores considerados nativos
no âmbito deste estudo. Isso mostra que os artigos escritos por pesquisadores brasileiros
são letrados e apresentam traços que são esperados da escrita acadêmica, de acordo com
o que foi estabelecido a partir do estudo de Biber (1988).
132
Um dos traços nesta dimensão é o uso de palavras longas. Conforme pode ser
visto nos excertos do texto 1 de Química, que apresenta palavras como inflammatory e
demonstrate, com origem no latim, não apresentam nenhuma dificuldade para
pesquisadores brasileiros.
Por outro lado, os artigos dos brasileiros são menos interativos, ou seja,
apresentam o menor número de traços referentes à interação que, apesar de raros, são
características desta dimensão.
Dimensão 2
Nessa dimensão, o Brasil se encontra exacerbado no polo negativo, Não-
Narrativo, com escore -3,92. Apenas o escore da Alemanha é maior. Claramente os
resultados da análise dos artigos escritos por brasileiros se equiparam ao que Biber
(1988) encontrou para a prosa acadêmica. O resultado encontrado por Biber para prosa
acadêmica foi -2,6. Vale ressaltar que em seu estudo, Biber reuniu no registro prosa
acadêmica textos como palestras, instruções em materiais didáticos e cartas formais
escritas no meio acadêmico, entre outros. Sendo assim, não é possível determinar se,
caso os corpora fossem compostos com o mesmo tipo de registro, isto é, artigos
acadêmicos, os escores teriam sido mais semelhantes.
As expressões adverbiais de lugar são abundantes em artigos de brasileiros.
Muitas são referentes a lugar, com as quais o autor elabora sua referência no texto,
como podem ser observadas nos excertos abaixo. According to a recent survey (Nalon et al., 2008), only 3.6% of the area of the São José dos Dourados basin is occupied by natural vegetation. The remainder, including the riparian areas, is occupied primarily by pasture and sugar cane (Silva et al., 2007). (texto da pasta Ciências da Vida)
Mesohabitat use by brown trout (Salmo trutta) in a small groundwater-dominated stream. (texto da pasta Ciências da Vida)
According to BLUMENTHAL (1999), in Deer Valley Unified School District Arizona, a bus circulates with a mixture of B20. In some countries of Europe, as for instance in Germany, already significant fleet of vehicles, collective exists and of loads using. (texto da pasta Economia)
Na dimensão 2, podemos observar o uso de infinitivos como uma
característica de texto expositivo, como é o caso do excerto abaixo, cujos infinitivos
133
estão marcados em negrito. The Boltzmann model used to determine K computationally is able to simulate dynamically the mass transport as well as the momentum, which in this case is the Navier Stokes equation (NS equation).
(texto da pasta Física e Astronomia)
Dimensão 3
Nesta dimensão, o Brasil também está polarizado como a origem mais
explícita do grupo. Dessa forma, é possível afirmar que o texto escrito pelo pesquisador
brasileiro possui os seguintes traços: uso de nominalizações, preposições em posição
frontal e orações adjetivas. Tais características apontam que o texto é bastante
elaborado, com referências endofóricas. Nos excertos abaixo, retirados do mesmo
artigo, apesar da existência de outros traços, enfatizamos o uso abundante de
preposições em posição frontal. To better understand the factors that influence pain reactivity in preterm infants, it is useful to analyze the effects of individual variables such as gestational age, clinical health status, and sex.
In a set of cross-over studies, results showed relationships between stressful and painful procedures.
In a cross-sectional study, Bartocci et al. (2006) found sex differences in infants during a painful venipuncture procedure for blood collection.
At the thenar, children born full-term who remained in the NICU had higher heat pain thresholds than control full-term children.
In the second study, all three groups (high, moderate, and low) exhibited the same underlying structure of pain responses reflected by facial reactions, accounting for the greatest variance across all factors including both behavioral (facial reactions) and physiological (oxygen saturation and heart rate) indicators (Stevens et al., 2007c).
In conclusion, gestational age and neonatal illness severity influence pain responses in infants during the neonatal phase and in children born preterm.
In a cross-sectional study of 40 preterm infants (gestational ageage, 28-36 weeks), Bartocci et al. (2006) found that the increased magnitude of pain-induced cortical activation was negatively correlated with gestational age during a venipuncture procedure for blood collection.
In the first session, infants were assessed at 1-7 days of postnatal age during a heel lance procedure in the NICU.
(texto da pasta Psicologia)
134
Dimensão 4
É interessante observar que, apesar de todas as origens se encontrarem no polo
negativo, os artigos acadêmicos de autores brasileiros são aqueles que mais se
distanciam da persuasão explícita. Isto é, a persuasão em seus artigos é de maneira não-
explícita. Por outro lado, os artigos de pesquisadores do Reino Unido, embora estejam
no lado implícito da persuasão, estão mais próximos do polo positivo.
Os excertos abaixo são de um texto da área de Pesquisa e Materiais da
Subpasta Brasil. Neles observarmos variados usos de descrição. É possível
especularmos que esta seja uma forma de persuasão implícita.
Although, the water absorption appeared to rise with concentration of rock, between 1100 and 1200 °C, it remained practically the same for all samples, for all samples, considering the standard deviation in the measurements. The presence of fluxing oxides in the rock aided the formation of the liquid phase, while the quartz added decreased the retraction and water absorption of the ceramic pieces.
This finding is explained by the increased concentration of crystalline SiO2 and decrease in kaolinite and, consequently, alumina. Thus, these materials exhibit a chemical composition with large amounts of potassium, giving them a flux character [7].
The shoulder to the left of the first order peak (8.5° (10 Å)), indicates the presence of inter-stratified clay mineral, which is the mixed layer clay mineral most abundant and common in sedimentary rocks and soils [14].
(texto da pasta Pesquisa e Materiais)
Dimensão 5
Nesta dimensão, os artigos escritos por brasileiros teve escore 5,12. Isso
indica que esses textos têm traços de informação abstrata, como é esperado do registro
artigo acadêmico. No excerto abaixo, de um texto da área de Psicologia, é possível
observar o uso da voz passiva, que ocorre de maneira sequencial. Na ilustração, a
passiva está realçada em negrito. Chow and glucose availability are indicated by gray areas and black empty rectangles on the actograms and thermograms, respectively. Motor activity is represented in 15
135
min bins. Thermograms are presented in gray scale from 34°C to 39°C. Missing activity data are shown as a horizontal gray bar in the actograms.
(texto da pasta Psicologia)
Nessa discussão, podemos afirmar que o texto escrito pelo pesquisador
brasileiro é marcado. Das cinco dimensões propostas por Biber (1988), nas quatro
primeiras o texto brasileiro é bem acentuado, conforme mostram os resultados.
4.2.2 Comparação entre as áreas de pesquisa
Quanto às áreas estudadas na pesquisa, na dimensão 1, todas as áreas estão no
polo negativo, de Produção Informacional. Portanto, elas apresentam traços de escrita
informacional, o que seria esperado de artigos acadêmicos. Somente 2,37% da variação
é dependente da área de estudo.
Para a dimensão 2, mais uma vez todas as áreas se encontram no polo
negativo, de Preocupações Não-Narrativas. Assim, os traços que compõem essa
dimensão estão presentes nos artigos de todas as áreas estudadas. Apenas 2,9% da
variação existente são devidos à área. No entanto, é curioso observar que o uso escasso
do pretérito em textos não-narrativos, em negrito nos exemplos abaixo, pode indicar que
esta seja uma maneira de descrição.
In the second step of analysis, we wanted to determine whether achievers and underachievers could be differentiated in accordance with our explanatory (…)
For instance, Durr (1964), from the perspective of learning psychology, defined underachievement as a significant discrepancy between IQ and perfect (…)
(texto da pasta Psicologia)
Ainda na dimensão 2, foram observadas expressões adverbiais marcadamente
não convencionais, como podemos ver nos excertos abaixo, marcados em negrito.
Ressaltamos que os advérbios convencionais não foram marcados. No primeiro
exemplo, temos uma expressão de tempo e no segundo, uma expressão de lugar.
136
Since 1969, which is, as previously said, the official date of the origin of this phenomenon, Skinheads bands had several conflicts with Hippy groups who were protesting against the Vietnam war.
In the end, the cobweb, especially those tattooed in a welldefined skin area, is a symbol which immediately reminds of space.
(texto da pasta Antropologia)
Em relação à dimensão 3, observamos que, como nas dimensões anteriores, as
áreas que compõem o corpus de estudo seguem o que seria esperado; ou seja, estão no
polo positivo, de Referências Explícitas. Exceto Física e Astronomia, os escores entre as
áreas estão muito balanceados, com pouca variação. Esta dimensão apresenta o menor
percentual de variação devido à área, somente 1,49%. É interessante o número de
preposições em posição frontal que podem ser observadas em um único texto, como nos
excertos abaixo, apresentado no capítulo anterior e que revemos aqui.
In terms of the implicit memory experiment described above, significant priming
In this paper, we discuss how the ANCOVA model may be applied to priming data before considering the critical assumptions and limitations of the ANCOVA analyses.
To anticipate, the results of the analysis indicate that
In sum, the ANCOVA approach provides a very large increase in efficiency for the category-exemplar production
In this section, we apply the ANCOVA analysis to this design and find that this
For example, the effects of word frequency on the implicit memory test of word-fragment completion
For example, in the simplest case of two experimental conditions (J = 2),
In this approach, the assessment of the within subject effect is based on the J -1 orthogonal contrasts created
(texto da pasta Psicologia)
A dimensão 4 apresenta o segundo menor percentual de variação devido à
área, 2%. As características que compõem a dimensão 4 encontram-se no polo positivo,
de persuasão explícita. No entanto, todas as áreas se encontram no polo negativo.
Assim, é possível afirmar que a forma de persuasão encontrada pelos autores não é feita
por meio do uso intensivo de traços inerentes a esta dimensão. De fato, eles ocorrem em
137
menor número, conforme podemos ver nos exemplos abaixo em que o infinitivo, traço
de persuasão explícita, mostrado sublinhado, é usado duas e três vezes, respectivamente. In particular that means to explain the ultra relativistic electron spectra within the jet, which are believed to be responsible for the gamma radiation.
(texto da pasta Física e Astronomia)
In such a case, it may be useful to align all available RefSeq protein sequences for the gene of interest to see where they differ and to assess whether or not substantial differences require further investigation.
(texto da pasta Ciências da Vida)
Já nos dois excertos abaixo, é possível conjeturarmos que os verbos no
pretérito usados, tipicamente de textos descritivos, parecem sugerir uma forma de
persuasão por parte do autor. Aparentemente, a persuasão pode ser elaborada com
verbos descritivos.
The most parsimonious explanation for our results is our null hypothesis presented above, that (i ) individuals are (…)
Furthermore: (i ) as described above, our experiment was designed to minimize the potential for reciprocity;
(texto da pasta de Economia)
Da mesma forma, podemos sugerir que o excerto de Química abaixo, com
verbos de descrição, mostra uma persuasão não-explícita.
The second region represented the intra-particle diffusion which is the rate limiting step. The third region showed the final equilibrium stage where intra-particle diffusion slows down owing to the extremely low concentration of adsorbent left in the solutions.
(texto da pasta de Química)
Quanto à dimensão 5, relativa à Informação Abstrata versus Não-abstrata, em
que os traços que a caracterizam se encontram no polo positivo (Abstrato), podemos
afirmar que a área de Antropologia é a menos abstrata. Nessa dimensão, 4,2% da
138
variação é dependente da área. Antropologia apresenta o menor escore do grupo e
contrasta com as áreas de Pesquisa de Materiais e a área de Engenharia, que apresentam
os maiores escores. Esse resultado é esperado, uma vez que a linguagem usada na área
de Humanidades tende a ser de mais acessibilidade e compreensão geral, portanto
menos abstrata, do que aquela apresentada pela área das ciências duras, como é o caso
da Pesquisa de Materiais e da Engenharia.
Conforme dito no início desta tese, os artigos que compõem o corpus de
estudo foram coletados entre janeiro e dezembro de 2013. Com base nos resultados
obtidos, podemos concluir que os textos de autores brasileiros são semelhantes àqueles
produzidos por pesquisadores das outras origens pesquisadas. A partir dos resultados
desta pesquisa foi possível constatar que os artigos acadêmicos escritos por
pesquisadores brasileiros apresentam estrutura e léxico semelhantes aos artigos de
outras origens, situados nos mesmos patamares, e mesmo dentro das diferentes áreas de
estudo.
139
5. CONSIDERAÇÕES FINAIS
Esta pesquisa pretendeu contribuir de maneira original para uma área de
estudos linguísticos no mundo globalizado. O estudo teve como objetivo descrever, a
partir do mapeamento nas dimensões de variação de Biber (1988), 900 artigos
acadêmicos em língua inglesa, escritos por pesquisadores de dez áreas de estudo e de
nove diferentes origens. Apesar de o foco deste trabalho ser o autor brasileiro, outras
origens compuseram o corpus para fins comparativos, uma vez que nós esperávamos a
ocorrência de variação entre as origens.
O estudo mostrou que a escrita dos brasileiros cujos artigos compõem o
corpus CERA é semelhante ou equiparável àquela dos pesquisadores de outros países.
Dessa forma, acreditamos que os pesquisadores que tiveram seus artigos publicados
conseguiram vencer a barreira da língua.
Para a execução desta pesquisa não foi necessário termos o percentual de
pesquisadores brasileiros e estrangeiros que não conseguem ter seus artigos publicados.
No entanto, de acordo com relatos na literatura, sabemos que são muitos os que não
conseguem. Assim, podemos conjeturar que a dificuldade em publicar encontrada por
muitos pesquisadores, ou a resposta negativa a uma submissão a publicação, acontece
por vários motivos. Entre eles, podem ser destacados a falta ou insuficiência de apoio
por parte das instituições às quais os autores são filiados. Acreditamos que esse suporte
poderia ser feito, por exemplo, com a criação de uma secretaria de apoio ao pesquisador
e com a oferta de treinamento para aprimorar a escrita acadêmica em inglês, como já
fazem algumas instituição como a Unicamp e a Unesp.
Esta pesquisa mostrou traços de escrita acadêmica presentes em 900 artigos de
dez diferentes áreas de pesquisa, escritos por pesquisadores de nove origens. É possível
especularmos que os artigos cuja submissão a um periódico seja negada devido à
ausência das características apresentadas por esta pesquisa. Assim, apesar de não
solucionar as questões referentes à recusa de artigos submetidos para publicação, esta
pesquisa contribui para a discussão, trazendo à luz alguns aspectos linguísticos que, se
levados em consideração pelos autores, poderão agregar valores à escrita dos
140
brasileiros.
Embora não esteja no escopo do trabalho aqui apresentado, a partir dos
resultados deste estudo, materiais didáticos poderão ser desenvolvidos. Uma sugestão
seria um curso baseado nas características linguísticas típicas de cada área, de forma a
contribuir com um aumento da produtividade científica brasileira medida pelas
publicações indexadas no contexto internacional. Acreditamos que os resultados desta
pesquisa poderão ser úteis a tradutores e a outros pesquisadores que buscam publicar em
inglês.
Como todo estudo, este também teve limitações, que nos cabe apresentar.
Malgrado a pesquisa sobre a origem dos autores tenha sido bastante minuciosa, dado o
conceito de origem adotado (local de nascimento e trabalho do autor), as origens
encontradas e apresentadas na pesquisa são passíveis de erros. Outro ponto a ser
considerado é referente à autoria. O pesquisador está ciente de que, no processo
editorial, e, ainda, considerando os serviços de empresas de tradução, amplamente
divulgados no meio acadêmico, a possibilidade de que terceiros tenham contribuído
efetivamente na escrita dos artigos pode tornar questionável a autoria apresentada. No
entanto, apesar disso, é preciso ressaltar que o foco da pesquisa não são os indivíduos
escritores, mas sim os textos publicados. Sendo assim, esta pesquisa nunca teve a
intenção de responder a questões relacionadas a participação de indivíduos na produção
dos textos que compõem o corpus de estudo, sejam eles autor, revisor, editor, etc. Em
relação à anotação do corpus, sabe-se que, do total das etiquetas atribuídas às unidades
ortográficas, o etiquetador Biber Tagger apresenta um índice de precisão de 95%
(Biber, 1995). Apesar de esse ser um percentual alto e aceitável em estudos de corpora,
a ferramenta usada no processamento do corpus que gerou esse índice, como toda
ferramenta, é passível de erro.
A partir do objetivo de levantar as dimensões de variação do artigo de
pesquisa acadêmica do corpus CERA à luz das cinco dimensões de variação do inglês
propostas por Biber (1988), este estudo buscou responder às seguintes perguntas de
pesquisa:
141
1. Como essas áreas diferentes de conhecimento se comparam quanto às
dimensões do inglês propostas por Biber (1988)?
2. Como as diferentes origens dos autores se comparam quanto às dimensões
propostas por Biber (1988)?
Dessa forma, respondendo à pergunta 1, nossos resultados mostram que as
áreas de pesquisa estudadas têm os mesmos perfis nas cinco dimensões de Biber (1988).
Assim, ora todas estão no polo positivo de uma dimensão, ora todas estão no polo
negativo.
Em relação à pergunta 2, podemos dizer que o texto escrito pelo pesquisador
brasileiro é marcado. Das cinco dimensões propostas por Biber (1988), nas quatro
primeiras, o texto brasileiro é bem acentuado, conforme podemos observar nos
resultados e na discussão.
Com base nas descobertas desta pesquisa, outros estudos relacionados à
escrita de artigos acadêmicos poderão ser conduzidos, que darão continuidade a este
trabalho. Entre os temas possíveis de serem levantados, sugerem-se, por exemplo:
– conduzir um estudo que contemple uma análise fatorial completa;
– identificar as marcas de texto de cada origem;
– tentar prever as línguas dos autores com base nessas marcas;
– identificar as palavras-chave exclusivas de cada origem e área.
Esta pesquisa respondeu pesquisas até então deixadas em aberto sobre a
escrita acadêmica brasileira e estrangeira, mostrando empiricamente as semelhanças e
diferenças entre textos de autores de várias origens e áreas.
142
REFERÊNCIAS
ACUNZO, C. M. Uso de corpora para o ensino de lingua inglesa para profissionais de publicidade. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem. Pontifícia Universidade Católica de São Paulo. São Paulo, 2012.
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR 6022: informação e documentação: artigo em publicação periódica científica impressa: apresentação. Rio de Janeiro, 2003.
BARTELL, M. Internationalization of universities: A university culture-based framework. Higher Education, Manitoba, Winnipeg, n. 1, v. 45, p. 43-70, 2003.
BENNETT, G. R. Using corpora in the language learning classroom: Corpus linguistics for teachers. ELT, Michigan, 2010.
BERBER SARDINHA, T. Usando o WordSmith Tools na investigação da linguagem. DIRECT Papers, São Paulo e Liverpool, n. 40, 1999.
_____. Beginning Portuguese corpus linguistics: exploring a corpus to teach Portuguese as a foreign language. D.E.L.T.A., São Paulo, n. 2, v. 15, 1999b.
______. Análise Multidimensional. D.E.L.T.A., São Paulo, n.16, v.1, 2000a.
______. Linguística de corpus: histórico e problemática. D.E.L.T.A., São Paulo, v. 16, n. 2, p. 323-367, 2000b.
______. O que é um corpus representativo?. DIRECT Papers, São Paulo e Liverpool, n. 44, 2000c.
______. Linguística de Corpus. Barueri, SP: Manole, 2004a.
______. Informatividade, interatividade e narratividade na reunião de negócios Análise Multidimensional e palavras-chave. Direct Papers, São Paulo e Liverpool, n. 52, 2004b.
______. A língua portuguesa no computador. Campinas: Mercado de Letras, 2005.
_____. Pesquisa em Linguística de Corpus com Wordsmith Tools. Campinas: Mercado de Letras, 2009.
______. Variação entre registros da Internet. In: SHEPHERD, Tania G. & SALIÉS, Tânia G. (Org.) Linguística da Internet. São Paulo: Contexto, 2013.
BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988.
_____. Representativeness in corpus design. Literary and Linguistic Computing, n. 8, p. 243-257, 1993.
_____. Dimensions of register variation: A cross-linguistic comparison. Cambridge: Cambridge University Press, 1995a.
_____. University Language: A corpus-based study of spoken and written registers. Philadelphia e Amsterdam: John Benjamins, 2006.
143
______. Multi-dimensional approaches. In: LÜDELING, Anke & KYTÖ, Merja (Ed.). Corpus Linguistics: An International Handbook. v.2. Berlin: Walter de Gruyter, 2009.
______. What can a corpus tell us about registers and genres? In: McCARTHY, M & O’KEEFFE, A. (Ed.). The Routledge handbook of Corpus Linguistics. Oxford: Routledge, 2010.
_____. Register as a predictor of linguistic variation. Corpus Linguistics and Linguistic Theory, n. 8-1, p. 9-37, 2012.
BIBER, D. & CONRAD, S. Register, genre, and style. Cambridge: Cambridge University Press, 2009.
BIBER, D.; CONRAD, S.; LEECH, G. Longman grammar of spoken and written English. London: Longman, 2002a.
BIBER, D.; CONRAD, S.; REPPEN, R. Corpus linguistics: investigating language structure and use. New York: Cambridge University Press, 1998.
BIBER, D.; CONRAD, S.; REPPEN, R.; BYRD, P.; HELT, M. Speaking and writing in the university: a multidimensional comparison. Tesol Quarterly, v. 36, n. 1, pp. 9-48, 2002b.
BIBER, D.; DAVIES, D.; JONES, J. K.; TRACY-VENTURA, N. Spoken and written register variation in Spanish: A multi-dimensional analysis. Corpora, v. 1, n.1, p. 1-37, 2006.
BURROUGH-BOENISCH, J. Editing Non-Native English – The 21st Century Text. Disponível em: http://21centurytext.wordpress.com/editing-non-native-en. 2011.
CAO, Y. & XIAO, R. A multi-dimensional contrastive study of English abstracts by native and non-native writers. Corpora, v. 8, n. 2, p. 209-234, 2013.
CARGILL, M. & O’CONNOR, P. Writing scientific research articles: Strategies and steps. Chichester: Wiley Blackwell, 2009.
CHAPMAN, S. & ROUTLEDGE, P. (Ed.). Key thinkers in Linguistics and the Philosophy of Language. Edinburgh: Edinburgh University Press, 2005.
CHIZZOTTI, A. & PONCE, B. J. Avaliação da produção docente no ensino superior: possibilidades e limites. E-curriculum, São Paulo, v.5, n.2, Julho 2010.
CHOMSKY, N. Syntactic structures. The Hague, Netherlands: Mouton, 1981 [1957].
CONDE, Helena M. A. Escolhas lexicais em composições de alunos avançados de inglês originários de instituições de ensino bilíngues e monolíngues – Um estudo multidimensional baseado em corpus. São Paulo, 2002. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem). LAEL/PUC-SP, São Paulo.
CONRAD, S. Corpus linguistics, language variation, and language teaching. In: SINCLAIR, J. (Ed.). How to use corpora in language teaching. Amsterdam: John Benjamins, 2004.
CORTES, V. Lexical bundles in Freshman composition. In: REPPEN, R.; FITZMAURICE, S. M.; BIBER, D. (Ed.). Using Corpora to Explore Linguistic Variation. Amsterdam e Philadelphia: John Benjamins, 2002.
144
CRUZ, O. M. S. S. A avaliatividade em pareceres de revista científica de linguística: uma perspectiva sistêmico-funcional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL, Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.
CRYSTAL, D. Global English. Macmillan Education ELT. Disponível em www.macmillanEnglish.com. 2009. Acesso em 10 ago. 2012.
______. English as a Global Language. 2 ed. Cambridge: Cambridge University Press, 2012.
DELEGÁ-LÚCIO, D. A variação entre textos argumentativos e o material didático de inglês: aplicações da análise multimensional e do Corpus Internacional de Aprendizes de Inglês (ICLE). Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.
FAPESP Número de artigos em inglês supera os publicados em português, de Elton Alisson. 2013. Disponível em: http://agencia.fapesp.br/18109. Acesso em 25 out.2013.
FIRTH, J. R. Selected Papers, 1952-59. PALMER, F. R. (Ed.). Bloomington: Indiana University Press, 1968.
FRIGINAL, E. Twenty-five years of Biber's Multi-Dimensional Analysis: introduction to the special issue and an interview with Douglas Biber. Corpora, v. 8, n. 2, p. 137-152, 2013.
GOSDEN, H. Success in research article writing and revision: A social constructionist perspective. English for Specific Purposes, v. 14, n. 1, p. 37-57, 1995.
GRAY, B. More than discipline: uncovering multi-dimensional patterns of variation in academic research articles. Corpora, v. 8, n. 2, p. 153-181, 2013.
HAEGEMAN, L. Introduction to government and binding theory. Oxford e Cambridge (US): Wiley Blackwell, 1995.
HALLIDAY, M. A. K. An introduction to functional grammar. London: Hodder Education, 2004.
HARDY, J. & RÖMER, U. Disciplinary variation in student writing: a multi-dimensional analysis of the Michigan Corpus of Upper-level Student Papers (MICUSP). Corpora, v. 8, n. 2, p. 183-207, 2013.
HIRANO, E. Research article introductions in English for specific purposes: A comparison between Brazilian Portuguese and English. English for Specific Purposes, n. 28, p. 240-250, 2009.
HOEY, M. Corpus Linguistics and word meaning. In: LÜDELING, Anke & KYTÖ, Merja (Ed.). Corpus Linguistics: An International Handbook. v.2. Berlin: Walter de Gruyter, 2009.
HUNSTON, S. Corpora in Applied Linguistics. Cambridge: Cambridge University Press, 2002.
HYLAND, K. English for professional academic purposes: writing for scholarly publication. In: BELCHER, D. (Ed.). Teaching Language Purposefully: English for Specific Purposes in Theory and Practice. New York: Cambridge University Press, 2007.
145
_____. “The past is the future with the lights on”: Reflections on AELFE’s 20th birthday. Ibérica 24 (2012): 29-42
KAUFFMANN, C. H. O. O corpus do jornal: variação linguística, gênero e dimensões da imprensa diária escrita. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2005.
KENNEDY, G. D. An Introduction to Corpus Linguistics. London: Longman, 1998.
KRIEGER, D. Corpus Linguistics: What it is and how it can be applied to teaching. The Internet TESL Journal, v. 9, n. 3, Março 2003.
LACOSTE, Y. & RAJAGOPALAN, R. A Geopolítica do Inglês. São Paulo: Parábola, 2005.
LANGONI, H. Internacionalização de Pesquisa. Veterinária e Zootecnia, v. 17, n.3, 2010.
LAUS, S. P. Alguns desafios postos pelo processo de internacionalização da educação superior no Brasil. IV Colóquio Internacional sobe Gestão Universitária na América do Sul. Florianópolis, 8, 9 e 10 de dezembro de 2004. Disponível em: http://repositorio.ufsc.br/xmlui/handle/123456789/35810.
LEECH, G. Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation. 2004. Disponível em: http://www.ahds.ac.uk/guides/linguistic-corpora/chapter2.htm
MARQUES, F. Os limites do índice-h. Pesquisa FAPESP, n. 207, Maio 2013.
MAURANEN, A. Lingua franca discourse in academic contexts: Shaped by complexity. In: FLOWERDEW, J. (Ed.). Discourse in Context: Contemporary Applied Linguistics. v. 3. London e New York: Bloomsbury, 2014.
McCARTHY, M. & O’KEEFFE, A. Historical perspective: what are corpora and how they have evolved?. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.
McENERY, T. & WILSON, A.Corpus Linguistics. Edinburgh: Edinburgh University Press, 1996.
McENERY, T. & HARDIE, A. Corpus Linguistics: method, theory and practice. Cambridge: Cambridge University Press, 2012.
McENERY, T. & GABRIELATOS, C. English Corpus Linguistics. In: AARTS, B.& MCMAHON, A. (Ed.). The handbook of English linguistics. Hoboken (NJ): Wiley Blackwell, 2006.
MINISTÉRIO DA EDUCAÇÃO E CULTURA (MEC). Programa Inglês sem Fronteiras. Disponível em http://isf.mec.gov.br/. Acesso em 15 set. 2013.
MOON, R. What can a corpus tell us about lexis?. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.
PAIVA, F. M. A avaliação da internacionalização da pesquisa científica e a pós-graduação no Brasil. IV Congresso Ibero-Americano de Política e Administração da Educação. Abril de 2014. Escola Superior de Educação do Instituto Politécnico do Porto, Portugal.
146
PERROTTI-GARCIA, A. J. Artigos médicos em inglês, publicados em periódicos do Brasil e do exterior: uma análise a partir de corpora comparáveis. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo, São Paulo, 2009.
PINTO, A. C. & ANDRADE, J. B. Fator de impacto de revistas científicas: qual o significado deste parâmetro?. Química Nova, v. 22, n. 3, 1999.
PINTO, A. C. & CUNHA, A. S. Avaliação da pós-graduação da área de Química na CAPES e a internacionalização das revistas da Sociedade Brasileira de Química: Journal of the Brazilian Chemical Society e Química Nova. Química Nova, v. 31, n. 8, p. 2.221-2.226, 2008.
QUIRK, R. S. et al. A Comprehensive Grammar of the English Language. Harlow: Longman, 1985.
SALAGER-MEYER, F. Writing and publishing in peripheral scholarly journals: How to enhance the global influence of multilingual scholars?. Journal of English for Academic Purposes, n. 13, p. 78-82, 2014.
SANCHEZ, A. Definición e historia de los corpus. In: SANCHEZ, A. et al. (Org.) CUMBRE – Corpus Lingüístico del Español Contemporáneo. Madrid: SGEL, p. 7-24, 1995.
SBPC. A internacionalização da ciência brasileira em debate. 25 de Novembro de 2013. Disponível em http://www.sbpcnet.org.br/site/noticias/materias/detalhe.php?id=2172.
SCIELO. Autores cujo idioma nativo não é o inglês e editores, avaliam dificuldades e desafios para publicar em periódicos internacionais. SciELO em Perspectiva. Disponível em: http://blog.scielo.org/blog/2014/05/19/autores-cujo-idioma-nativo-nao-e-o-ingles-e-editores-avaliam-dificuldades-e-desafios-para-publicar-em-periodicos-internacionais/. Acesso em 15 jul.2014.
SHERGUE, O. Dimensão de variação no discurso médico acadêmico: o artigo de pesquisa e a apresentação de trabalhos científicos em congressos. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2003.
SILVA, E. C. F. A estrutura genérica e as escolhas léxico-gramaticais das introduções de dissertações de mestrado na área de Linguística Aplicada. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2004
SINCLAIR, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press, 1991.
_____. Trust the text: language, corpus and discourse. New York: Routledge, 2004.
SOUZA, R. C. A revista TIME em uma perspectiva multidimensional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2012.
STUBBS, M. The search for units of meaning: A Tribute to John McHardy Sinclair (14 June 1933 - 13 March 2007). Universität Trier, Alemanha. 2008. Disponível em: http://www.uni-trier.de/fileadmin/fb2/ANG/Linguistik/Stubbs/stubbs-2008-sinclair-laudatio.pdf.
SWALES, J. Research Genre: Explorations and applications. Cambridge: Cambridge University Press, 2004.
147
TEIXEIRA, R. B. S. Termos de (Onco)mastologia: uma abordagem mediada por corpus. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2010.
TOGNINI-BONELLI, E. Theoretical overview of the evolution of corpus linguistics. In: O'KEEFFE, A. & MCCARTHY, M. (Ed.). The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.
UNIVERSIDADE FEDERAL DO PARANÁ (UFPR). Normas para apresentação de documentos científicos: periódicos e artigos de periódicos. Curitiba: UFPR, 2000. v.4.
VASCONCELOS, M. R. & SORENSON, J. L. Scientist-friendly policies for non-native English-speaking authors: timely and welcome. Journal of Medical and Biological Research, v. 40, n. 6, p. 743-747, 2007.
VENEGAS, R. Multidimensional analysis of an academic corpus in Spanish. In: PARODI, G. (Org.). Academic and professional discourse genres in Spanish. Philadelphia: John Benjamins, 2010.
VEIRANO PINTO, M. A linguagem dos filmes norte-americanos ao longo dos anos: uma abordagem multidimensional. Tese de Doutoramento em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.
XIAO, R. Multidimensional analysis and the study of world Englishes. World Englishes, v. 28, n. 4, p. 421-450, 2009.
ZUPPARDO, M. C. Dimensões de variação em manuais de manutenção aeronáutica: um estudo baseado na análise multidimensional. Dissertação de Mestrado em Linguística Aplicada e Estudos da Linguagem – LAEL. Pontifícia Universidade Católica de São Paulo. São Paulo, 2013.
148
ANEXOS
149
Anexo 1:
MINISTÉRIO DA EDUCAÇÃO
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO ESPÍRITO SANTO
Autarquia criada pela Lei no. 11.892, de 29 de dezembro de 2008
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
DIRETORIA DE PESQUISA
Edital PRPPG 14/2014 – Prodif
FICHA DE INSCRIÇÃO
1. Nome do Proponente:
2. Campus/Coordenadoria de lotação.
3. Especificação do servidor: ( ) Docente ( ) Técnico-Administrativo
4. Quanto tempo é servidor do Ifes (em anos).
5. Nome dos autores do artigo original (Incluir
nesta lista o nome do proponente e indicar os
nomes na ordem da publicação).
Instituição dos autores do artigo original
Autor 01:
Autor 02:
Autor 03:
Autor 04:
Autor 05:
Autor 06:
Autor 07:
OBS. Se o artigo possuir mais de 07 autores, acrescente quantas linhas for necessário no Item 5.
6. Título do artigo original:
7. Serviço a ser contratado: ( ) Versão português-inglês
( ) Revisão do inglês
8. Quantas palavras o original possui?(Incluir
textos das Figuras e dos Gráficos, caso existam).
150
9. Nome da revista/periódico para o qual o artigo
será submetido e o ISSN da revista.
ISSN: Nome:
10. Versão da Revista. ( ) Impressa ( ) Eletrônica
11. O periódico ao qual o artigo será submetido
tem fator de impacto no JCR? No caso positivo
informar o valor do fator de impacto.
( ) Não ( ) Sim
Valor do Fator de impacto
12. O periódico ao qual se pretende submeter o
artigo possui QUALIS? No caso positivo informar
o QUALIS e a área de avaliação.
( ) Não ( ) Sim QUALIS Área de Avaliação
13. O proponente pertence a Grupo de Pesquisa?
Se positivo, informar o nome do Grupo.
( ) Não ( ) Sim Nome/Grupo:
14. O proponente já foi contemplado pelo Edital
PRPPG 02/2014 - Prodif? Se positivo, informar o
número de artigos originais já contemplados.
( ) Não ( ) Sim Número de artigos originais
contemplados:
Vitória, ____ de __________ de _______.
__________________________________________
Assinatura Proponente
ANEXO II
MINISTÉRIO DA EDUCAÇÃO
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO ESPÍRITO SANTO
Autarquia criada pela Lei no. 11.892, de 29 de dezembro de 2008
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
DIRETORIA DE PESQUISA
151
Edital PRPPG 14/2014
Prodif
Versão e revisão de artigos científicos
Termo de Compromisso
Eu,_____________________________________________________________, servidor do Ifes,
lotado no Campus_________________________________, inscrito sob SIAPE nº____________
estou submetendo o artigo original intitulado ___________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
( ) para versão do idioma português para o inglês.
( ) para revisão do idioma inglês.
Estou ciente que com o término do serviço da empresa contratada pelo Ifes, terei que
submeter o artigo original para um periódico especializado em no máximo 15 dias. Estou ciente
da devolução à Instituição do valor pago para a realização do serviço, via GRU, no prazo de 45
(quarenta e cinco) dias contados a partir da data em que recebi o documento pela empresa
contratada, caso eu não venha submeter o artigo original após o fim do trabalho de versão ou de
revisão.
Vitória, ____ de __________ de _______.
__________________________________________
Assinatura Proponente
152
Anexo 2
Country Documents
Citable
documents
Citations Self-Citations Citations
per Document
H index
1 United States 7.063.329 6.672.307 129.540.193 62.480.425 20,45 1.380
2 China 2.680.395 2.655.272 11.253.119 6.127.507 6,17 385
3 United Kingdom 1.918.650 1.763.766 31.393.290 7.513.112 18,29 851
4 Germany 1.782.920 1.704.566 25.848.738 6.852.785 16,16 740
5 Japan 1.776.473 1.734.289 20.347.377 6.073.934 12,11 635
6 France 1.283.370 1.229.376 17.870.597 4.151.730 15,6 681
7 Canada 993.461 946.493 15.696.168 3.050.504 18,5 658
8 Italy 959.688 909.701 12.719.572 2.976.533 15,26 588
9 Spain 759.811 715.452 8.688.942 2.212.008 13,89 476
10 India 750.777 716.232 4.528.302 1.585.248 7,99 301
11 Australia 683.585 643.028 9.338.061 2.016.394 16,73 514
12 Russian Federation 586.646 579.814 3.132.050 938.471 5,52 325
13 South Korea 578.625 566.953 4.640.390 1.067.252 10,55 333
14 Netherlands 547.634 519.258 10.050.413 1.701.502 21,25 576
15 Brazil 461.118 446.892 3.362.480 1.151.280 10,09 305
16 Taiwan 398.720 389.411 3.259.864 790.103 10,41 267
17 Switzerland 395.703 377.016 7.714.443 1.077.442 22,69 569
18 Sweden 375.891 361.569 6.810.427 1.104.677 20,11 511
19 Poland 346.611 339.712 2.441.439 652.956 8,25 302
20 Turkey 306.926 291.814 1.935.431 519.675 8,24 210
Quadro Anexo 2: países e número de citações
Fonte: SCImago Journal & Country Rank, disponível em http://www.scimagojr.com/index.php
153
Anexo 3: Descrição das etiquetas de Biber (texto original em inglês)
Fonte: www.americannationalcorpus.org/.../Biber-tags.txt
Tag descriptions
Doug Biber
15 June, 1993
There are five tag fields, separated by a plus sign (+). For most words,
only one or two of the fields are used. The primary grammatical category of
a word is usually marked in the first tag field; many of these first-field
tags are identical to tags used in the LOB tag set.
In the case of adjectives (TAG = JJ), nouns (TAG = NN), and verbs
(TAG = VB), the tag ?? can appear in Tag Field 4 to mark words that were not in
the dictionary; in these cases, the grammatical category is assigned
based on morphology and the surrounding context.
The tags xvbn and xvbnx in Field 4 mark a word as being a past participle
form, regardless of function. Thus, some adjectives, nouns, and base verb forms
are marked as xvbn. All past tense verbs, perfect aspect verbs, and
passive verbs have this tag. The tag xvbnx is used to mark cases where
the grammatical function (e.g., perfect or passive) has been identified with
a very high degree of accuracy from the context; the tag xvbn is used for cases
where the assigned grammatical function is less certain.
The tags xvbg and xvbgx in Field 4 mark a word as being a present
participle form, regardless of function. Thus, some adjectives and nouns
are marked as xvbg. All present progressive verbs have this tag. The tag xvbgx
is used to mark cases where the grammatical function has been identified with a
very high degree of accuracy; the tag xvbg is used for
cases where the assigned grammatical function is less certain.
154
--------------------------------------------------------------------------
Field 1 + Field 2 + Field 3 + Field 4 + Field 5
Tag
Sequence
:+clp+++ colon + clause punctuation
;+clp+++ semi-colon + clause punctuation
?+clp+++ question mark + clause punctuation
!+clp+++ exclamation mark + clause punctuation
,++++ comma
-++++ dash
"++++ double quote mark
'++++ single quote mark
(++++ left parenthesis
)++++ right parenthesis
$++++ dollar sign
%++++ percent sign
&fo++++ formula symbols
&fw++++ foreign word
abl++++ pre-qualifier (rather, such)
abn++++ pre-quantifier (all, half)
abx++++ pre-quantifier/double conjunction (both)
ap++++ post-determiner (many, more, most, only, other, own, same, ...)
aps++++ (others)
at++++ singular indefinite article (a, an)
ati++++ singular definite article (the, no)
cc++++ coordinating conjunction (and, but, or)
cc+cls+++ coordinating conjunction + clausal connector
155
cc+phrs+++ coordinating conjunction + phrasal connector
cc"++++ multi-word coordinating conjunction (as well as)
cc++neg++ coordinating conjunction + + negation (nor)
cd++++ cardinal number (2, 3, 4, two, three, four, hundred, ...)
cd+date+++ cardinal number + date (year only)
cd1++++ cardinal number: 1, one
cd1s++++ cardinal number: ones
cds++++ cardinal plural (tens, hundreds, thousands)
od++++ ordinal number (1st, 2nd, first, second, ...)
cs+cnd+++ subordinating conjunction + conditional (if, unless)
cs+con+++ subordinating conjunction + concessive (although, though)
cs+cos+++ subordinating conjunction + causative (because)
cs+who+++ subordinating conjunction + WH word (whether)
cs+sub+++ subordinating conjunction + other (as, except, until, ...)
cs"++++ multi-word subordinating conjunction (in that, so that, ...)
dt+dem+++ determiner + demonstrative (this,that,these,those modifying N)
dt+pdem+++ determiner + demonstrative pronoun (this, that, these, those)
dti++++ singular or plural determiner (any, enough, some)
dt++++ other singular determiner (another, each)
dtx++++ determiner/double conjunction (either)
ex+pex+++ existential there
in++++ preposition
in+ppvb+++ preposition + prepositional verb (account for, join in, ...)
in+pl+++ preposition + place marker (above, behind, beside, ...)
in"++++ multi-word perposition (as to, away from, instead of, ...)
in+strn+++ preposition + stranded
156
jj+atrb+++ adjective + attributive function
jj+atrb++xvbg+ adjective + attributive function + + -ing form
jj+atrb++xvbn+ adjective + attributive function + + past participle form
jj+pred+++ adjective + predicative function
jj++++ adjective + indeterminate function
jjb+atrb+++ attributive-only adjective + attributive (chief, entire)
jjr+atrb+++ comparative adjective + attributive function
jjr+pred+++ comparative adjective + predicative function
jjt+atrb+++ superlative adjective + attributive function
-----------------------------------------------------------------------
All modal forms can be marked as 0 in Field 5 (e.g., md+prd+++0) to show that they
are contracted forms (e.g., 'll, 've)
md+nec+++ modal + necessity (ought, should, must)
md+pos+++ modal + possibility (can, may, might, could)
md+prd+++ modal + prediction (will, would, shall)
md"++pmd"++ modal + + multi-word periphrastic modal (e.g., be going to)
nn++++ singular common noun
nn+nom+++ singular noun + nominalization
nvbg+++xvbg+ singular noun + + + -ing form
nn+++xvbn+ singular noun + + + past participle form
nns++++ plural common noun
nns+nom+++ plural noun + nominalization
nnu++++ unit of measurement (lb, kg, ...)
np++++ singular proper noun
157
nps++++ plural proper noun
npl++++ locative noun
npt++++ singular titular noun
npts++++ plural titular noun
nr++++ singular adverbial noun (east, west, today, home, ...)
nrs++++ plural adverbial noun
----------------------------------------------------------------------
NB: In the following pronoun tags, be careful of the difference between the
number 1, used to mark first person, and the letter l (i.e. lower case L), used
to mark reflexives.
pp1a+pp1+++ first person subject pronoun + first person pronoun
pp1a+pp1+++0 first person subject pronoun + 1st person pro. + contracted
pp1o+pp1+++ first person object pronoun + first person pronoun
pp$+pp1+++ possessive determiner + first person pronoun (my, our)
ppl+pp1+++ singular reflexive pronoun + first person pronoun (myself)
ppls+pp1+++ plural reflexive pronoun + first person pronoun (ourselves)
pp2+pp2+++ second person pronoun + second person pronoun
pp$+pp2+++ possessive determiner + second person pronoun (your)
ppl+pp2+++ singular reflexive pronoun + second person pronoun (yourself)
pp3a+pp3+++ third person subject pronoun + third person personal pronoun
pp3o+pp3+++ third person object pronoun + third person personal pronoun
pp3+pp3+++0 third person pronoun + 3rd person personal pro. + contracted
pp$+pp3+++ possessive + 3rd pers. personal pro. (his, her, their)
ppl+pp3+++ sg. reflexive pronoun + 3rd pers. personal pro. (her/himself)
ppls+pp3+++ pl. reflexive pronoun + 3rd pers. personal pro. (themselves)
pp3+it+++ third person pronoun + third person impersonal pronoun (it)
pp$+it+++ possessive determiner + third person impersonal pronoun (its)
pp$$++++ possessive pronoun (mine, yours, ...)
158
pn"++++ multi-word nominal pronoun (no one, ...)
pn++++ nominal pronoun (someone, everything, ...)
ql++++ qualifier + (as, less, more, too)
ql+amp+++ qualifier + amplifier (very)
ql+emph+++ qualifier + emphatic (most)
qlp++++ post-qualifier (enough, indeed)
All adverb forms can be marked as splt in Field 3 (e.g., rb+amp+splt++)
to indicate that the adverb occurs within the auxiliary
(e.g., they've probably been looking...).
rb++++ general adverb
rb"++++ multi-word adverb (at last, in general)
rb+cnj+++ adverb + conjunct (however, therefore, thus, ...)
rb++neg++ neither
rb+amp+++ adverb + amplifier (absolutely, completely, entirely, ...)
rb+down+++ adverb + downtoner (nearly, only, merely, ...)
rb+emph+++ adverb + emphatic (just, really, so, ...)
rb+hdg+++ adverb + hedge (almost, maybe, ...)
rb"+hdg"+++ multi-word adverb + hedge (kind of, sort of)
rb+phrv+++ adverb + phrasal verb (get in, wrap up, ...)
rb+pl+++ adverb + place marker (abroad, ahead, far, upstream, ...)
rb+tm+++ adverb + time marker (afterwards, again, immediately, ...)
rb+dspt+++ adverb + discourse particle (anyway, well, ...)
rbr++++ comparative adverb (better, quicker)
rbr+tm+++ comparative adverb + time marker (earlier, later, sooner, ...)
rn+pl+++ nominal adverb + place marker (here, there)
rn+tm+++ nominal adverb + time marker (now, then)
rn+dspt+++ nominal adverb + discourse particle (now)
159
rp++++ adverbial particle (back, in, round, up, ...)
rp+pl+++ adverbial particle + place marker (away, behind, out, ...)
---------------------------------------------------------------------
tht+jcmp+++ that as dependent clause head + adjective complement
tht+ncmp+++ that as dependent clause head + noun complement
tht+vcmp+++ that as dependent clause head + verb complement
tht+rel+++ that as dependent clause head + relative clause
tht+rel+obj++ that as dep. clause head + relative clause + object position
tht+rel+subj++ that as dep. clause head + relative clause + subject position
--------------------------------------------------------------------------
to++++ infinitive marker
to"++++ multi-word infinitive marker (in order to)
uh++++ interjection/filler (hey, oh, ok, yes, erm ...)
vb++++ base form of verb, excluding verbs in infinitive clauses
(uninflected present tense, imperative)
vb+++xvbn+ base form of verb + + + past participle form
(e.g., cut, hit, hurt, ...)
vb+be+aux++ base form of verb + be + auxiliary verb
vb+be+vrb++ base form of verb + be + main verb
vb+bem+aux++ verb + am + auxiliary verb
vb+bem+aux++0 verb + am + auxiliary verb + + contracted ('m)
vb+bem+vrb++ verb + am + main verb
vb+bem+vrb++0 verb + am + main verb + + contracted ('m)
vb+ber+aux++ verb + are + auxiliary verb
vb+ber+aux++0 verb + are + auxiliary verb + + contracted ('re)
vb+ber+vrb++ verb + are + main verb
160
vb+ber+vrb++0 verb + are + main verb + + contracted ('re)
vb+do+aux++ verb + do + auxiliary verb
vb+do+vrb++ verb + do + main verb
vb+hv+aux++ verb + have + auxiliary verb
vb+hv+aux++0 verb + have + auxiliary verb + + contracted ('ve)
vb+hv+vrb++ verb + have + main verb
vb+hv+vrb++0 verb + have + main verb + + contracted ('ve)
vb+seem+++ base form of verb + seem / appear
vb+vprv+++ base form of verb + private verb (believe, feel, think, ...)
vb+vprv+tht0++ base form of verb + private verb + that deletion **
vb+vpub+++ base form of verb + public verb (assert, complain, say, ...)
vb+vpub+tht0++ base form of verb + public verb + that deletion **
vb+vsua+++ base form of verb + suasive verb (ask, command, insist, ...)
----------------------------------------------------------------------
All past tense verb forms (excluding were, was, did, had) are marked as
either xvbn or xvbnx; only the sequences with xvbn are listed below.
vbd+++xvbn+ past tense verb + + + past participle form
vbd+bed+aux++ past tense verb + were + auxiliary verb
vbd+bed+vrb++ past tense verb + were + main verb
vbd+bedz+aux++ past tense verb + was + auxiliary verb
vbd+bedz+vrb++ past tense verb + was + main verb
vbd+dod+aux++ past tense verb + did + auxiliary verb
vbd+dod+vrb++ past tense verb + did + main verb
vbd+hvd+aux++ past tense verb + had + auxiliary verb
vbd+hvd+vrb++ past tense verb + had + main verb
vbd+seem++xvbn+ past tense verb + seem/appear
vbd+vprv++xvbn+ past tense + private verb (believe, feel, think, ...)
vbd+vprv+tht0+xvbn+ past tense + private verb + that deletion **
vbd+vpub++xvbn+ past tense + public verb (assert, complain, say, ...)
161
vbd+vpub+tht0+xvbn+ past tense + public verb + that deletion **
vbd+vsua++xvbn+ past tense + suasive verb (ask, command, insist, ...)
** the tag tht0 marks the occurrence of a following that complement clause
when the complmentizer that has been deleted.
All present progressive verb forms are marked as either xvbg or xvbgx;
only the sequences with xvbg are listed below.
vbg+++xvbg+ present progressive verb + + + -ing form
vbg+beg++xvbg+ present progressive verb + being
vbg+beg+aux+xvbg+ present progressive verb + being + auxiliary verb
vbg+hvg++xvbg+ present progressive verb + having
vbg+vprv++xvbg+ pres. prog. + private verb (believe, feel, think, ...)
vbg+vprv+tht0+xvbg+ present progressive + private verb + that deletion **
vbg+vpub++xvbg+ pres. prog. + public verb (assert, complain, say, ...)
vbg+vpub+tht0+xvbg+ present progressive + public verb + that deletion **
vbg+vsua++xvbg+ pres. prog. + suasive verb (ask, command, insist, ...)
vwbg+++xvbg+ present progressive postnominal modifier
vwbg+beg++xvbg+ present progressive postnominal modifier + being
vwbg+hvg++xvbg+ present progressive postnominal modifier + having
vwbg+vprv++xvbg+ present prog. postnom. modifier + private verb
vwbg+vpub++xvbg+ present prog. postnom. modifier + public verb
--------------------------------------------------------------------------
vbi++++ base form of verb in infinitive clause
vbi+vprv+++ infinitive verb + private verb (believe, feel, think, ...)
vbi+vprv+tht0++ infinitive verb + private verb + that deletion **
vbi+vpub+++ infinitive verb + public verb (assert, complain, say, ...)
162
vbi+vpub+tht0++ infinitive verb + public verb + that deletion **
vbi+vsua+++ infinitive verb + suasive verb (ask, command, insist, ...)
---------------------------------------------------------------------------
vbz++++ 3rd person singular verb
vbz+bez+aux++ 3rd person sg. verb + is + auxiliary verb
vbz+bez+aux++0 3rd person sg. + is + auxiliary verb + + contracted ('s)
vbz+bez+vrb++ 3rd person sg. verb + is + main verb
vbz+bez+vrb++0 3rd person sg. + is + main verb + + contracted ('s)
vbz+doz+aux++ 3rd person sg. verb + does + auxiliary verb
vbz+doz+vrb++ 3rd person sg. verb + does + main verb
vbz+hvz+aux++ 3rd person sg. verb + has + auxiliary verb
vbz+hvz+vrb++ 3rd person sg. verb + has + main verb
vbz+seem+++ 3rd person sg. verb + seem/appear
vbz+vprv+++ 3rd person sg. + private verb (believe, feel, think, ...)
vbz+vprv+tht0++ 3rd person sg. + private verb + that deletion **
vbz+vpub+++ 3rd person sg. + public verb (assert, complain, say, ...)
vbz+vpub+tht0++ 3rd person sg. + public verb + that deletion **
vbz+vsua+++ 3rd person sg. + suasive verb (ask, command, insist, ...)
** the tag tht0 marks the occurrence of a following that complement clause
when the complmentizer that has been deleted.
All perfect aspect verb forms and passive verb forms are marked as
either xvbn or xvbnx; only the sequences with xvbn are listed below.
163
vprf+++xvbn+ perfect aspect verb + + + past participle form
vprf++tht0+xvbn+ perfect aspect verb + + that deletion **
vprf+ben+aux+xvbn+ perfect aspect verb + been + auxiliary verb
vprf+ben+vrb+xvbn+ perfect aspect verb + been + main verb
vpsv++agls+xvbn+ main clause passive verb + + agentless passive
vpsv++by+xvbn+ main clause passive verb + + by passive
vwbn+++xvbn+ passive postnominal modifier + + + past participle form
vwbn+vprv++xvbn+ passive postnominal modifier + private verb
vwbn+vpub++xvbn+ passive postnominal modifier + public verb
vwbn+vsua++xvbn+ passive postnominal modifier + suasive verb
---------------------------------------------------------------------
wdt+who+++ WH determiner + WH word (what, whatever, whichever, ...)
wdt+who+whcl++ WH determiner + WH word + WH clause
wdt+who+whq++ WH determiner + WH word + WH question
whp+rel+obj++ WH pronoun + relative clause + object position
whp+rel+pied++ WH pronoun + relative clause + object position with
prepositional fronting ('pied piping')
whp+rel+subj++ WH pronoun + relative clause + subject position
whp+who+++ WH pronoun + WH word (not a relative clause)
whp+who+whq++ WH pronoun + WH word + WH question
wrb+who+++ WH adverb (how, when, where, ...) + WH word
wrb+who+whcl++ WH adverb + WH word + WH clause
wrb+who+whq++ WH adverb + WH word + WH question
164
xnot++not++ not + + negation
xnot++not++0 not + + negation + + contracted form (n't)
xvbn+++xvbn+ past participle form -- indeterminate grammatical function
xvbg+++xvbg+ present participle form -- indeterminate grammatical function
zz++++ letter of the alphabet