NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1...

145
MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO SECRETARIA DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO NUNO CAMINADA IDENTIFICAÇÃO AUTOMÁTICA DE EXPRESSÕES CRISTALIZADAS PREPOSICIONAIS EM CORPORA DA LÍNGUA PORTUGUESA RIO DE JANEIRO 2008

Transcript of NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1...

Page 1: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

MINISTÉRIO DA DEFESA

EXÉRCITO BRASILEIRO

SECRETARIA DE CIÊNCIA E TECNOLOGIA

INSTITUTO MILITAR DE ENGENHARIA

CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO

NUNO CAMINADA

IDENTIFICAÇÃO AUTOMÁTICA DE EXPRESSÕES CRISTALIZADA S

PREPOSICIONAIS EM CORPORA DA LÍNGUA PORTUGUESA

RIO DE JANEIRO

2008

Page 2: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Page 3: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

2

INSTITUTO MILITAR DE ENGENHARIA

NUNO CAMINADA

IDENTIFICAÇÃO AUTOMÁTICA DE EXPRESSÕES CRISTALIZADA S

PREPOSICIONAIS EM CORPORA DA LÍNGUA PORTUGUESA

DISSERTAÇÃO DE MESTRADO APRESENTADA AO CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO DO INSTITUTO MILITAR DE ENGENHARIA, COMO REQUISITO PARCIAL PARA OBTENÇÃO DO TÍTULO DE MESTRE EM SISTEMAS E COMPUTAÇÃO.

ORIENTADORES: PROFA. ORIENTADORA VIOLETA QUENTAL, DR., PROF. ORIENTADOR ALEX GARCIA, DR.

RIO DE JANEIRO

2008

Page 4: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

3

INSTITUTO MILITAR DE ENGENHARIA Praça General Tibúrcio, 80-Praia Vermelha Rio de Janeiro-RJ CEP 22290-270 Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do autor e dos orientadores.

xxxx Caminada, Nuno Identificação Automática de Expressões Cristalizadas Preposicionais em Corpora da Língua Portuguesa. - Rio de Janeiro : Instituto Militar de Engenharia, 2008.

Dissertação (mestrado) - Instituto Militar de Engenharia,

1. Lingüística computacional. 2. Expressões Multivocabulares

Page 5: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

4

INSTITUTO MILITAR DE ENGENHARIA

NUNO CAMINADA

IDENTIFICAÇÃO AUTOMÁTICA DE EXPRESSÕES CRISTALIZADA S PREPOSICIONAIS EM CORPORA DA LÍNGUA PORTUGUESA

DISSERTAÇÃO DE MESTRADO APRESENTADA AO CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO DO INSTITUTO MILITAR DE ENGENHARIA, COMO REQUISITO PARCIAL PARA OBTENÇÃO DO TÍTULO DE MESTRE EM SISTEMAS E COM PUTAÇÃO.

ORIENTADORES: PROFA. ORIENTADORA VIOLETA QUENTAL, D R., PROF. ORIENTADOR ALEX GARCIA, DR.

Aprovada em 20 de Junho de 2008 pela seguinte Banca Examinadora:

___________________________________________________________ Prof. Orientador Alex de Vasconcellos Garcia – D.C. do IME - Presidente

___________________________________________________________ Profª. Orientador Violeta de San Tiago Dantas Barbosa Quental – D.C. da PUC-Rio

___________________________________________________________ Prof. Eduardo Bezerra da Silva – D.C. do CEFET

___________________________________________________________ Profª. Milena de Uzeda Garrão – D.C.

Rio de Janeiro 2008

Page 6: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

5

AGRADECIMENTOS

Este trabalho não teria sido possível sem a graciosa participação e orientação acadêmica

do prof. Adam Kilgarriff, que mesmo à distância sempre se manteve disponível e interessado,

tanto para oferecer soluções e sugestões, bem como para disponibilizar seus recursos em prol

deste trabalho.

Agradeço à minha querida ex-orientadora, profa. Claudia Oliveira, responsável por

apresentar-me à maravilhosa disciplina da Lingüística Computacional, e por aconselhar-me

pessoalmente e à distância durante este trabalho.

Agradeço efusivamente a ajuda inestimável do departamento de Lingüística da PUC-Rio,

que graciosamente tornou disponível uma série de recursos humanos e computacionais sem os

quais, também, esta pesquisa não teria sido possível.

Minha gratidão estende-se também aos professores da Escola de Ciências Exatas e

Tecnologia de minha alma mater, a UniverCidade, que sempre estiveram disponíveis e

interessados para meu apoio e auxílio ao longo de toda minha vida acadêmica.

Agradeço também a Alexandre Cherman por praticar comigo o esporte da matemática, e à

Fundação Planetário da Cidade do Rio de Janeiro, em especial a Órmis Durval Rossi, pela

compreensão e prestatividade sempre que foi necessário.

Last, but not least, à minha família, em especial minha esposa, cujo apoio e compreensão

foram fundamentais nesta etapa de minha jornada.

Page 7: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

6

SUMÁRIO

LISTA DE ABREVIATURAS E SÍMBOLOS.................................................................................................... 8

LISTA DE ILUSTRAÇÕES................................................................................................................................. 9

LISTA DE TABELAS.........................................................................................................................................10

1 INTRODUÇÃO GERAL .......................................................................................................................... 15

1.1 CONTEXTO E MOTIVAÇÃO .................................................................................................................. 15 1.1 OBJETIVOS DA DISSERTAÇÃO.............................................................................................................. 17 1.1 DESCRIÇÃO DO TRABALHO ................................................................................................................. 18

2 QUADRO TEÓRICO E TECNOLOGIAS RELACIONADAS.......... ...................................................20

2.1 O ANOTADOR MORFOSSINTÁTICO PALAVRAS................................................................................. 22 2.2 MODELOS DA LÍNGUA ......................................................................................................................... 24 2.3 EXPRESSÕES MULTIVOCABULARES..................................................................................................... 28 2.4 PREPOSIÇÕES...................................................................................................................................... 32 2.5 SINTAGMAS PREPOSICIONAIS.............................................................................................................. 37 2.6 COLOCAÇÕES...................................................................................................................................... 38

2.6.1 Composicionalidade...................................................................................................................... 39 2.6.2 Substitucionalidade....................................................................................................................... 40 2.6.3 Modificabilidade ........................................................................................................................... 41

2.7 DEFINIÇÃO FORMAL............................................................................................................................ 41 2.8 CORPORA E LINGÜÍSTICA DE CORPUS................................................................................................. 42 2.9 SURVEY DE FERRAMENTAS DE LEXICOGRAFIA COMPUTACIONAL....................................................... 45

2.9.1 Sketch Engine – O Esboço de Palavras ........................................................................................ 45 2.9.2 Unitex ............................................................................................................................................ 49 2.9.3 WordSmith..................................................................................................................................... 51 2.9.4 PhiloLogic..................................................................................................................................... 51 2.9.5 Natural Language Toolkit ............................................................................................................. 53

2.10 REVISÃO DA LITERATURA DE MULTIVOCÁBULOS ............................................................................... 53

3 NOSSOS CORPORA ................................................................................................................................ 58

3.1 CORPUS JORNALÍSTICO ....................................................................................................................... 58 3.1.1 Estatísticas do Corpus Jornalístico............................................................................................... 59

3.2 CORPUS INTERNET.............................................................................................................................. 60 3.2.1 Estatísticas do Corpus Internet ..................................................................................................... 66

4 O MÉTODO............................................................................................................................................... 69

4.1 REMOÇÃO DAS EXPRESSÕES PRÉ-IDENTIFICADAS PELO PALAVRAS.................................................. 71 4.2 ATOMIZAÇÃO DESTAS EXPRESSÕES..................................................................................................... 72 4.3 SUBSTITUIÇÃO DAS EXPRESSÕES PRÉ-IDENTIFICADAS NO CORPUS POR SUAS VERSÕES ATÔMICAS....... 73 4.4 IDENTIFICAÇÃO DE EXPRESSÕES CANDIDATAS ................................................................................... 75 4.5 A FERRAMENTA LINGUISTICS TOOLS.................................................................................................. 77 4.6 DESCRIÇÃO DOS ALGORITMOS UTILIZADOS ........................................................................................ 79 4.7 O TESTE-T DE STUDENT ..................................................................................................................... 80 4.8 TESTE Χ

2............................................................................................................................................. 82 4.9 LOG LIKELIHOOD ................................................................................................................................ 84 4.10 MUTUAL INFORMATION ...................................................................................................................... 86 4.11 PREPARAÇÃO...................................................................................................................................... 88

5 AS LISTAS – RESULTADOS.................................................................................................................. 90

5.1 RESULTADOS TESTE-T – CORPUS JORNALÍSTICO................................................................................ 90 5.1.1 Teste-T – padrão PREP+N ........................................................................................................... 90 5.1.2 Teste T – Padrão PREP+ADV...................................................................................................... 93

Page 8: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

7

5.1.3 Teste T – Padrão PREP+ADJ....................................................................................................... 95 5.1.4 Teste-T - Padrão PREP+* ............................................................................................................ 97

5.2 RESULTADOS TESTE-T – CORPUS WEB.............................................................................................. 99 5.2.1 Padrão gramatical PREP+N ........................................................................................................ 99 5.2.2 Padrão gramatical PREP+ADV ................................................................................................. 100 5.2.3 Padrão gramatical PREP+ADJ.................................................................................................. 101 5.2.4 Padrão gramatical PREP+*....................................................................................................... 103

6 CONSIDERAÇÕES FINAIS.................................................................................................................. 105

6.1 TRABALHOS FUTUROS...................................................................................................................... 106

7 REFERÊNCIAS BIBLIOGRÁFICAS................................................................................................... 108

8 RESULTADOS COMPLETOS.............................................................................................................. 114

8.1 RESULTADOS Χ2 – CORPUS JORNALÍSTICO ........................................................................................ 114

8.1.1 Padrão gramatical PREP+N ...................................................................................................... 114 8.1.2 Padrão gramatical PREP+ADV ................................................................................................. 115 8.1.3 Padrão gramatical PREP+ADJ.................................................................................................. 116 8.1.4 Padrão gramatical PREP+*....................................................................................................... 117

8.2 RESULTADOS Χ2 – CORPUS WEB...................................................................................................... 118

8.2.1 Padrão gramatical PREP+N ...................................................................................................... 118 8.2.2 Padrão gramatical PREP+ADV ................................................................................................. 119 8.2.3 Padrão gramatical PREP+ADJ.................................................................................................. 119 8.2.4 Padrão gramatical PREP+*....................................................................................................... 120

8.3 RESULTADOS LIKELIHOOD – CORPUS JORNALÍSTICO ........................................................................ 121 8.3.1 Padrão gramatical PREP+N ...................................................................................................... 121 8.3.2 Padrão gramatical PREP+ADV ................................................................................................. 122 8.3.3 Padrão gramatical PREP+ADJ.................................................................................................. 123 8.3.4 Padrão gramatical PREP+*....................................................................................................... 124

8.4 RESULTADOS LIKELIHOOD – CORPUS WEB...................................................................................... 126 8.4.1 Padrão gramatical PREP+N ...................................................................................................... 126 8.4.2 Padrão gramatical PREP+ADV ................................................................................................. 127 8.4.3 Padrão gramatical PREP+ADJ.................................................................................................. 128 8.4.4 Padrão gramatical PREP+*....................................................................................................... 130

8.5 RESULTADOS MUTUAL INFORMATION – CORPUS JORNALÍSTICO....................................................... 131 8.5.1 Padrão gramatical PREP+N ...................................................................................................... 131 8.5.2 Padrão gramatical PREP+ADV ................................................................................................. 132 8.5.3 Padrão gramatical PREP+ADJ.................................................................................................. 133 8.5.4 Padrão gramatical PREP+*....................................................................................................... 134

8.6 RESULTADOS MUTUAL INFORMATION – CORPUS WEB .................................................................... 135 8.6.1 Padrão gramatical PREP+N ...................................................................................................... 135 8.6.2 Padrão gramatical PREP+ADV ................................................................................................. 135 8.6.3 Padrão gramatical PREP+ADJ.................................................................................................. 136 8.6.4 Padrão gramatical PREP+*....................................................................................................... 137

Page 9: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

8

LISTA DE ABREVIATURAS E SÍMBOLOS

BNC – British National Corpus

NLP – Natural Language Processing

PoS – Part of Speech

UML – Unified Modeling Language

CQT – Corpus Query Tool

LC – Lingüística Computacional

URL – Universal Resource Locator

HTML – Hyper text markup language

WBC - WebBootCat

Page 10: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

9

LISTA DE ILUSTRAÇÕES

Figura 2.1 - Modelos da Língua............................................................................................25

Figura 2.2 - Características léxicas e semânticas de expressões multivocabulares..............30

Figura 2.3 - Percentual de preposições identificadas pelo PALAVRAS no corpus

Jornalístico............................................................................................................................35

Figura 2.4 - Combinações - diagrama de Venn-Euler da classificação dos multivocábulos 39

Figura 2.5 - Parte do esboço da palavra “juro”.....................................................................46

Figura 2.6- Grafo para o reconhecimento de pronomes da língua inglesa ...........................50

Figura 2.7 - Interface do Philologic ......................................................................................52

Figura 3.1 - Porcentagem de distribuição de classes gramaticais – Corpus Jornalístico......59

Figura 3.2 - Interface gráfica básica do WebBootCat...........................................................61

Figura 3.3- Interface gráfica avançada do WebBootCat.......................................................63

Figura 3.4 - Porcentagem de distribuição de classes gramaticais – Corpus Internet ............67

Figura 4.1- Fluxograma geral do método .............................................................................70

Figura 4.3- Processo de atomização do Corpus....................................................................74

Figura 4.4 - Fluxograma do processamento de morfemas....................................................75

Figura 4.5 - Diagrama conceitual da aplicação.....................................................................77

Figura 4.6- Diagrama do método de janelas deslizantes ......................................................89

Page 11: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

10

LISTA DE TABELAS

Tabela 2.1 - Anotação morfossintática do Palavras..............................................................23

Tabela 2.2 - Exemplo de regras de restrição do PALAVRAS..............................................24

Tabela 2.3- Lista de morfemas identificados como preposições pelo PALAVRAS no

Corpus Jornalístico ...............................................................................................................33

Tabela 2.4 - Lista de morfemas identificados como preposições pelo PALAVRAS no

Corpus WEB.........................................................................................................................36

Tabela 2.5 - Trecho da lista de Relações Gramaticais especificadas para a língua Portuguesa

..............................................................................................................................................47

Tabela 3.1 - Notação gramatical do PALAVRAS................................................................60

Tabela 3.2 - Parâmetros usados no WebBootCat .................................................................64

Tabela 3.3 - Exemplo de trecho problemático do Corpus Internet.......................................64

Tabela 3.4 - Palavras sementes e tamanho de corpora gerado..............................................65

Tabela 3.5 - Quantidades absolutas de classes gramaticais no Corpus Internet ...................67

Tabela 4.1 - Trecho de corpus identificado pelo PALAVRAS ............................................71

Tabela 4.2 - Mesmo trecho, agora atomizado.......................................................................72

Tabela 4.3 - Trecho com substantivo próprio feminino identificado pelo PALAVRAS .....72

Tabela 4.4- Trechos das listas A e B lado a lado..................................................................73

Tabela 4.5 - Lista atomizada do PALAVRAS......................................................................78

Tabela 4.6 - Hipótese nula de “Por exemplo” ......................................................................80

Tabela 4.7 - Exemplo da aplicação do Teste T.....................................................................81

Tabela 4.8 - Implementação da função T-Test .....................................................................82

Tabela 4.9 - Distribuição de “Por exemplo”.........................................................................83

Tabela 4.10 - Implementação da função χ2 ..........................................................................83

Tabela 4.11 - Hipóteses do teste de Likelihood....................................................................84

Tabela 4.12 – Implementação da função de Likelihood no Java ..........................................86

Tabela 4.13 – Implementação da função de Mutual Information no Java............................87

Tabela 5.1- Exemplo de estatística gerado pela aplicação....................................................90

Tabela 5.2 – Teste-T: Padrão gramatical PREP+N ..............................................................91

Tabela 5.3 – Teste-T: Padrão gramatical * + PREP+N e PREP+N+* .................................92

Page 12: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

11

Tabela 5.4- Teste-T: Padrão gramatical PREP+ADV ..........................................................94

Tabela 5.5- Teste-T: Padrões gramaticais * + PREP+ADV e PREP+ADV+* ....................95

Tabela 5.6 - Teste-T: Padrão gramatical PREP+ADJ ..........................................................95

Tabela 5.7 - Teste-T: Padrão gramatical *+PREP+ADJ e PREP+ADJ+*...........................96

Tabela 5.8 – Teste-T: Padrão gramatical PREP+* ...............................................................97

Tabela 5.9 - Teste-T: Padrão gramatical *+PREP+*............................................................98

Tabela 5.10 – Teste-T: Padrão gramatical PREP+N ............................................................99

Tabela 5.11 - Teste-T: Padrão gramatical PREP+ADV ....................................................100

Tabela 5.12 - Teste-T: Padrão gramatical *+PREP+ADV e PREP+ADV+* ....................101

Tabela 5.13 - Teste-T: Padrão gramatical PREP+ADJ ......................................................102

Tabela 5.14 - Teste-T: Padrão gramatical *+PREP+ADJ e PREP+ADJ+* .......................103

Tabela 5.15 - Teste-T: Padrão gramatical PREP+*............................................................103

Tabela 5.16 - Teste-T: Padrão gramatical *+PREP+*........................................................104

Tabela 8.1 – χ2 : Padrão gramatical PREP+N ....................................................................114

Tabela 8.2 – χ2 : Padrão gramatical PREP+ADV...............................................................115

Tabela 8.3– χ2 : Padrão gramatical PREP+ADJ .................................................................116

Tabela 8.4 - χ2 : Padrão gramatical PREP+* .....................................................................117

Tabela 8.5 χ2 : Padrão gramatical PREP+N.......................................................................118

Tabela 8.6 - χ2 : Padrão gramatical PREP+ADV...............................................................119

Tabela 8.7 - χ2 : Padrão gramatical PREP+ADJ ................................................................120

Tabela 8.8 - χ2 : Padrão gramatical PREP+* .....................................................................121

Tabela 8.9 – Log Likelihood: Padrão gramatical PREP+N................................................121

Tabela 8.10 - Log Likelihood: Padrão gramatical *+PREP+N e PREP+N+*....................122

Tabela 8.11 - Log Likelihood: Padrão gramatical PREP+ADV.........................................122

Tabela 8.12 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+* ........123

Tabela 8.13 - Log Likelihood: Padrão gramatical PREP+ADJ..........................................124

Tabela 8.14 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+* ........124

Tabela 8.15 - Log Likelihood: Padrão gramatical PREP+* ...............................................125

Tabela 8.16 - Log Likelihood: Padrão gramatical *+PREP+* ...........................................126

Tabela 8.17 - Log Likelihood: Padrão gramatical PREP+N ..............................................126

Page 13: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

12

Tabela 8.18 - Log Likelihood: Padrão gramatical *+PREP+N ..........................................127

Tabela 8.19 - Log Likelihood: Padrão gramatical PREP+ADV.........................................128

Tabela 8.20 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+* ........128

Tabela 8.21 Log Likelihood: Padrão gramatical PREP+ADJ ...........................................129

Tabela 8.22 - Log Likelihood: Padrão gramatical *+PREP+ADJ e PREP+ADJ+*...........129

Tabela 8.23 - Log Likelihood: Padrão gramatical PREP+* ...............................................130

Tabela 8.24 - Log Likelihood: Padrão gramatical *+PREP+* ...........................................131

Tabela 8.25 – Mutual Information : Padrão gramatical PREP+*.......................................131

Tabela 8.26 - Mutual Information : Padrão gramatical PREP+ADV.................................132

Tabela 8.27 - Mutual Information : Padrão gramatical PREP+ADV+*.............................133

Tabela 8.28 - Mutual Information : Padrão gramatical PREP+ADJ ..................................134

Tabela 8.29 - Mutual Information : Padrão gramatical PREP+* .......................................134

Tabela 8.30 - Mutual Information : Padrão gramatical PREP+N.......................................135

Tabela 8.31 - Mutual Information : Padrão gramatical PREP+ADV.................................136

Tabela 8.32 - Mutual Information : Padrão gramatical PREP+ADJ ..................................136

Tabela 8.33 - Mutual Information : Padrão gramatical PREP+* .......................................137

Page 14: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

13

RESUMO Este é um trabalho de lexicografia computacional. Seu objetivo geral é o desenvolvimento

de um método de identificação automática de expressões fixas, que, para os objetivos aqui

propostos, confunde-se com o conceito de colocações da língua, ou seja, expressões

multivocabulares que ocorrem com uma freqüência maior do que a estimada numa

distribuição estatística hipoteticamente calculada. Como resultados de pesquisa, este

trabalho propõe três contribuições distintas: a criação de um corpus de 30 milhões de

palavras contendo textos contemporâneos oriundos da internet, a elaboração de um método

de identificação de expressões candidatas à classificação como multivocábulos formados

por sintagmas preposicionados, e a compilação de listas desses sintagmas preposicionados

formalizados com vistas a sua incorporação a dicionário eletrônico. O método de

identificação utiliza quatro fórmulas estatísticas classicamente utilizadas nesta tarefa, o

Teste T, o χ2, o Log Likelihood e o Mutual Information, buscando assim explorar os pontos

fortes de cada um, melhorando o processo de identificação.

Page 15: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

14

ABSTRACT

This is a work of computational lexicography. Its general objective is the development

of a method for the identification of fixed expressions, which, for the objectives here

proposed, are defined as collocations. As results of this research we propose three distinct

contributions: a 30 million word annotated corpus of the Portuguese Language with texts

extracted from the Internet, the development of a computational method for the

identifications of collocations in corpora of the Portuguese language where the first word is

a preposition, and the compilation of lists of prepositional phrases to be included in

electronic dictionaries. The method here described uses four different statistical measures

for this task, T-Test, Chi-Square, Log Likelihood and Mutual Information, and applies the

strengths and weaknesses of these measures to maximize the identification process.

Page 16: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

15

1 Introdução Geral

1.1 Contexto e Motivação

A lingüística computacional é um campo de estudo multidisciplinar que agrega todo o

conjunto de teorias e práticas relacionadas ao uso de técnicas computacionais nas línguas

naturais, bem como as áreas de estudo da teoria da informação, em especial aquelas

provenientes da inteligência computacional.

Por línguas naturais entende-se aquelas desenvolvidas para a comunicação oral e verbal

humana, não se excluindo línguas construídas artificialmente como o Esperanto, ou as

inspiradas em livros de ficção como o Klingon de Jornadas nas Estrelas, ou o Élfico do

Senhor dos Anéis, mas não incluindo linguagens de programação nem quaisquer outras

projetadas sobre sintaxes rígidas que restringem seu poder de evolução, e que as tornam

passíveis de ser analisadas sintáticamente por autômatos finitos e outros derivados de

máquinas de Turing.

Segundo SARDINHA(2004), em sua infância a lingüística computacional continha

majoritariamente pesquisadores da área de inteligência artificial que contribuíram com

métodos computacionais para o tratamento automatizado de tarefas lingüísticas tais como a

geração de estatísticas de texto, a análise gramatical e sintática de sentenças, e a

classificação de textos em domínios semânticos. Com o amadurecimento e o

aprofundamento da complexidade das questões das linguagens naturais, a lingüística

computacional evoluiu para um campo verdadeiramente interdisciplinar, onde raramente

uma pesquisa é realizada sem a participação de especialistas em diferentes campos, tanto da

Inteligência Computacional quanto da Lingüística.

Este trabalho é fruto da pesquisa em lingüística computacional desenvolvida no

Instituto Militar de Engenharia, no departamento de Engenharia de Sistemas e Informação,

em conjunto com o Departamento de Letras da PUC-Rio. Ele se propõe a abordar o

problema da identificação de expressões cristalizadas da língua portuguesa, entidades que

Page 17: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

16

possuem grande relevância na área da pesquisa lexicográfica e no processamento de línguas

naturais em geral.

A motivação deste trabalho é oriunda da necessidade de enriquecimento de dicionários

computacionais - aqueles utilizados como fonte de conhecimento por outros softwares de

tratamento da língua - com listas de expressões multivocabulares fixas da língua

portuguesa, uma tarefa em contínua evolução, visto que acompanha a evolução da língua

em si, que é uma entidade viva e em constante fluxo e mutação. Grande parte do léxico de

uma língua é formada por expressões fixas em maior ou menor grau (GROSS1986,

HANCHOD2003). A importância da delimitação de compostos e expressões

multivocabulares pode ser constatada na literatura tanto na questão do armazenamento de

grupos de palavras no léxico mental (Jackendoff 1997, apud DIAS & GARRÃO, 2001)

quanto no reconhecimento de sua presença expressiva em textos de vários tipos,

especialmente nos textos técnico-científicos (Maurice Gross 1986; Ranchhod, 2003).

Compound nouns form the bulk of the lexicon of languages. Language creativity is

largely associated with the growth of technical vocabularies which consist mainly of

technical nouns. Compound nouns number in the millions for European languages.

(GROSS, 1986)

Além disso, apesar da lingüística computacional ser um campo relativamente maduro,

não obstante sua pouca idade frente a outras disciplinas do conhecimento humano, como a

física, a matemática ou a própria lingüística, há uma carência muito grande de estudos e

ferramentas específicos para a língua portuguesa. De forma geral, em lingüística, os

métodos de pesquisa são gerais, no sentido de serem aplicáveis a uma gama de diferentes

línguas, mas as ferramentas são específicas, ou seja, precisam ser desenvolvidas, ou, pelo

menos, ajustadas para cada língua em particular. A área do léxico é especialmente

apropriada para exemplificar essa necessidade. Essa característica vem do fato de as

ferramentas lingüísticas via de regra serem baseadas em descrições de uma língua

específica, formalizadas para uso computacional, ou em sistemas de aprendizado de

máquina, que geram um conjunto de regras que se aplicam somente a línguas que possuam

exatamente as mesmas características gramaticais, sintáticas e semânticas da língua que

Page 18: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

17

originou as regras. Existem sistemas que lidam com várias línguas, especialmente aqueles

voltados para tradução automática, mas o componente lexical desses sistemas é

necessariamente específico para cada língua a ser tratada.

Apesar das muitas semelhanças entre as línguas românicas como o Espanhol o

Português e o Francês, seus vocabulários e gramáticas são diferentes o suficiente para

inutilizar qualquer sistema de regras baseado em outra língua que não a própria para a qual

as regras foram geradas.

Desta forma, ferramentas lexicográficas para o processamento de linguagem natural

precisam ser desenvolvidas especificamente para cada língua, e as do Português são hoje

em muito menor número do que aquelas desenvolvidas para outras línguas como o Inglês

ou o Alemão, que possuem uma massa crítica maior de pesquisadores em lingüística e em

lingüística computacional. Assim, outra motivação deste trabalho é a criação de métodos e

ferramentas para utilização em corpora da língua portuguesa, aumentando o volume de

trabalhos em nossa língua e auxiliando tanto no trabalho contínuo de compreensão e

análise, como também no desenvolvimento de recursos, como dicionários, e de ferramentas

de processamento de linguagem natural, que possuem uma gama enorme de aplicações

numa sociedade tão informatizada quanto a do século 21.

1.1 Objetivos da Dissertação

O trabalho aqui apresentado tem três objetivos distintos, interdependentes em seu

desenvolvimento, mas independentes em sua forma final.

O primeiro objetivo é a formação de um corpus contemporâneo da língua portuguesa

formado por textos da Internet, anotado morfossintaticamente (Seção 2.1) pelo parser

PALAVRAS (BICK2002), e contendo 30 milhões de palavras que poderá ser utilizado em

todas as pesquisas em lingüística computacional que requerem este tipo de recurso.

Os corpora anotados da língua portuguesa são poucos e extremamente necessários para

pesquisa em quase todos os campos da lingüística computacional e dos estudos lingüísticos

em geral, e o aumento no número de corpora contribui não só para esta pesquisa, mas

Page 19: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

18

também para quaisquer outras que necessitem deste tipo de recurso. O processo de

formação deste corpus é descrito no capítulo 3. Este desenvolvimento levou em conta

algumas normas da lingüística de corpus para o desenvolvimento de corpora representativo

e balanceado, conforme SINCLAIR (1991) e SARDINHA(2004,2005), mas sem se ater a

um formalismo excessivo, conforme KILGARRIFF(2003). As normas seguidas e o

procedimento de criação serão descritos na seção 3.2.

O segundo objetivo é a criação de um método de identificação de expressões

multivocabulares cristalizadas da língua portuguesa. Este método está fortemente calcado

no desenvolvimento de uma ferramenta de conversão e identificação. Como o foco deste

trabalho é a descrição da solução computacional, e não a descrição da aplicação, esta não

será feita em profundidade, sendo apenas utilizados alguns diagramas de UML para auxiliar

na sua descrição resumida.

O terceiro objetivo pode ser descrito como o produto dos objetivos descritos acima, ou

seja, a elaboração de uma lista de expressões candidatas à classificação como

multivocábulos, que contenham características gramaticais específicas, necessárias ao

projeto lexicográfico PREPOLY em andamento no departamento de lingüística da PUC-Rio

– Pontifícia Universidade Católica do Rio de Janeiro em colaboração com o projeto Visual

Interactive Syntax Learning – VISL, da University of Southern Denmark, através do

Professor Eckhard Bick.

1.1 Descrição do Trabalho

Para cumprir os objetivos aqui propostos, é necessário primeiro apresentar o quadro

teórico e as tecnologias relacionadas, presentes no capítulo 2, que descreve o anotador

PALAVRAS e seu funcionamento, os modelos da língua, a teoria geral sobre expressões

multivocabulares fixas e uma breve introdução ao conceito de preposição e da importância

dos sintagmas preposicionais. Em seguida é feita uma breve exploração do conceito e

caracterização das colocações, seguida de nossa definição de trabalho e de uma breve

introdução à teoria de corpus e da lingüística de corpus. O capítulo é finalizado com um

Page 20: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

19

survey das principais ferramentas de lexicografia computacional e com uma breve revisão

da literatura recente sobre este tema.

O capítulo 3 descreve o Corpus Jornalístico utilizado neste trabalho, bem como o

processo de construção do Corpus Internet, construído para esta pesquisa.

O capítulo 4 descreve as ferramentas e o método, incluindo um paralelo com a

metodologia clássica deste tipo de atividade e as diferenças entre estas abordagens e a

abordagem aqui apresentada.

O capítulo 5 apresenta as listas de candidatas elaboradas a partir do corpus e do

método, terminando com uma discussão sobre a relevância desta pesquisa para o projeto

PREPOLY da PUC-Rio e a contribuição tanto do projeto como desta pesquisa em especial

para a pesquisa lexicográfica da língua portuguesa.

No capítulo 6 são realizadas as considerações finais e listados os trabalhos, finalizando-

se com as referências bibliográficas no capítulo 7.

Page 21: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

20

2 Quadro Teórico e Tecnologias Relacionadas

Para melhor categorizar o trabalho aqui apresentado, é necessária antes uma breve

introdução sobre o contexto das disciplinas envolvidas, e de como a interseção delas gerou

este tipo de pesquisa.

Em uma abordagem top-down das disciplinas, poderíamos evidenciar no topo,

separadas em áreas bem distintas, as disciplinas de Ciência da Computação e Lingüística.

Dentro da Ciência da Computação, encontramos, dentre outras, a disciplina de

Inteligência Computacional, também conhecida como Inteligência Artificial. Debaixo desta

chancela encontram-se as disciplinas de Processamento de Linguagem Natural, conhecida

na literatura como NLP, e sua co-irmã, a Lingüística Computacional, ou LC.

Do lado das ciências lingüísticas temos, dentre outras, a Lexicografia, a Lexicologia, e

a Lingüística de Corpus. Estas três disciplinas tiram proveito de técnicas e instrumentos

computacionais em sua prática moderna, sendo denominadas, neste contexto, Lexicografia

Computacional, Lexicologia Computacional e Lingüística de Corpus Computacional.

Desta forma, na base das áreas de conhecimento, há uma área de interseção entre NLP

e LC, e Lexicografia, Lexicologia e Lingüística de Corpus computacional. Para usar um

neologismo muito em voga, existe uma sinergia, e é desta sinergia que este tipo de trabalho

aflora.

O trabalho aqui apresentado é de Lexicografia Computacional, por isso seu foco está

dirigido mais para as teorias lingüísticas do que para as técnicas de engenharia de software.

Esta área de pesquisa é caracterizada, segundo OOI (1998), pela utilização do computador

para atingir o objetivo de automatizar tarefas lexicográficas ou converter versões existentes

de dicionários machine-readable em formatos explícitos o suficiente para sua utilização em

sistemas de lingüística computacional.

Mais especificamente, nosso objetivo é desenvolver um método computacional semi-

automático de identificação de expressões multivocabulares. Este tipo de expressão é de

Page 22: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

21

cunho essencialmente lexicográfico e lingüístico, mas, quando estudado dentro do contexto

da lingüística de corpus, possui características que podem ser exploradas a partir de técnicas

computacionais, as únicas capazes de tratar de forma eficiente os grandes volumes de dados

envolvidos.

O método é denominado semi-automático porque algumas etapas precisam ser

realizadas manualmente, em particular a submissão do corpus à anotação morfossintática do

parser PALAVRAS, visto que esta ferramenta ainda não possui nenhum tipo de interface

de serviços web ou similar que possa automatizar esta etapa do processo.

Para melhorar o embasamento dos fenômenos descritos aqui, a seção 2.1 fará uma

breve apresentação do anotador morfossintático PALAVRAS e da teoria por trás de seu

funcionamento. A seção 2.2 discorrerá sobre os modelos da língua, do ponto de vista

comportamental, conforme proposto por SINCLAIR(1991). A seção 2.3 tratará das

expressões multivocabulares e na seqüência será apresentado um breve resumo da teoria

das preposições, visto ser esta classe gramatical objeto de interesse desta pesquisa. No nível

semântico e sintagmático, a seção 2.4 falará brevemente sobre os sintagmas preposicionais,

que farão parte do que será identificado por este método, e sobre sua importância do ponto

de vista semântico e lexicográfico.

A seção 2.5 trata das colocações que são, ao nível estrutural, em última análise, o que

os algoritmos implementados aqui buscam, e como este tipo de pesquisa – as de cunho

estatístico – partem do pressuposto de que as colocações são expressões multivocabulares.

Em seguida, a seção 2.6 apresenta nossa definição de trabalho para colocações e para

expressões multivocabulares, sendo realizado então um survey do estado da arte das

ferramentas lingüísticas que utilizam corpora com objetivos lexicográficos, iniciando pelo

WordSketch, e seguido pelo WordSmith, pelo Unitex, pelo PhiloLogic e por fim pelo

Natural Language Tool Kit (NLTK). A seção 2.7 apresenta a teoria da criação de corpora de

uma língua.

Na seção 2.8 são apresentados os passos da construção de um corpus e a seção 2.9

fecha esta parte do trabalho com as conclusões do capítulo.

Page 23: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

22

2.1 O Anotador Morfossintático PALAVRAS

Em 2000, Eckhard Bick apresentou à comunidade lingüística sua tese de doutorado

“The Parsing System PALAVRAS – Automatic Grammatical Analysis of Portuguese in a

Constraint Grammar Framework” (PALAVRAS(2008)), onde descrevia a implementação e

a teoria por trás do primeiro sistema de anotação morfossintática para línguas românicas.

O PALAVRAS é baseado na Gramática de Restrições proposta por Fred Karlsson na

COLING de 1990 no artigo intitulado “Constraint Grammar as a Framework for Parsing

Running Text” KARLSSON(1990). Neste trabalho, Karlsson afirma que as gramáticas que

são utilizadas em anotadores (parsers) automáticos são em geral importadas diretamente

das teorias gramaticais tradicionais, que não foram construídas com o propósito específico

da anotação. Este autor apresenta então um formalismo para ser utilizado nos sistemas de

anotação, onde a entrada geralmente é constituída de sentenças reais extraídas da língua,

notoriamente repletas de ambigüidade e de problemas de anotação.

O formalismo de Karlsson, seu sistema de restrições ou regras, não se propõe a definir

como anotar corretamente uma sentença. Ao invés disso, cada regra está ligada a alguma

característica morfológica, tendo sido formulada a partir de estudos em corpus, e reflete

fatos absolutos ou tendências probabilísticas que são julgados durante o processo de

anotação.

BICK(2000) teve contato com o sistema gramática de Karlsson em 1994, e ficou

fascinado pelas possibilidades oferecidas por este tipo de sistema nas tarefas da lingüística

computacional. Escolheu o Português, uma das línguas na qual se especializou na

graduação, como objeto de seu sistema de anotação, e seis anos mais tarde apresentou sua

tese de PhD que demonstrava o nível de adequação da gramática restritiva na anotação

morfossintática de uma língua românica tão complexa e ambígua como o Português.

O sistema de Bick trabalha em quatro níveis: o analisador léxico PALMORF,

responsável por receber texto corrido e transformá-lo em uma seqüência de palavras e

sentenças com fronteiras definidas, e por anotar cada uma destas palavras com sua classe

Page 24: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

23

gramatical (conhecida na literatura como PoS Tag), o etiquetador PALTAG, o anotador

sintático PALSYN e os módulos de tradução PALTRANS.

O resultado final da interação das quatro partes pode ser visto na Tabela 2.1.

Astrônomos encontram a mais recente supernova da galáxia. (O Globo, Maio de 2008) astrônomos [astrônomo] N M P @SUBJ> encontram [encontrar] <fmc> V PR 3P IND VFIN @FMV a [o] <artd> DET F S @>N mais [muito] <KOMP> <quant> ADV @>A recente [recente] ADJ F S @>N supernova [supernova] N F S @<ACC de [de] <sam-> PRP @N< a [o] <artd> <-sam> DET F S @>N galáxia [galáxia] N F S @P< . [.] PU <<<

Tabela 2.1 - Anotação morfossintática do Palavras

1) A palavra original (em marrom no início, em negrito);

2) O lema, ou forma básica da palavra (em marrom entre colchetes);

3) Anotações secundárias contendo dados semânticos ou dados gramaticais de apoio

que auxiliam no processo de desambiguação (em preto, entre sinais de < >);

4) Análise morfossintática, ou em classes de palavras (em azul, com a categoria

gramatical em negrito e os traços de gênero e número sem negrito);

5) Análise sintática (em verde).

Bick afirma que o PALAVRAS atinge taxas de precisão de 99% para análise

morfológica e para análise gramatical, e uma precisão de 96 a 97% na análise sintática, o

que, o autor argumenta, é uma taxa superior à da maioria dos sistemas de anotação

morfossintática estritamente baseados em regras gramaticais tradicionais, que Bick afirma

não serem suficientemente robustos nem funcionarem com texto corrido, e superior também

aos sistemas estritamente probabilísticos, que tipicamente tem precisão de 97% para a

Page 25: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

24

tarefa de anotação morfológica e gramatical, mas que têm desempenho muito ruim nas

tarefas de análise sintática.

if the word to the left is a pre-name word: SELECT (PROP) (-1 <+n>) (NOT 0 ATTR OR HEAD-ORD&) ; # not: Advogado Importado if the word before also is a name: SELECT (PROP) (-1C PROP) (NOT 0 VFIN OR HEAD-ORD&) ; # not: Collor $Enloqueceu o Brasil SELECT (PROP) (-1C PROP) (*1C VFIN BARRIER CLB) (NOT 0 HEAD-ORD&) ; SELECT (PROP) (-1C PROP) (NOT 0 V3 OR ADV OR PCP OR HEAD-ORD&) ;

Tabela 2.2 - Exemplo de regras de restrição do PALAVRAS

A Tabela 2.2 apresenta um exemplo das regras de restrição utilizadas no PALAVRAS,

neste caso para a utilização em Nomes Próprios. A primeira regra diz que se a palavra à

esquerda for uma palavra que tipicamente se apresenta antes de um nome (ou substantivo),

ou seja palavra (-1 <+n>), então classifique esta como PROP (nome próprio). A segunda

regra diz que se a palavra anterior também for um nome (ou seja (-1C PROP) então

classifique esta como PROP salvo as exceções que se apresentam em cada regra

O PALAVRAS está disponível na Internet para processamento on-line, e é atualmente

a ferramenta de anotação da língua portuguesa mais difundida e utilizada, apresentando

consistentemente resultados em geral considerados muito bons, mas com alguns problemas

de classificação que propiciam sua constante avaliação e melhoramento. A versão que

utilizamos da ferramenta foi adquirida para o projeto Prepoly, subprojeto ligado ao projeto

PLN-BR(2006-2007) e instalada em servidor local na PUC-Rio. O processamento de

corpora de tamanho considerável como o que utilizamos não é factível on-line.

2.2 Modelos da Língua

Dentre os vários modelos de língua e das várias formas através das quais podemos

analisá-la, um se adéqua melhor ao que este trabalho se propõe a apresentar. Este modelo

parte do pressuposto de que há, do ponto de vista estrutural, uma dicotomia na maneira

como compreendemos e estudamos a língua.

John Sinclair é o autor desta modelagem, e em “Corpus, Concordance, Collocation”

SINCLAIR(1991) o autor discorre sobre estes dois modelos. No primeiro, a língua se

comporta de forma semi-aleatória, ou seja, a partir de uma base homogeneamente

Page 26: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

25

distribuída de palavras, as sentenças vão sendo construídas seguindo restrições apenas de

regras gramaticais, e guiadas pela noção semântica da proposição.

Segundo este princípio, desde que a gramática seja atendida, uma palavra tem tanta

chance de surgir após outra quanto qualquer outra palavra do mesmo contexto semântico.

Este princípio é conhecido como o Princípio Aberto.

Sob esta forma de análise da língua, não haveria estruturas preferenciais de palavras, no

sentido atômico e, em tese, contagens de palavras e n-gramas – agrupamento de n palavras

– em pesquisas de lingüística de corpus gerariam distribuições estatísticas homogêneas em

conformidade com suas hipóteses nulas, como descrito por MANNING(1999), sempre que

esta classe de testes fosse aplicado a n-gramas em corpora de tamanho estatisticamente

relevantes.

É importante notar ainda que, segundo SINCLAIR(1991), praticamente todas as

gramáticas são construídas a partir deste princípio.

Contudo, as observações da língua, bem como pesquisas estatísticas descritivas em

corpora apontam para distribuições diferentes das calculadas nas hipóteses nulas.

Figura 2.1 - Modelos da Língua

Desta forma, como contraponto ao Princípio Aberto, Sinclair propõe o Princípio

Idiomático, segundo o qual a construção das sentenças não é guiada apenas por regras

Page 27: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

26

gramaticais e princípios semânticos, mas por componentes subliminares de cunho social e

cultural, que produzem uma tendência a n-gramas preferenciais, em especial bigramas –

grupos de duas palavras - como “por exemplo” e “em torno”, e trigramas – grupos de três

palavras - como “projeto de lei” e “final de semana”.

A Figura 2.1 apresenta uma ilustração dos modelos, tomando como exemplo a

expressão “fim de semana”. Segundo o modelo aberto, esta expressão seria utilizada tão

freqüentemente quanto qualquer outra com mesmo sentido, o que, conforme evidência em

corpus e também de acordo com nosso julgamento enquanto falantes nativos, não ocorre.

O bigrama “em torno”, por exemplo, no Corpus Jornalístico utilizado neste trabalho

(ver seção 3.1), apresenta um valor para o Teste-T (detalhado na seção 4.7) de 23,125,

sendo que o valor máximo esperado neste tipo de teste é 2,57, ou seja, há neste caso uma

presença quase dez vezes maior do que a esperada, indicando que este bigrama tem grande

probabilidade de ser uma expressão de uso preferencial, um padrão (pattern) da língua.

No modelo do Princípio Idiomático existem conjuntos de elementos lingüísticos que

são condicionados, entre outras causas, por elementos sociais, históricos e conjunturais, ou

seja, pelo uso da língua por seus falantes. A seleção de elementos de um determinado

conjunto em um domínio aumenta muito a probabilidade da seleção de outros elementos

deste conjunto, ordenados de uma forma específica, na prática reduzindo a língua a um

conjunto de blocos maiores que simples morfemas, intercalados com, ainda que em

pequena extensão, elementos sintáticos caóticos.

Este contraponto apresentado por Sinclair é análogo a uma das grandes dicotomias da

lingüística, descrita por SARDINHA(2004), entre a visão racionalista da Língua, proposta

por Noam Chomsky, e a visão empírica, proposta por Michael Halliday

Segundo Sardinha,

“o racionalismo, na Lingüística, se fundamenta no estudo da linguagem por meio

da introspecção, como forma de verificar modelos de funcionamento estrutural e

processamento cognitivo da linguagem”.

Page 28: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

27

Já a visão empírica neste contexto se caracteriza “pela primazia de dados provenientes

da observação da linguagem, em geral reunidos sob a forma de um corpus” (SARDINHA

2004: página 30).

A posição de Chomsky, que trabalha com a linguagem em termos de possibilidades, é

compatível com o Princípio Aberto, enquanto que a posição de Halliday, que vê a língua

como um sistema probabilístico, é compatível com o Princípio Idiomático, visto que a visão

probabilística reconhece que, apesar de muitos traços lingüísticos serem possíveis

teoricamente, eles não ocorrem com a mesma freqüência. Isso explicaria, por exemplo, a

maior freqüência de substantivos do que de quaisquer outras categorias gramaticais, e a

ocorrência de expressões multivocabulares e idiomáticas.

Sardinha lembra ainda que estas freqüências de traços não são aleatórias, e que Biber,

um dos grandes lingüistas de corpus americanos, afirma em (SARDINHA2004:pagina 31)

que “há uma correlação entre características lingüísticas e situacionais (os contextos de

uso)”, ou seja, as variações de freqüência de categorias gramaticais e de tipo e quantidade

de expressões multivocabulares varia consistentemente entre domínios e contextos,

demonstrando uma correlação entre estas características e os ambientes em que elas se

apresentam, não sendo, portanto, aleatórias.

No contexto do aprendizado de uma segunda língua, ESKILDSEN(2007) propõe uma

relação de ligação entre as construções convencionadas pela comunidade falante e aquelas

armazenadas na mente do indivíduo, dentro da noção que o “uso da língua e o

conhecimento da língua, interação e cognição, individualmente e socialmente são

mutuamente constitutivas”.

Esta autora segue afirmando que

“a linguagem adulta consiste de um contínuo de construções lingüísticas de

diferentes níveis de complexidade e abstração, resultando em itens concretos e

particulares (palavras e expressões idiomáticas), mais classes abstratas de itens

Page 29: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

28

(classes de palavras e construções abstratas), ou combinações complexas de pedaços

concretos e abstratos da língua”.1

Estes blocos de n-gramas são denominados na literatura Expressões Multivocabulares,

e têm grande importância para a lexicografia como demonstrado a seguir.

2.3 Expressões Multivocabulares

A prevalência do uso de alguns n-gramas, não só em certos domínios, mas na língua

em geral, levou à evolução de algumas destas expressões a mais que um mero conjunto

estatisticamente relevante de morfemas. O uso destas combinações de palavras através de

gerações conferiu a algumas destas expressões um significado semântico próprio, diferente

do original e, em muitos casos, totalmente diferente do significado dos morfemas nele

contidos, como será demonstrado na seção 2.6.

Na literatura de lingüística podemos encontrar diferentes definições do fenômeno das

expressões multivocabulares.

SAG ET AL.,(2002) afirma que as expressões multivocabulares são um problema

chave no desenvolvimento de tecnologias lingüisticamente corretas de larga escala, e neste

trabalho faz um survey dos problemas e técnicas para a análise destas expressões. Bem em

sintonia com o tema deste trabalho, SAG ET AL., (2002) afirma que alguns autores

acreditam que os métodos estatísticos tornaram a análise lingüística desnecessária, como se

todas as formas de análise pudessem ser realizadas através de análise matemática sem apoio

de uma base teórica lingüística. Mas SAG ET AL. afirmam que o que ocorre é justamente o

contrário, que a crescente presença de ferramentas estatísticas aumentou a necessidade de

melhores modelos lingüísticos, que possam lidar com problemas chave da lingüística como

a desambiguação e as expressões multivocabulares, que segundo estes autores, constituem

um campo que vem sendo negligenciado na literatura mais recente.

1 “Adult language knowledge , then, is seen to consist of a continuum of linguistic constructions of different levels of complexity and abstraction comprising concrete and particular items (as in words and idioms), more abstract classes of items (as in word classes and abstract constructions), or complex combinations of concrete and abstract pieces of language”

Page 30: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

29

SAG ET AL.(2002) define expressões multivocabulares como “interpretações

idiossincráticas que cruzam a fronteira (ou espaço) das palavras”, e nota que Jackendoff em

1997 afirmou que este tipo de expressão é um problema de magnitude maior do que é

tradicionalmente reconhecido. Afirma ainda que estas expressões estão presentes na mesma

ordem de magnitude que as palavras da língua, exemplificando com o fato de que no

WordNet 1.7, 41% das entradas são expressões multivocabulares. Os problemas citados que

decorriam do não reconhecimento de multivocábulos são vários, como no desenvolvimento

de sistemas de geração de texto, que poderiam utilizar expressões como “cabine telefônica”,

mas poderiam criar também expressões não aceitas na língua como “closet telefônico” ou

“quarto telefônico”. Outro problema são as expressões idiomáticas, como “dar nó em pingo

d´água” ou “onde o diabo perdeu as botas”, que por sua característica composicional são

totalmente incompreensíveis do ponto de vista da semântica computacional.

No trabalho citado acima, os autores dividem as expressões em fixas, como “ad hoc”,

“vinho branco” e “Rio de Janeiro”, que são plenamente lexicalizáveis e não sofrem variação

morfossintática, e expressões semi-fixas, como “ficar de luto”, que admite mudança como

em “ficarem de luto” ou “ficar novamente de luto”. Este ponto será explorado mais a fundo

posteriormente, na discussão a respeito das características que definem as expressões

multivocabulares.

Em seguida SAG ET AL.(2002) discute os diversos tipos de expressões, tais como

expressões idiomáticas, que não podem ser decompostas, nomes compostos e nomes

próprios, além de expressões sintaticamente flexíveis, que incluem as construções verbo-

partícula, muito comuns no inglês como “write up” e “look up”, expressões idiomáticas que

podem ser parcialmente decompostas e ainda assim compreendidas como “ganhou de

goleada”, e sintagmas institucionalizados como “sinal de tráfego”, “placa de trânsito” e

“rampa de acesso”.

(BALDWIN2006) define expressões multivocabulares como aquelas que:

1. Podem ser decompostas em múltiplas palavras simplex (morfemas);

Page 31: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

30

2. São lexicalmente, sintaticamente, semanticamente, pragmaticamente e/ou

estatisticamente idiossincráticas.

Figura 2.2 - Características léxicas e semânticas de expressões multivocabulares

A figura 2 ilustra algumas das características de expressões idiomáticas destacadas por

BALDWIN(2006), notadamente a idiomaticidade lexicossintática, onde um conjunto de

lexemas com classes gramaticais distintas cumprem o papel de uma outra classe gramatical,

e a idiomaticidade semântica, que têm relação com a composicionalidade, onde lexemas

que geralmente tem um determinado significado quando não estão participando de

multivocábulos têm seu significado alterado, através de uma simples mudança de contexto,

como em “queima de arquivo”, ou através da composição com outro lexema como em

“barata tonta(+feito)”.

Corroborando SINCLAIR(1991), tanto em MATEUS ET AL(1989), quanto em

ANDRÉ(1978), não há menção aos termos “expressões multivocabulares”, “expressões

Page 32: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

31

fixas” ou “expressões cristalizadas”. Em MATEUS ET AL.(1989) o mais próximo

encontrado foi o de composição, que do ponto de vista estatístico está no mesmo conjunto

que as expressões multivocabulares, dentro da seção de Morfologia Derivacional, quase

como uma caracterização de expressão multivocabular, diferente de ANDRÉ(1978), onde o

mesmo tema é tratado de maneira distinta, como simplesmente uma palavra nova que é

composta por duas seja por justaposição como em “segunda-feira”, “passatempo” ou

“pontapé”, ou por aglutinação como em “aguardente”, “outrora” ou “pernalta”.

Em MATEUS ET AL(1989), uma gramática de Portugal, as autoras citam que “a

composição requer a utilização de mais do que uma unidade lexical, ou seja, mais do que

uma palavra”, não necessariamente formando uma única nova palavra como cita

ANDRÉ(1978), mas como bigramas e trigramas, e seguem afirmando que a identificação

das regras de formação deste tipo de composto dificilmente poderá ser identificada com as

regras de adjunção de palavras, exemplificando com expressões como “terceira idade”,

“guarda noturno” e “colher de pau”. Vale notar que no português brasileiro as composições

em geral têm seus morfemas separados por hífens, exatamente para caracterizar sua unidade

semântica.

Mesmo assim, a figura da composição difere da expressão multivocabular porque a

primeira é uma palavra composta por duas ou mais unidades lexicais, é uma forma bem

mais coesa semanticamente e, conforme MATEUS ET AL(1989), em geral ocorrem sob a

forma de sintagmas nominais, sintagmas adjetivais ou sintagmas verbais. Já a segunda pode

ocorrer de forma muito mais variada, por vezes sem uma coesão semântica tão clara, e de

forma mais dinâmica, como “por debaixo dos panos” ou “sem pé nem cabeça”.

Na literatura inglesa, o tipo geral de expressões que nos interessa encontra-se dentro

das definidas como “collocations”, “idioms” ou “multi-word expressions”, e, por

conseguinte, se relacionam fortemente com estes conceitos. Como na literatura todos estes

conceitos aparecem por vezes intercambiados, é necessário fixar uma definição corrente

para cada um deles e explorar suas diferenças.

Page 33: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

32

2.4 Preposições

Preposições são classicamente caracterizadas como itens de ligação entre partes de uma

sentença.(MATEUS1989)

PERINI(1996) define preposição como “a palavra que precede um sintagma nominal

(SN), formando o conjunto um SAdj (sintagma adjetival) ou um SAdv (sintagma

adverbial)”. Já ANDRÉ(1978) as define como palavras invariáveis que liga dois temos

entre si, estabelecendo que o segundo depende do primeiro, ou seja, que o segundo é

complemento ou adjunto do primeiro.

Locuções prepositivas, por sua vez, são conjuntos de morfemas que possuem coesão

gramatical suficiente para serem classificados como uma única unidade gramatical, como

“fora de” em sentenças como “João dormiu fora de casa”, apesar de “fora” ser

classicamente caracterizado como advérbio, mesmo em sentenças como “João dormiu

fora”, que pressupõem a interpretação “de casa”.

Esta caracterização das locuções prepositivas, advérbios e preposições, é até certo

ponto controversa e ainda está aberta a debate. DIAS(1995), numa revisão de sua posição à

respeito da caracterização de preposições, advérbios e sintagmas preposicionais e

adverbiais, chama atenção ainda para a dificuldade de caracterização das locuções

prepositivas em sentenças como o exemplo acima e outras como “Vá adiante” x “Vá

adiante de mim” e “Prefiro sentar-me atrás” x “Prefiro sentar-me atrás dela”, ambos casos

em que o advérbio é transformado em locução prepositiva pela presença da preposição à

direita. Esta discussão é um exemplo da importância de trabalhos baseados em corpora que

vêm a aumentar a compreensão das construções envolvendo preposições.

MATEUS(1989) reconhece a preposição como o núcleo do sintagma preposicional,

destacando que estas podem ser simples ou constituídas de mais uma palavra, na forma de

locução prepositiva, mas não apresenta uma caracterização específica para esta classe

gramatical.

Page 34: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

33

PERINI, em sua gramática descritiva, chega a questionar a classificação de algumas

conjunções reconhecidas, como “desde que” em:

“Meu pai trabalha desde que era criança”

visto que “que” seguido de uma oração (como “era criança” neste exemplo), forma um

sintagma nominal, e um sintagma nominal pode constituir-se com uma preposição para

formar um sintagma adverbial, como no exemplo acima.

Desta forma, não há um consenso preciso entre autores na caracterização da preposição

e suas combinações, nem foi objetivo deste trabalho dirimir este tipo de questão, visto que o

PALAVRAS tem sua própria metodologia de identificação de preposições, conjunções e

locuções prepositivas.

Para os objetivos deste trabalho, portanto, preposições são as palavras anotadas

morfossintaticamente como tal pela ferramenta PALAVRAS. Para exemplificar o tipo de

morfema que o PALAVRAS classifica como preposição, a Tabela 2.3 lista as preposições

encontradas no corpus Jornalístico, seguidas das quantidades em que cada uma das

preposições ocorre.

Tabela 2.3- Lista de morfemas identificados como preposições pelo PALAVRAS no Corpus Jornalístico

Page 35: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

34

A lista de morfemas identificados como preposições, ilustrados na Tabela 2.3, expõe

também algumas fraquezas do PALAVRAS, que são comuns aos identificadores baseados

em sistemas de regras como BRILL(1995), desenvolvidas a partir de aprendizado

automático sobre textos anotados manualmente.

Como estes identificadores criam suas regras a partir de padrões identificados em

corpora anotados manualmente, e, como estes corpora por definição não são representativos

de 100% da língua ou mesmo 100% dos padrões presentes na língua, algumas regras são

aplicadas de maneira equivocada, gerando um percentual incorreto de anotações

morfossintáticas que, no caso do PALAVRAS, é em média de 99% (BICK2002) para as

anotações de PoS.

A lista contém, por exemplo, o verbo “devolvido”, incorretamente identificado como

preposição quando aparece no pretérito composto com o verbo “Ter” ou “Ser”, como em:

i) "Depois de passar 30 anos preso, ter devolvido tantas centenas de milhões de

dólares para os cofres públicos."

ii) “O laudo médico oficial sobre o estudante Gustavo Pissardo foi devolvido ontem

pela justiça aos médicos...”

corroborando de certa maneira, ainda que de forma equivocada, o que foi postulado por

PERINI(1996): “a palavra que precede um sintagma nominal (SN), formando o conjunto

um SAdj ou um SAdv”. Em i) e ii) o interpretador parece ter entendido os verbos “ter” e

“ser” não como vermos auxiliares, mas como os verbos principais da oração, e a

conjugação do verbo “devolver” - “devolvido” - como a palavra que antecedia o sintagma

nominal “tantas centenas de milhões...” em i) e o sintagma adverbial em “ontem pela

justiça...” em ii).

No entanto, o percentual de ocorrência de morfemas incorretamente identificados é

muito pequeno diante dos identificados corretamente, e não afetam o resultado final da

identificação de expressões cristalizadas. No corpus jornalístico, uma verificação manual da

lista revelou que de 4.683.079 preposições identificadas, 4.545.721, ou seja, 98,143%,

Page 36: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

35

foram corretamente identificadas, conforme ilustrado na Figura 2.3. Esta lista inclui: de,

em, a, para, por, com, sobre, entre, segundo, sem, contra, até, desde, após, durante, sob, pra,

via, per, perante, ante, mediante, trás, versus, pós, malgrado, pêra, diante, e a contração

em+o. Vale ressaltar que algumas destas preposições podem ser eventualmente

classificadas como outras classes gramaticais, como “contra”, que pode ser advérbio em

“votar contra”, ou adjetivo em “gol contra”, mas na amostragem das sentenças onde estas

palavras foram identificadas como preposição, a marcação estava correta como por

exemplo, para o mesmo “contra”, “o Brasil inicia o torneiro de vôlei contra ucranianas”.

Figura 2.3 - Percentual de preposições identificadas pelo PALAVRAS no corpus Jornalístico

Das 1,857% restantes, aproximadamente 0,05% são preposições corretamente

identificadas de outras línguas, como “at”, “from” e “by” do Inglês, “versus” e “ad” do

latim, e “von” do alemão.

É importante notar que as locuções e conjunções são quebradas no processo de

atomização, descrito na seção 4.2 e, portanto o processo de identificação servirá também

para validar e caracterizar estatisticamente estas classes de expressões multivocabulares,

que devem estar presentes nas listas finais compiladas pelo método aqui apresentado.

Page 37: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

36

Tabela 2.4 - Lista de morfemas identificados como preposições pelo PALAVRAS no Corpus WEB

A Tabela 2.4 mostra o que foi identificado como preposição pelo PALAVRAS no

Corpus WEB (descrito na página 60). Fica evidente aqui a dificuldade deste parser com

textos tão variados, sem verificação gramatical, sintática ou semântica.

Em termos absolutos, é interessante também notar que em ambos os corpora a

quantidade de ocorrências de “de”, ”em”, “a”, ”para”, ”por” e “com” (Tabela 2.3 e Tabela

2.4) é muito superior à ocorrência das outras preposições.

Este trabalho não se propõe a realizar uma comparação destes corpora, visto ser esta

uma tarefa que, além de potencialmente extensa, foge dos objetivos aqui propostos, porém

uma comparação interessante pode ser feita entre esta contagem e a contagem do corpus

jornalístico: as nove primeiras preposições são as mesmas, na mesma ordem. Como estes

corpora são de origem distinta e foram criados com metodologia deferente, é nossa hipótese

de trabalho que eles representam porções diferentes da língua, portanto este dado é uma

indicação de que estas preposições, “de”, “em”, “a”, “para”, “por”, “com”, “como”, “sobre”

Page 38: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

37

e “entre” são preponderantes no português Brasileiro, nesta ordem. É evidente que uma

amostra de dois corpora é pequena demais para supor que isto é de fato uma regra, mas é

importante lembrar que estes dois corpora, juntos, têm mais de sessenta milhões de

palavras, o que já não é um espaço amostral tão insignificante, mesmo considerando uma

idéia comum em Lingüística de Corpus de que não há como estimar o tamanho da língua, e

portanto não há como demonstrar que um determinado tamanho de corpora é representativo

ou não.

2.5 Sintagmas Preposicionais

Sintagmas preposicionais, abreviados na literatura simplesmente como SPs ou

SPREPs, são constituídos pela preposição e pelo objeto da preposição, como em:

“[A invasão [do Iraque]SPREP ]SintagmaNominal [aconteceu]SV [em março]SPREP [de 2003]SPREP”.

A literatura descreve a adjunção de sintagmas preposicionais, ou seja, a determinação

de a qual palavra o sintagma está semanticamente ligado, como uma das causas de

ambigüidade estrutural nas linguagens naturais (COLLINS1995, BRILL1995, BRILL1994,

BRILL1994(2)). Este fato gera um grande interesse na identificação de expressões

multivocabulares cristalizadas que sejam sintagmas preposicionais, visto que, uma vez

identificadas, suas características semânticas podem ser mais precisamente mapeadas.

Ex.: “Se vi mais longe, foi por estar sobre os ombros de gigantes” - Isaac Newton

A famosa frase de Newton, possui dois sintagmas preposicionais, identificados em cor,

que estão adjuntos ao verbo estar. Neste exemplo é fácil compreender a adjunção, pois esta

se dá sempre ao elemento imediatamente anterior, o que não acontece em todos os casos.

Ex.: “O envio de verbas para a campanha de vereador de Curitiba foi suspenso”

Nesta sentença podemos notar que a adjunção não pode ser resolvida de maneira tão

simples, sendo necessário algum tipo de método de processamento semântico que, a partir

dos sintagmas preposicionais e do verbo, ou da nominalização deverbal (“envio”

nominaliza o verbo “enviar”) neste caso, irá sugerir se os sintagmas preposicionais estão

Page 39: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

38

adjuntos ao sintagma imediatamente anterior ou ao verbo, ou à nominalização que o

antecede. Há claros indícios na literatura sobre o processamento humano de sentenças

ambíguas como esta de que adotamos como interpretação preferencial a adjunção à direita,

mas a ambigüidade em casos como este é estrutural.

A contínua identificação de expressões cristalizadas iniciadas por preposições facilitará

os processos automáticos de adjunção de sintagmas preposicionais na medida que, uma vez

identificadas, as características semânticas destas expressões poderão ser usadas no

processo de adjunção e conseqüentemente na determinação dos papéis semânticos das

partes MAMANI(2007).

2.6 Colocações

“You shall know a word by the company it keeps” – FIRTH(1935)

A máxima de FIRTH é uma das mais citadas na literatura de colocações, e com justa

causa, pois FIRTH(1935) é um trabalho seminal que marca o início do estudo das

colocações do ponto de vista semântico, muito antes da era das observações de cunho

estatístico. O autor, um dos responsáveis pelo estabelecimento da lingüística como

disciplina na Inglaterra, vislumbrou uma ligação fundamental entre os vários níveis

lingüísticos que favorecia a ligação de palavras para produzir novos significados como

produto dessa ligação CHAPMAN(2005).

As definições de colocação variam levemente em torno de um tema central, o da co-

ocorrência espacial em corpus de palavras na forma de n-gramas, em grande parte

constituídos por bi-gramas como “por exemplo” ,“como nunca” e “apagão aéreo”, ou

trigramas como “taxa de juros”, “jogo de ontem” ou “assim por diante”.

Morfologicamente, o próprio termo já define o conceito: “co” como prefixo de

associação, concomitância, e “locação”, ou seja, palavras que ocorrem no mesmo lugar.

Em OOI (1998) encontramos colocações definidas como uma ou mais palavras que

tendem a co-ocorrer fortemente com um determinado item lexical principal, mas esta

Page 40: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

39

mesma fonte cita Sinclair SINCLAIR(1991), que as define como a ocorrência de duas ou

mais palavras a curta distância uma da outra no texto, abrindo mão da adjacência espacial e

permitindo assim expressões que admitam a inclusão de palavras como advérbios, que

“quebram” a seqüência dos colocados, como em “quebrar o barraco” e “quebrar novamente

o barraco”.

Figura 2.4 - Combinações - diagrama de Venn-Euler da classificação dos multivocábulos

2.6.1 Composicionalidade

MANNING(1999) sucintamente descreve o princípio da composicionalidade como a

propriedade de obtenção do significado de uma expressão a partir do significado de suas

partes.

Tomemos como exemplo a expressão “faculdade particular”. Se tomarmos

separadamente o significado de “faculdade”, como instituição de ensino superior, e

“particular”, como sendo de propriedade privada, podemos observar que a expressão, em

trechos como:

“Em outro incidente, o reitor de uma faculdade particular foi morto

perto de sua casa.” O Globo, 12/11/2007.

inequivocamente representa a soma de suas partes, ou seja, é claramente

composicional.

Page 41: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

40

Mas se observarmos expressões como “da pá virada”, como em “João é da pá virada”,

já não podemos observar a mesma relação, visto que o significado de “da”, contração da

preposição “de” com o artigo definido feminino “a” denotando origem, de “pá”, como

substantivo denotando instrumento de remoção de solo, e de “virada”, particípio passado de

“virar”, denotando remexida, de ponta cabeça ou emborcada, nada têm a ver com o sentido

de “da pá virada”, que em geral significa de trato difícil, espevitado ou arruaceiro. Nestes

casos a expressão não possui composicionalidade, pelo menos não sem que se faça um

estudo etimológico mais profundo das partes e de seu uso como expressão multivocabular.

A composicionalidade é o principal critério na classificação de expressões

multivocabulares, sendo possível categorizar as expressões ao longo de um espectro, onde

de um lado estão as expressões limítrofes, que autores diferentes classificarão ou não como

expressões multivocabulares, como “fugir da rotina” ou “perder peso”, e no outro extremo

as expressões idiomáticas como “como uma luva <+cair>” ou “nem que a batata rache”.

A composicionalidade é também um dos aspectos mais estudados das expressões

multivocabulares (KATZ2006, KILGARRIFF1997, PIAO2006, BALDWIN2006), pois seu

estudo e compreensão são de natureza essencialmente semântica. No contexto desta

pesquisa, mesmo sob uma ótica essencialmente estatística e sob a análise de componentes

matemáticos, que trabalham com uma pseudo-semântica exata, ou na melhor das hipóteses

fuzzy, como no contexto da Lógica Fuzzy, ainda assim realizamos um estudo semântico dos

multivocábulos, que é um dos objetivos principais da lexicografia.

2.6.2 Substitucionalidade

A substitucionalidade é outra característica que auxilia na classificação das expressões

multivocabulares ao longo de seu espectro, e outro fator que separa um grupo de palavras

de uma expressão com relevância semântica.

Substitucionalidade é a característica das expressões de poderem ou não ter morfemas

de sua composição substituídos mantendo-se o mesmo grau de uso e reconhecimento da

expressão.

Page 42: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

41

Na língua portuguesa podemos citar, por exemplo, a expressão “casar de branco”, que

não aparece com a mesma freqüência sob a forma de “contrai matrimônio de branco” ou

mesmo “casar de cor branca” ou ainda, mantendo a carga semântica, “casar como virgem”,

ou a expressão “vinho branco”, um dos exemplos mais utilizados na caracterização da

substitucionalidade, que nunca aparece como “vinho amarelo”, ainda que esta cor possa

representar melhor a cor da bebida.

2.6.3 Modificabilidade

A modificabilidade é o terceiro pilar na classificação de expressões multivocabulares.

Esta é a característica que julga alterações na expressão, ainda que mantidas as palavras

originais, como em “nem que a batata inglesa rache”, ou “vinho bem branco” nos exemplos

citados acima, ou “chutar o meio do balde”, “de mão esquerda beijada” e “chorar sobre o

leite azedo derramado”. Ainda que, de forma geral, o significado original ainda possa ser

depreendido por um falante da língua, estas inserções seriam muito pouco usuais, causando

estranheza e dificultando a compreensão.

A modificabilidade é indiscutivelmente o critério menos importante na classificação de

expressões, tanto que alguns autores nem sequer a citam, como Manning, Ooi ou mesmo

Kilgarriff, mas ainda assim este critério tem relativa relevância, especialmente no contexto

da Lingüística de Corpus do ponto de vista estatístico, onde muitas vezes as expressões são

identificadas através de métodos automáticos que levam em conta a posição de palavras em

relação a uma palavra núcleo.

2.7 Definição Formal

É difícil encontrar definições formais de colocações, visto que as nuances envolvidas,

como o nível de composicionalidade, modificabilidade e substitucionalidade, levam autores

a fornecer sua própria interpretação do fenômeno.

Desta forma, apresentamos aqui uma definição formal recursiva que vai ao encontro ao

método que está sendo aplicado na identificação.

Page 43: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

42

Sejam a e b palavras ou colocações em um corpus, e a função f(x,y) uma função

estatística que gera um valor v. Uma colocação é uma combinação de a e b onde v=f(a,b) é

maior que o valor de tolerância estipulado para a função f(x,y).

Este valor de tolerância varia de acordo com a função, mas permanece constante numa

função dado um fator de confiança que, em geral, é de 0.005.

2.8 Corpora e Lingüística de Corpus

À primeira vista, corpora são coleções de textos. Porém, alguns autores (Sardinha,

Percy, Sinclair) argumentam que nem todas as coleções de textos são corpora. Como

podemos distinguir então qualquer conjunto de textos de algo que pode ser classificado

como um corpus?

As definições de Corpus na literatura variam, ainda mais porque não é estritamente

necessário definir com precisão um corpus para construí-lo e utilizá-lo.

Em SINCLAIR(1991) o autor define corpus através de sua metodologia de

desenvolvimento. O primeiro ponto é que o corpus deve estar em formato eletrônico, ou

seja, deve poder ser processado através de recursos computacionais.

Por conseguinte, o corpus pode ser obtido de três maneiras basicamente:

1) Adaptação de material que já esteja em formato eletrônico;

2) Conversão de material em papel através de digitalização e reconhecimento de

texto;

3) Digitação.

O autor é cuidadoso também em citar a questão dos direitos autorais dos textos

contidos no corpora, ainda que seja nebulosa a questão do uso de material que em geral não

vai sequer ser lido, apenas contado. Apesar de justa, esta preocupação é secundária neste

ponto da discussão e não será aprofundada aqui.

Page 44: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

43

O próximo passo é o projeto, é quando o desenvolvedor seleciona critérios para a

seleção dos textos. Dentre as principais características a serem consideradas o autor destaca:

1) Língua falada ou escrita;

2) Semi-fala, o que o autor classifica como textos teatrais, roteiros de filmes e outros

textos que simulam falas e diálogos, mas sem a naturalidade da fala;

3) Linguagem formal e literária;

4) Tipicalidade, ou seja, a seleção de textos representativos;

5) O domínio, ou seja, textos gerais ou especializados;

6) A época de autoria dos textos;

7) O tamanho;

8) Documentos inteiros ou parciais.

Desta forma, uma coleção de textos que seja criada com este tipo de consideração pode

ser considerado um corpus, já que uma análise estatística desta coleção fornecerá

informações relevantes sobre a língua em questão.

Já SARDINHA(2004) define corpus provisoriamente a partir de PERCY(1996) como

“uma coletânea de porções de linguagem que são selecionadas e organizadas de acordo com

critérios lingüísticos explícitos, a fim de serem usadas como uma amostra da linguagem”.

Sob uma ótica mais moderna, KILGARRIFF(2003) propõe a utilização da internet

como corpus, e questiona todas as definições por demais restritivas de o que é um corpus.

Segundo este autor, muitas das coleções de textos utilizadas por autores de estudos em

lingüística não se enquadram em todas as definições de corpus. Kilgarriff cita ainda que a

discussão a respeito de se uma coleção é ou não um corpus se mistura com outra discussão,

a de se um determinado corpus é apropriado para uma tarefa x ou não. Uma definição de

corpus mais ampla é então proposta, relegando a questão dos critérios para segundo plano:

Page 45: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

44

“Um corpus é uma coleção de textos quando considerado como um objeto de

estudo literário ou da língua2”(KILGARRIFF(2003))

O objetivo de Kilgarriff é demonstrar que podemos tratar a Internet como um corpus,

abrindo mão de definições em favor do tamanho e da facilidade de acesso. Como

argumento, este autor cita o número de ocorrências de “medical treatment” no BNC (414),

no Altavista no outono de 1998 (46.064), no outono de 2001 (627.522) e na primavera de

2003(1.539.367). Corroborando este argumento da freqüência, o Google no verão (europeu)

de 2008 apresenta 12 milhões de ocorrências para este bigrama, o que claramente

demonstra o crescimento de volume da Internet ao longo da última década e do potencial de

seu uso como corpus, a despeito da anarquia em termos de conteúdo e estrutura, e da total

ausência de anotações morfossintáticas, de informações semânticas e de direitos autorais.

Segundo KILGARRIFF(2003), a utilização de corpora em lingüística começou a

aparecer no vigésimo sétimo encontro da ACL, em junho 1989 em Vancouver, no Canadá,

ainda sem estrutura, e, mais importante, sem uma teoria lingüística que apoiasse seu uso.

KILGARRIFF afirma que o uso de corpora em lingüística só se firmou em 1993, com uma

série de artigos consistentes apresentados numa edição especial do journal da ACL sobre a

utilização de grandes corpora. Ainda segundo este autor, o conceito da utilização da internet

como corpus só surgiu seis anos depois, em 1999, com artigos de Mihalcea e Moldovan, e

Resnik.

A partir daí ocorreu o que hoje é conhecido como a Revolução do Corpus, uma

revolução sincrônica com a revolução da informática e com o início da chamada Era da

Informação, onde a evolução dos computadores permitiu o armazenamento e

processamento de volumes de informação até antes quase impossíveis. Subitamente era

possível processar a língua atrás de evidência para teorias propostas décadas antes, e novas

portas e desafios foram criados, especialmente na área da semântica, onde o mecanismo

humano da interpretação e da intuição teve que ser esmiuçado e simulado através de

técnicas computacionais ainda hoje em evolução.

2 “a corpus is a collection of texts when considered as an object of language or literary study”

Page 46: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

45

A revolução do corpus mudou para sempre a lingüística computacional, e é

fundamental para a pesquisa aqui descrita. É a partir de pesquisa em corpora que expressões

cristalizadas serão identificadas, e são baseadas em corpora que as evidências dos

fenômenos lingüísticos ganham substância.

2.9 Survey de Ferramentas de Lexicografia Computaci onal

Para situar melhor o trabalho aqui realizado, é necessário uma breve exploração das

principais ferramentas de lingüística e lexicografia computacional. Esta exploração não tem

o intuito de ser exaustiva, e tem apenas o intuito de contextualizar nosso trabalho frente aos

que se propõem a executar tarefas da mesma natureza.

As ferramentas aqui descritas são o Sketch Engine, o Unitex, o WordSmith, o

Philologic e o Natural Language Toolkit. O anotador morfossintático PALAVRAS também

pode ser encarado como uma ferramenta dessa natureza, mas sua descrição já foi feita na

seção 2.1.

2.9.1 Sketch Engine – O Esboço de Palavras

A ferramenta Sketch Engine KILGARRIFF(2004), desenvolvida por Adam Kilgarriff,

Pavel Rychlý e Jan Pomikálek, é um sistema de pesquisa em corpus (Corpus Query System)

baseado em corpora anotados morfossintaticamente e com relacionamentos gramaticais

definidos através de expressões regulares.

O Sketch Engine permite, entre outras funções, a busca de colocações em corpora

definidas em sua lista de relações gramaticais, gerando, para uma dada palavra raiz, toda a

lista de palavras co-ocorrentes e com qual significância.

Para a língua portuguesa, o Sketch Engine trabalha nativamente com os corpora

CETENFolha e CETEMPublico (LINGUATECA), respectivamente do Brasil e de Portugal,

anotados morfossintaticamente pela ferramenta PALAVRAS através de parceria com

Eckhard Bick.

Page 47: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

46

Figura 2.5 - Parte do esboço da palavra “juro”

O CETEMPúblico é um corpus de aproximadamente 180 milhões de palavras do

português Europeu com textos extraídos do jornal Público. O CETENFolha é um corpus de

aproximadamente 24 milhões de palavras do português Brasileiro com textos extraídos do

jornal Folha de São Paulo. Partes do CETEMPúblico e do CETENFolha foram anotadas

morfossintaticamente com a ferramenta PALAVRAS e foram revisados manualmente pela

equipe da Professora Diana Santos, constituindo assim o principal recurso de corpus

disponível em Português na data da publicação deste trabalho.

Em seu estágio atual, o Word Sketch (Seção 2.9.1) esbarra justamente na limitada lista

de relacionamentos gramaticais especificados para a língua portuguesa, que foi criada pelos

projetistas da ferramenta que não falam português.

Page 48: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

47

… define(`any_noun',`"N"') define(`singular_noun',`"N...S"') define(`plural_noun',`"N...P"') define(`proper_name',`"PROP"') define(`any_adj',`"ADJ"') … *DUAL =objeto/objeto_de 1:"V" "PRP"{0,1} "DET"{0,1} 2:"N" *DUAL =objeto_de/objeto 1:"N" 2:"V" "DET"{0,1} "PRP"{0,1} 1:"N" [negative] 2:"V" "DET"{0,1} "PRP"{0,1} *DUAL =subject/subject_of 1:"N" 2:"V" *DUAL =modifier/modifies 2:any_adj adj_string any_noun{0,2} 1:any_noun [word!="de" & tag!=any_noun] 2:any_noun any_noun{0,3} 1:any_noun *DUAL =v_auxiliar/v_auxiliar 2:[struct="@FAUX"] 1:"V" …

Tabela 2.5 - Trecho da lista de Relações Gramaticais especificadas para a língua Portuguesa

Como exemplos de colocações na língua inglesa, podemos citar as seguintes, obtidas

com o auxílio do Sketch Engine KILGARRIFF(2004), a partir do British National Corpus

e das expressões regulares que descrevem regras gramaticais da língua inglesa:

i) “crystal clear”, “common ground”, “sitting duck”;

ii) “senior management”, “plane crash” , “death penalty”;

iii) “very young”, “watch the telly”, “tears running”.

Page 49: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

48

Uma análise superficial revela diferenças conceituais importantes entre i), ii) e iii).

Enquanto nas expressões em i) o significado da expressão como um todo não tem relação

semântica com as partes, as expressões em ii) e iii) possuem esta relação. Apesar disso, as

expressões em ii) têm uma unidade semântica mais coesa e são de uso corrente, sendo

pouco usuais mudanças em sua configuração, como “plane fall” ou “death punishment”. Já

as expressões em iii) são meramente co-ocorrências freqüentes da língua, não configurando

necessariamente uma unidade semântica.

Em MANNING(1999), os autores tratam colocações do ponto de vista estatístico, e

oferecem uma definição mais rigorosa: “qualquer expressão (“turn of phrase”) onde de

alguma forma o todo é percebido como tendo uma existência além da soma das partes”, ou

ainda, “uma expressão consistindo de uma ou mais palavras que correspondem a uma

maneira mais convencional de dizer algo”, ou, ainda da mesma fonte citando palavras de

Firth(1957:181): “colocações de uma determinada palavra são declarações da forma

habitual ou costumeira daquela palavra”.

Em KILGARRIFF(2006) o autor discorre sobre a “colocacionalidade”, ou, segundo sua

definição, como, a partir de medidas importadas da teoria da informação, podemos medir

estatisticamente o quão relacionadas estão duas palavras quaisquer. Este trabalho descreve

esta medida como Entropia, definida como uma probabilidade de distribuição, capaz de

demonstrar quanta informação existe nesta distribuição. Mais precisamente, a entropia é

definida como a soma, considerando todos os resultados possíveis, do produto da

probabilidade e do logaritmo base 2 da probabilidade (que leva o sinal negativo para o

resultado do produto tornar-se positivo).

-Σ p(x).log(p(x))

Desta forma, o autor calcula o conjunto de probabilidades de uma determinada palavra

como a combinação daquela palavra com todas as palavras que ocorrem junto a ela no

corpus, e compara esta medida com a probabilidade de sua ocorrência com uma palavra em

especial, medida essa conhecida na literatura como “maximum likelihood estimate” ou,

traduzindo para o português, estimativa de máxima chance.

Page 50: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

49

O trabalho de KILGARRIFF(2006) é realizado utilizando a ferramenta WordSketch

KILGARRIFF(2004), que utiliza padrões gramaticais representados através de expressões

regulares, e requer corpora lematizado e anotado morfossintaticamente. Dentre suas

conclusões, afirma que a entropia tende a crescer com a freqüência, ou seja, que a entropia

cresce com o número de resultados possíveis na relação estudada, neste caso a relação

gramatical OBJETO, entre verbo e sintagma nominal em função do complemento.

2.9.2 Unitex

O Unitex UNITEX(2008) é um aplicativo Java parte do projeto PLUME, de Sébastien

Paumier, do Instituto Gaspard-Monge da Universidade de Marne-la-Vallée, França. Esta

ferramenta é um Corpus Query Tool desenvolvido dentro dos termos da General Public

License (GPL), ou seja, é um software livre.

Segundo os autores, o Unitex é “um sistema de processamento de corpus, baseado em

tecnologia orientada a autômatos”, e de acordo com seus projetistas, com esta ferramenta

um usuário pode manusear recursos eletrônicos como dicionários e gramáticas e aplicá-los,

trabalhando nos níveis de morfologia, lexicografia e sintaxe.

Suas principais funções são:

• Construção, verificação e aplicação de dicionários eletrônicos;

• Identificação de padrões lingüísticos utilizando expressões regulares e redes

de transição recursivas;

• Aplicação de tabelas léxico-gramaticais;

• Desambiguação através de autômatos de textos.

Como o Sketch Engine, o Unitex utiliza expressões regulares para a manipulação de

anotações morfossintáticas, o que efetivamente permite uma adaptação desta ferramenta

para outras línguas como o português.

Page 51: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

50

Ao contrário do Sketch Engine, esta ferramenta pode ter como entrada textos em estado

natural, ou seja, sem anotação morfossintática, realizando assim uma série de tarefas de pré-

processamento, tais como a normalização de separadores, a identificação de componentes

do texto, a normalização de formas não-ambíguas, a quebra em sentenças e a aplicação de

dicionários. Ela permite também a utilização de gramáticas locais com formalismo lógico e

a utilização de grafos para sua representação.

Figura 2.6- Grafo para o reconhecimento de pronomes da língua inglesa

O Unitex é uma poderosa ferramenta gráfica de lingüística, e não tem foco na

exploração de multivocábulos, não possuindo assim nenhum tipo de ferramenta estatística.

Um dos dicionários usados pelo Unitex é o de palavras compostas, em que estão listadas

manualmente expressões com graus de fixidez variados. A partir de uma busca por

concordance utilizando expressões regulares, é possível ao usuário reconhecer candidatos a

compostos ou multivocábulos e acrescentá-los a seu próprio dicionário. A partir desse

dicionário pessoal, pode-se realizar nova busca e ver a freqüência com que a expressão

dicionarizada aparece nos textos.

Page 52: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

51

2.9.3 WordSmith

O WordSmith (WS) é um conjunto integrado de programas, projetados para analisar

como as palavras se comportam dentro de um texto ou de corpus. Este programa é uma

ferramenta comercial, e precisa ser adquirido para ser utilizado.

Ele é dividido em três módulos principais. O primeiro é um analisador de concordância

(concordancer), que busca palavras no texto e as exibe com as palavras que a circundam. O

segundo é uma ferramenta de identificação de relacionamentos de palavras, que lista e

agrupa todas as palavras de um texto, e o terceiro é uma ferramenta de localização de

palavras-chave num texto.

Esta ferramenta é flexível no sentido que o usuário pode escolher seus próprios textos

em linguagem natural, não havendo a necessidade de pré-processar o corpus. Esta

ferramenta não lematiza, por isso o usuário tem que utilizar uma notação especial para

buscar todas as ocorrências de uma palavra, colocando asteriscos para simbolizar o

“coringa”. Por exemplo, para buscar todas as ocorrências do verbo “correr”, seria

necessário procurar por “corr*”, o que talvez funcione bem para a língua inglesa mas

geraria falsos positivos para o português, como “corrimão”, para este exemplo específico.

Apesar disso, o WS possui uma variedade grande de ferramentas de análise do

comportamento de uma palavra, ainda que não permita ao usuário a escolha do algoritmo.

O WS tem um excelente localizador de colocações, que exibe os resultados sob a forma de

árvore, e não está limitado a buscar bigramas ou trigramas, mas uma seqüência de tamanho

n de palavras.

2.9.4 PhiloLogic

O Philologic é um projeto da Universidade de Chicago que provê funcionalidades de

busca sofisticadas para uma grande quantidade de bancos de dados codificados presentes na

Internet.

Page 53: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

52

Além de buscas simples, esta ferramenta também implementa buscas utilizando

expressões regulares em documentos e bases de dados, o que permite sua utilização tanto

em corpora quanto em bancos de dados tradicionais.

Para o contexto da Lingüística, estas buscas vêm acompanhadas de informações de

freqüência, o que permite a obtenção de características de concordância que são a matéria

prima de muitas linhas de pesquisa desta área. A partir de uma palavra núcleo, o usuário

também pode realizar a busca de colocações, que são ordenadas através de um ranking

gerado a partir da proximidade e da freqüência de ocorrência com a palavra núcleo.

Para a língua Portuguesa foi preparado um corpus que foi dividido em três partes e

integrado ao Philologic pelo subprojeto da USP/São Carlos que faz parte do Projeto PLN-

BR3.

A Figura 2.7 mostra a interface do Philologic em português, operando sobre o corpus

PLN-BR.

Figura 2.7 - Interface do Philologic 3 O Projeto PLN-BR foi desenvolvido por equipes da USP/São Carlos, UF-São Carlos, Unisinos, PUCRGS, PUC-Rio e Mackenzie.

Page 54: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

53

2.9.5 Natural Language Toolkit

O Natural Language Toolkit é um conjunto de módulos desenvolvidos na linguagem

Python que compõem um framework para pesquisa e desenvolvimento de linguagem

natural. Ele contém implementação para dezenas de tarefas de processamento de linguagem

natural e possui quarenta corpora integrados, funcionando tanto na plataforma Windows,

quanto para Mac e Linux, visto que o Python foi portado para estas plataformas.

Para o estudo do Português, o NLTK tem o corpus Floresta Sintática de Portugal,

anotado sintaticamente à mão, e o corpus MacMorpho, etiquetado morfossintaticamente, do

Português do Brasil.

O NLTK é atualmente o sistema de lingüística computacional mais completo, e o fato

de conter corpora de diversas línguas, como o Sketch Engine, o torna especialmente versátil

para estudos comparativos entre línguas diferentes. Ele permite a integração de programas

escritos pelo usuário, o que o torna verdadeiramente extensível e flexível.

2.10 Revisão da Literatura de Multivocábulos

Em PIAO(2006) uma nova maneira de medir a composicionalidade é proposta, através

de um algoritmo que classifica as expressões multivocabulares em relação a uma taxonomia

de campo semântico, baseada no léxico semântico Lancaster da língua inglesa.

A informação semântica fornecida pelo léxico é usada para medir a distância semântica

entre o multivocábulo e os vocábulos que o constituem. O autor chama atenção para o fato

de a composicionalidade ser um critério crítico nas definições de expressão multivocabular

e na extração e classificação destas.

Ainda segundo PIAO, no dicionário semântico Lancaster cada palavra e multivocábulo

são codificados sob a forma de uma etiqueta semântica. Estas etiquetas são agrupadas e

distribuídas num campo semântico, onde suas distâncias relativas podem ser determinadas,

oferecendo uma medida objetiva da diferença de significado entre palavras e

multivocábulos. A classificação do léxico Lancaster foi feita manualmente, e uma vez

Page 55: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

54

classificados os lexemas e delineado o campo semântico, o léxico pode ser utilizado por

aplicações que classificam multivocábulos de forma automática.

Na mesma linha de pesquisa, KATZ(2006) argumenta que o significado de expressões

multivocabulares não-composicionais pode ser obtido através do contexto semântico que as

cerca, e propõe uma metodologia de medição da composicionalidade através da

similaridade vetorial entre os vetores associados aos multivocábulos e aqueles associados

aos vocábulos constituintes.

Segundo este autor, uma analogia pode ser feita entre as técnicas de desambiguação

baseadas no contexto semântico, e a determinação da composicionalidade ou da

idiomaticidade de multivocábulos. KATZ propõe então dois experimentos para testar esta

hipótese. O primeiro é projetado para confirmar que o contexto local de uma expressão

idiomática conhecida pode ser usado para distinguir usos idiomáticos de usos não

idiomáticos, ou seja, determinar quando “chutar o balde” tem a acepção de “desistir”, e

quando significa simplesmente atingir o balde com a ponta do pé. O segundo experimento

foi projetado para determinar se a diferença entre o contexto em que um multivocábulo

ocorre e aquele em que seus constituintes ocorrem é suficiente para indicar se o

multivocábulo tem utilização idiomática.

Em seus experimentos KATZ usa a Análise Léxica Semântica (LSA) como modelo

para similaridade de textos. A LSA fornece vetores cujos cossenos podem ser comparados

para determinar similaridade, permitindo assim uma medição da não-composicionalidade.

No campo do ensino de outras línguas e da tradução automática,

VENKATAPATHY(2006) argumenta que informações sobre expressões multivocabulares

podem ser usadas para a tarefa de alinhamento de palavras de línguas diferentes, mais

especificamente medidas como a Pointwise Mutual Information podem ser utilizadas nas

tarefas de tradução automática que envolvem alinhamento de palavras.

O que VENKATAPATHY busca é uma maneira de demonstrar a utilidade de medidas

de composicionalidade, como as de PIAO e KATZ, por exemplo. A autora argumenta que,

apesar de sua eficácia e precisão, estas medidas ainda não tiveram sua utilidade prática

Page 56: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

55

demonstrada. Seu trabalho é focado no alinhamento de verbos e seus complementos, e tem

como base um processo de aprendizado automático utilizando corpora paralelos em inglês e

hindu. Corpora paralelos são aqueles que contêm as mesmas frases em línguas diferentes,

como a Pedra de Rosetta, um artefato egípcio descoberto em 1799, que continha

exatamente o mesmo texto transcrito em dois dialetos egípcios e em grego clássico,

permitindo assim a compreensão de duas línguas egípcias desconhecidas a partir do grego,

que era conhecido. Este aprendizado é feito utilizando o algoritmo de busca Beam que

obtém os K-melhores (K-Best) alinhamentos entre os verbos dos dois corpora.

Numa linha diferente e intrinsecamente relacionada com este trabalho, KRENN(2001)

faz um estudo das diferentes metodologias de identificação estatística de multivocábulos,

aplicadas a dois corpora diferentes da língua inglesa, um jornalístico e um oriundo de

grupos de notícias da WEB. A proposta de KRENN é que as medidas de associação

precisam ser avaliadas em relação a conjuntos de colocações manualmente extraídos, e que

a noção de colocação, ou multivocábulo, precisa ser precisamente definida.

Segundo KRENN, um dos problemas deste tipo de trabalho, problema este que atinge a

nossa abordagem também, é a falta de uniformidade entre lingüistas na classificação de

lexemas como multivocábulos, o que torna os resultados e conclusões inconsistentes e não

reprodutíveis. Este problema advém da própria fluidez da língua e de um componente

inteiramente subjetivo que é a experiência do lingüista neste tipo de classificação.

A autora utilizou as mesmas medidas que implementamos aqui, aplicadas a

construções com verbos de suporte e expressões figurativas da língua alemã, e conclui que

os resultados que obteve foram diferentes daqueles obtidos em estudos semelhantes, que

utilizaram definições menos precisas do que a oferecida por KRENN. Bem como neste

trabalho, os nossos melhores resultados foram obtidos com a utilização do Teste-T, mas no

trabalho desta autora nenhuma das medidas teve desempenho significantemente melhor que

uma simples freqüência de co-ocorrência. O teste de Log Likelihood foi o que obteve pior

desempenho e a autora não notou diferenças nos resultados entre os dois tipos de corpora. A

autora conclui sugerindo que trabalhos futuros precisam definir precisamente os diferentes

Page 57: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

56

tipos de expressões multivocabulares, mas reconhece que é uma questão chave se tal

definição é possível.

O trabalho descrito acima vem na seqüência de KRENN(2000), onde a autora explora

as diferentes maneiras de extrair medidas de colocações na língua alemã, e para isso discute

dois modelos de identificação. O primeiro, denominado Entropia da Frase, leva em conta o

conceito observacional de que sintagmas que são partes de colocações são em geral mais

rígidos gramaticamente do que aqueles que não o são. O segundo, denominado Chaves

Léxicas, é uma abordagem completamente baseada no léxico, onde verbos selecionados são

empregados como chaves léxicas para identificar uma classe particular de colocações sob a

forma de sintagma verbal.

Neste trabalho, KRENN propõe também um modelo relacional para a representação de

colocações, numa rara alusão à disciplina de Bancos de Dados num trabalho de lingüística.

Este modelo não é citado em trabalhos seguintes da autora e a falta de referências a

qualquer tipo de modelo de dados nos trabalhos de lingüística sugere uma falta de sinergia

entre estas disciplinas.

Numa linha de pesquisa semelhante, mas defendendo um ponto de vista um pouco

diferente, GARRÃO(2006) explora as diferenças das abordagens que incluem a intuição

humana, e defende aquelas que dependem fortemente de evidência de corpus, partindo do

pressuposto de que a evidência presente no próprio registro da língua é suficiente e se

sustenta sozinha.

Neste trabalho, GARRÃO explora sintagmas verbais com o padrão V+NP (verbo

seguido de sintagma nominal), contidos no corpus CETENFolha, de 24 milhões de

palavras, utilizando uma aplicação Java. O teste estatístico utilizado é o Log Likelihood e o

foco são as instâncias do verbo fazer+NP.

A autora compartilha da opinião de KILGARRIFF(1997), que o corpus contém a chave

para o significado das palavras, ou seja, que a palavra não possui um sentido intrínseco e

proprietário, mas que assume diferentes sentidos e nuances de acordo com o contexto e a

sentença em que é empregada. Segundo GARRÃO e KILGARRIFF, dadas as ferramentas

Page 58: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

57

certas e uma grande quantidade de dados, é possível analisar o significado das palavras e/ou

obter informações sobre seu contexto, o que, a autora argumenta, em termos práticos é

quase a mesma coisa.

Na conclusão, GARRÃO defende a utilização crescente de frameworks estatísticos em

lexicografia, argumentando que seu processamento é relativamente rápido e seus resultados

confiáveis. É partindo exatamente dessa premissa que o trabalho em mãos foi desenvolvido.

MCKEOWN(1999) descreve uma classe de grupos de palavras que se situa entre as

expressões idiomáticas e as combinações livres de palavras, como no espectro descrito em

GARRÃO(2001), definindo expressões idiomáticas como aquelas onde a semântica do todo

não pode ser deduzida da soma da semântica das partes (ver Composicionalidade, seção

2.5), e combinações livres de palavras como aquelas onde os constituintes podem ser

modificados livremente sem alterar o significado da expressão.

A autora afirma que as colocações são um grupo de palavras onde as combinações

ocorrem com probabilidade maior do que a de ocorrências aleatórias, mas que, ao contrário

das expressões idiomáticas, numa colocação as partes podem contribuir para a semântica

geral da expressão.

Dentre as principais utilizações citadas pela autora estão a desambiguação e o auxílio à

tradução. No contexto da desambiguação, uma palavra da expressão é a palavra a ser

desambiguada, e as outras palavras que compõem a colocação dão as pistas necessárias ao

significado sendo empregado.

Page 59: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

58

3 Nossos Corpora

Os resultados aqui apresentados foram obtidos a partir da aplicação do método de

identificação sobre dois corpora bem distintos. A seguir segue a descrição destes corpora,

bem como a da metodologia de criação do corpus WEB.

3.1 Corpus Jornalístico

O primeiro corpus, denominado aqui corpus jornalístico, é composto de textos de um

jornal de grande circulação e possui material contemporâneo brasileiro, com não mais que

uma década de idade, somando ao todo 32.044.437 tokens, que podem ser palavras, sinais

de pontuação, etc.

O corpus jornalístico foi obtido pela PUC-Rio com cessão de direitos autorais restrita à

pesquisa naquela instituição, e não pode ser utilizado fora deste contexto.

Este corpus apresenta vantagens e desvantagens, dentre estas podemos citar:

Vantagens:

- Limpeza dos textos, sem a presença de caracteres de controle ou de formatação que

possam alterar o resultado do método;

- Identificação clara do período de origem;

- Identificação do país de procedência dos textos;

- Correção gramatical e sintática.

Desvantagens

- Copydesk (verificação de estilo para que o texto escrito esteja em conformidade com

o manual de estilo da publicação) que imprime uma tendência (bias) no texto, tornando-o

menos original, autêntico e variado;

Page 60: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

59

3.1.1 Estatísticas do Corpus Jornalístico

A Figura 3.1 apresenta as estatísticas gramaticais básicas do Corpus Jornalístico. Em

concordância com os resultados obtidos por outros autores em corpora da língua inglesa, a

maior parte das partículas anotadas, ou melhor, a categoria de palavra mais representada

neste corpus corresponde a substantivos comuns, com quase um quinto das palavras

contadas. Em segundo lugar vêm as preposições, confirmando sua importância nos estudos

lingüísticos, ainda mais os de cunho estatístico, seguida de pronomes com inflexão e

verbos.

A categoria outros nesta contagem corresponde às outras classes gramaticais não

representadas aqui, como interjeições (IN), prefixos separados por hífen (EC), erros de

marcação, e erros advindos de problemas no corpus, erros criados durante o processo de

tabulação, problemas no algoritmo de contagem, e a combinação de vários destes fatores.

Figura 3.1 - Porcentagem de distribuição de classes gramaticais – Corpus Jornalístico

Page 61: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

60

Na figura Figura 3.1, as etiquetas mostradas são as utilizadas pelo parser PALAVRAS

e correspondem a:

PoS Definição do PALAVRAS

N Nomes ou substantivos comuns; PRP Preposições; DET Determinantes, definidos como pronomes com inflexão, como artigos e

quantificadores; V Verbos PROP Nomes próprios ADJ Adjetivos ADV Advérbios KC Conjunções coodenativas NUM Numerais cardinais SPEC Especificadores, definidos como pronomes sem inflexão que não podem ser

usados como prenomes KS Conjunções subordinativas PERS Pronomes pessoais PU Marcas de pontuação

Tabela 3.1 - Notação gramatical do PALAVRAS

3.2 Corpus Internet

O segundo corpus, denominado Corpus Internet, foi construído no contexto deste

trabalho, totalmente a partir da ferramenta WebBootCat (KILGARRIFF2004), que realiza

coleta de textos na internet a partir de parâmetros definidos pelo utilizador.

Na Figura 3.2 podemos ver a interface gráfica do WebBootCat e quais parâmetros são

necessários para a coleta de textos. O primeiro parâmetro são as palavras “sementes” (seed

words) que são utilizadas pela máquina de busca do WebBootCat na seleção de endereços

contendo textos. No caso específico dos textos coletados para esta pesquisa, estas palavras

sementes foram extraídas do corpus jornalístico, a partir de uma seleção dos substantivos

comuns com maior ocorrência. A lista completa destes substantivos, bem como sua

ocorrência, pode ser encontrada no Anexo 2.

Uma vez compilada esta lista, as 500 palavras de maior ocorrência foram agrupadas em

subconjuntos de vinte palavras, os quais foram utilizados como palavras semente.

Page 62: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

61

A interface, ilustrada na Figura 3.2 permite também a carga de um arquivo contendo as

palavras semente, mas esta opção não foi utilizada porque o objetivo era construir um

corpus de grande volume em partes, com conteúdo variado, e a carga de um arquivo de

palavras, apesar de resultar numa seleção variada de textos, não facilita a acumulação, que

era nosso objetivo.

Figura 3.2 - Interface gráfica básica do WebBootCat

A ferramenta também permite a seleção da língua dos textos, sendo que, no caso do

Português, esta seleção abrange o Português do Brasil e o chamado Português Continental,

ou seja, o Português falado e escrito em Portugal. Para a composição do Corpus Internet

foram escolhidos textos somente em português, incluindo assim o Português do Brasil, o de

Portugal e de todas as nações lusófonas.

Dada a baixa presença de textos em Português na internet, aproximadamente 4.0 %,

compreendendo 177 milhões de lusófonos, onde 158 milhões são Brasileiros e 10 milhões

Portugueses, segundo o INTERNET WORLD STATS(2008), é um pressuposto deste

Page 63: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

62

trabalho que os textos coletados são majoritariamente de português do Brasil e

minoritariamente de português continental, pressuposto este derivado apenas dos dados

acima.

A opção seguinte permite a seleção manual, dentre endereços eletrônicos encontrados,

de quais terão seus textos extraídos. Esta opção não foi ativada na construção do corpus

internet.

A interface avançada do WebBootCat, ilustrada na Figura 3.3, permite a especificação

de cinco itens importantes para a aquisição de corpora de grande volume.

A primeira opção é o número de termos em cada tupla, ou seja, o número de palavras

que serão buscadas simultaneamente na seleção das URLs candidatas. A próxima opção é o

número máximo de tuplas a ser pesquisadas em cada sessão de busca que gerará a lista de

URLs.

A terceira opção é o número de URLs que serão adicionadas à lista em cada busca no

Yahoo!, ou seja, se a opção anterior for deixada em 10, e esta for também configurada para

10, será gerada uma lista com 100 URLs das quais o conteúdo será processado para gerar o

corpus.

As opções seguintes permitem o ajuste do tamanho máximo e mínimo de página, em

kilobytes, que será processada na formação do corpus.

Parâmetros adicionais que não foram utilizados incluem uma lista de URLs que não

devem ser incluídas na lista, no parâmetro “Query restrictions”, e listas de palavras que têm

que aparecer, e palavras que não podem aparecer nos textos selecionados, nos parâmetros

“White list keywords” e “Black list keywords”.

Por recomendação dos autores (comunicação eletrônica em 27/01/2008), uma série de

testes foram realizados para determinar os parâmetros ideais para a busca de URLs no

Yahoo!. A principal recomendação foi aumentar o número máximo de tuplas, visto que este

essencialmente trabalha com permutações de palavras sementes, três a três, se mantido o

primeiro parâmetro da interface avançada.

Page 64: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

63

Figura 3.3- Interface gráfica avançada do WebBootCat

Os parâmetros finalmente utilizados foram:

Number of terms in tuples 3

Max. Number of tuples 150 (valor máximo aceito)

Max. URLs per query 100

Min Page size 50

Page 65: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

64

Max Page size 200000

Tabela 3.2 - Parâmetros usados no WebBootCat

Como a combinação de vinte, três a três resulta em 1.140 combinações possíveis,

apenas pouco menos que um décimo destas foram exploradas. Mas isso não é

necessariamente ruim, pois minimiza o risco da seleção de URLs repetidas, que gerariam

trechos duplicados no Corpus. Apesar disso, este é um dos principais problemas na

utilização desta ferramenta.

Outro problema da composição de corpora com o WebBootCat é a presença de

caracteres de controle, hífens, e todo tipo de lixo gráfico que não é automaticamente filtrado

pelo processo de limpeza que o WBC faz, como por exemplo:

em Bourne Shell CVS_RSH=ssh export CVS_RSH CVSROOT=:ext: seulogin @cvs.doc-

br.berlios.de:/cvsroot/doc-br export

Tabela 3.3 - Exemplo de trecho problemático do Corpus Internet

A seqüência da Tabela 3.3 é totalmente incompreensível fora de seu domínio

semântico e, para o processador do PALAVRAS, torna-se um grande obstáculo, causando

em muitos casos a interrupção do processo de anotação em virtude de exceções provocadas

por este sistema.

Neste processo, o Corpus Jornalístico foi anotado ao longo de cinco dias ininterruptos

de processamento. Já para o Corpus Internet, que foi criado em dez partes, o processo de

anotação teve que ser repetidamente reiniciado, e os problemas no corpus sanados. O

subproduto benéfico deste método foi uma “limpeza” dos trechos críticos, diminuindo a

quantidade de caracteres e palavras indesejáveis e sem nenhum significado gramatical ou

sintático. Ainda assim, a grande maioria deste corpus é de sentenças com valor lingüístico,

ainda que isto não possa ser medido sem uma varredura manual linha a linha.

Palavras semente Corpus gerado

mês caso mercado cidade grupo semana parte tempo problema jogo preço programa

01_Corpus_Bootcat_3_939_762.raw.txt 3.939.762 palavras

Page 66: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

65

trabalho ação projeto time número estado área equipe mundo vida ponto final filme banco casa hora região história setor mulher valor nome dinheiro forma processo livro homem deputado sistema

02_Corpus_Bootcat_5_955_581.raw.txt 5.955.581 palavras

coisa diretor resultado serviço decisão obra informação jogador recurso vez partido ministro política aumento carro polícia início produto juro economia

03_Corpus_Bootcat_6_432_727.raw.txt 6.424.727 palavras

venda momento clube milhão taxa direito lugar família tel. situação técnico brasileiro pesquisa tipo produção criança noite líder título

04_Corpus_Bootcat_5_516_655.raw.txt 5.516.655 palavras

proposta período lei queda medida fim idéia rua acordo capital fato crise conta ano governo dia país empresa presidente pessoa

05_Corpus_Bootcat_4_716_682.raw.txt 4.716.682 palavras

conta ataque dólar questão rede texto filho campanha funcionário risco local reforma guerra segurança gol música partida contrato investimento justiça morte

06_Corpus_Bootcat_9_112_826.raw.txt 9.112.826 palavras

falta operação governador poder candidato prazo papel saúde seleção professor maioria reunião empresário pai mudança condição dívida futebol prefeitura zona

07_Corpus_Bootcat_8_001_991.raw.txt 8.001.991 palavras

ministério relação janeiro congresso imagem inflação plano crime eleição TV população escola autor lado gente crescimento fundo centro apoio movimento

08_Corpus_Bootcat_5_654_130.raw.txt 5.654.130 palavras

espaço base linha secretário série câmara modelo indústria vitória jornal custo prova força média entidade domingo defesa dado cinema época

09_Corpus_Bootcat_2_513_136.raw.txt 2.513.136 palavras

instituição mão prefeito pagamento objetivo senador participação cargo negócio fase possibilidade sociedade entrevista posição documento interesse km dezembro maio compra

10_Corpus_Bootcat_6_366_880.raw.txt 6.355.880 palavras

Total de palavras: 58.191.370 Tabela 3.4 - Palavras sementes e tamanho de corpora gerado

Como citado anteriormente, as palavras sementes da Tabela 3.4 foram selecionadas a

partir de uma seleção de nomes comuns do Corpus Jornalístico, e isto por si só já introduz

Page 67: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

66

um viés no tipo de texto selecionado, mas é hipótese de trabalho desta pesquisa que este

viés não prejudica a variedade dos textos selecionados.

Por sugestão dos projetistas do WBC, os substantivos comuns mais freqüentes, que

constam no anexo 1, foram descartados, para minimizar o risco da seleção de documentos

repetidos, mas este procedimento é puramente empírico e ainda não possui comprovação

estatística.

É evidente que este tipo de criação de corpus não foi levado ao seu limite, nem na

utilização das palavras sementes nem no número de corpora que pode ser gerado. Este

trabalho foi limitado, em seu limite inferior, pela quantidade mínima estimada de palavras

para gerar resultados relevantes, em nosso caso mais que 30 milhões (outro dado puramente

empírico pois não há como determinar o tamanho da língua e portanto o tamanho amostral),

e em seu limite superior pelo tempo disponível para esta tarefa e pela capacidade de

processamento e armazenamento. Um corpus anotado de 30 milhões de palavras possui um

tamanho de quase um gigabyte, o que torna difícil seu manuseio e processamento.

3.2.1 Estatísticas do Corpus Internet

A Figura 3.4 apresenta as contagens básicas do Corpus Internet. É interessante notar

que, bem como no caso das preposições, com exceção dos erros (adicionados à categoria

“Outros”), que naturalmente estão em maior número pela própria natureza “não verificada”

deste corpus, as classes gramaticais em maior proporção são basicamente as mesmas:

substantivos, preposições, pronomes, verbos respectivamente. A partir daí, o viés do

Corpus Internet transparece, pois o número de nomes próprios aqui é menor que a

proporção de adjetivos e advérbios, o que não acontecia no Corpus Jornalístico.

Ainda assim, as classes gramaticais que chegam a um por cento são basicamente as

mesmas. Vale aqui o mesmo argumento utilizado na seção sobre preposições, de que isso

deve indicar uma tendência do português do Brasil, consideradas as ressalvas em relação ao

tamanho amostral.

Page 68: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

67

Figura 3.4 - Porcentagem de distribuição de classes gramaticais – Corpus Internet

Classe Quantidade Porcentagem

N 5.642.472,00 18%

DET 4.197.601,00 13%

PRP 4.077.417,00 13%

V 3.856.719,00 12%

ADJ 1.666.152,00 5%

ADV 1.432.618,00 4%

PROP 1.400.013,00 4%

KC 921.866,00 3%

NUM 621.077,00 2%

PERS 619.287,00 2%

SPEC 462.942,00 1%

KS 432.407,00 1%

PU 314.133,00 1%

Outros 6.330.192,00 20% Total 31.974.896,00

Tabela 3.5 - Quantidades absolutas de classes gramaticais no Corpus Internet

Page 69: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

68

A Tabela 3.5 apresenta os números absolutos do Corpus Internet, onde, como era de se

esperar vis-à-vis as estatísticas, os números são parecidos. Aqui é mais fácil ver a ordem e a

prevalência das classes gramaticais com freqüência maior neste corpus.

Page 70: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

69

4 O Método

O método aqui proposto busca colocações iniciadas por preposições da língua

portuguesa. Este método foi separado em quatro funções porque cada uma pode ter

utilidade em separado, não sendo parte exclusivamente deste método, mas sim funções

potencialmente comuns no processamento de corpora.

Em linhas gerais o método, apresentado na Figura 4.1 é o seguinte:

1) Possuir um corpus não anotado e realizar a anotação utilizando o PALAVRAS;

2) De posse do corpus anotado, iniciar a aplicação Linguistics Tools e executar a

função de tabulação (CONVERT);

3) O corpus está agora em estado tabulado, pronto para ser manipulado ou

importado para um banco de dados se desejado. Para iniciar o processo de

atomização, utilizar a função EXTRACT;

4) Depois da execução do EXTRACT, duas listas são criadas: Listas A e a lista

para o PALAVRAS. A lista A contém as expressões a ser atomizadas, e a Lista

para o PALAVRAS contém as expressões que vão ser enviadas para esta

ferramenta para classificação.

5) Acessar a interface on-line do PALAVRAS e submeter sua lista. O resultado

deste processo é a Lista B.

6) De posse da lista B, acionar o processo de união e substituição através da opção

REASSEMBLE. O corpus atômico será criado.

7) Utilizar a função IDENTIFY quantas vezes for necessário, com qualquer

combinação de algoritmo e classe gramatical.

Page 71: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

70

Figura 4.1- Fluxograma geral do método

O método é composto de quatro partes distintas, pressupondo a presença de um corpus

anotado morfossintaticamente com a ferramenta PALAVRAS, pressuposição que não afeta

a usabilidade do método, pois o PALAVRAS é comumente utilizado pela comunidade

lingüística, e a utilização de corpora anotados desta maneira é comum nas pesquisas

lingüísticas do Português.

Como parte do método, foi desenvolvida a ferramenta Linguistics Tools, que possui

quatro módulos descritos na seção 4.1

Page 72: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

71

As quatro partes são descritas a seguir.

4.1 Remoção das expressões pré-identificadas pelo P ALAVRAS

Como citado anteriormente, os corpora marcados pela ferramenta PALAVRAS já

contém expressões pré-identificadas que, segundo o próprio autor desta ferramenta [ref.

Comunicação e-mail], não podem ser atomizadas, pois fazem parte integrante do processo

de identificação. Desta forma, para a complementação da lista de expressões identificadas,

para a validação desta lista, ou para a pesquisa de expressões que não constem desta lista,

mas que contenham elementos dela é necessária a atomização destas expressões, que, na

marcação original do corpus, vêm como, por exemplo, no trecho a seguir:

... posts [post] N M P @<ACC a=respeito=de [a=respeito=de] PRP @<ADVL música [música] <domain> N F S @P< ...

Tabela 4.1 - Trecho de corpus identificado pelo PALAVRAS

Que após ser atomizado passa a ser:

...

posts [post] N M P @<ACC

Page 73: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

72

a [a] PRP @N< respeito [respeito] N M S @P< @SUBJ> de [de] PRP @N< música [música] <domain> N F S @P< ...

Tabela 4.2 - Mesmo trecho, agora atomizado

Este processo é executado através da função de identificação (EXTRACT) da

ferramenta Lingustics Tools, e consiste basicamente na separação automática de todas as

expressões que contém o sinal de igual (“=”), e não são nomes próprios, visto que o

PALAVRAS classifica esta classe de substantivos da mesma forma, como em:

... a [o] <artd> <-sam> DET F S @>N Marcella=Prado [Marcella=Prado] <org> PROP F S @P< ...

Tabela 4.3 - Trecho com substantivo próprio feminino identificado pelo PALAVRAS

Por fim, a ferramenta ordena e elimina as entradas duplicadas, gerando uma lista

ordenada de expressões que são parte do processo original de identificação. No contexto do

método aqui descrito, esta lista é denominada Lista A. Além disso, a ferramenta gera uma

lista que é basicamente a Lista A com os marcadores de “=” substituídos pela conjunção

“ou”, o que vai enganar o processo de análise do PALAVRAS no passo seguinte.

4.2 Atomização destas expressões

No fluxo do método semi-automático, esta etapa é a única que tem que ser realizada,

em parte, manualmente, visto que o anotador morfossintático PALAVRAS não possui

interface capaz de aceitar solicitações automáticas.

O processo de marcação morfossintática da lista gerada no passo anterior é realizado

com a ferramenta PALAVRAS, em sua versão on-line ou em alguma instalação local desta

ferramenta.

Page 74: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

73

Visto que o PALAVRAS não possui nenhum tipo de interface de web-services, até o

momento não há como integrar este passo do método no processo automático executado

pelo Linguistics Tools, sendo esta etapa manual.

a=bem a=bem=de a=bem=dizer a=bordo a=breve=trecho a=cabo=de a=cargo=de a=caráter a=cavaleiro=de a=cidade=santa ...

a [a] PRP @ADVL ou [ou] KC @CO bem [bem] <quant> ADV @ADVL . [.] PU <<< a [a] PRP @ADVL ou [ou] <parkc-1> KC @CO bem [bem] <quant> ADV @ADVL ou [ou] <parkc-2> KC @CO de [de] PRP @ADVL . [.] PU <<< a [a] PRP @ADVL ou [ou] <parkc-1> KC @CO bem [bem] <quant> ADV @ADVL> ou [ou] <parkc-2> KC @CO dizer [dizer] V INF @¤V @#ICL-P< @IMV ...

Tabela 4.4- Trechos das listas A e B lado a lado

O resultado desta etapa é uma lista de expressões anotadas morfossintaticamente,

denominadas no contexto desta pesquisa Lista B. Esta lista contém os mesmos itens da lista

A, agora sob forma atômica. De posse destas duas listas, é possível seguir para o próximo

passo, a substituição no corpus de todas as expressões identificadas na etapa anterior por

suas versões atômicas.

4.3 Substituição das expressões pré-identificadas n o corpus por suas versões atômicas

A substituição das expressões pré-identificadas por suas versões atômicas é realizada

na função “Reassemble” da aplicação Linguistics Tools. Esta função tem como entrada as

listas A e B, e substitui cada ocorrência dos itens da lista A por seus correspondentes na

lista B.

Page 75: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

74

Para que esta função seja desempenhada corretamente, é necessário que as listas A e B

estejam em bijeção, ou seja, que para cada elemento de A exista um e somente um elemento

de B, e para cada elemento de B haja somente um elemento correspondente de A.

Como existe o equivalente a uma função bijetora, neste caso o processo de anotação

morfossintática, que gera um resultado para cada entrada, ou palavra, e como a Lista A

contém apenas expressões diferentes entre si, podemos então dizer que há uma relação entre

os elementos das listas A e B tal que:

ƒ: A↔ B ou ƒ (A)=B

Que nada mais é que a representação da bijeção.

Desta forma, tendo como entrada o corpus, a Lista A e a Lista B, a aplicação primeiro

realiza uma operação semelhante a uma união, no contexto da disciplina de Banco de

Dados, onde a chave é a expressão na Lista A e a ela é associado o valor correspondente da

Lista B. Este par chave+valor é então armazenado numa estrutura de dados denominada

Hashtable, que é traduzida por alguns autores como Tabela de Espalhamento, que já vem

implementada na linguagem Java, e que permite a busca e recuperação de valores em tempo

O(1) segundo representação da teoria de algoritmos, ou seja, em tempo constante e de

forma extremamente otimizada, o que permite à aplicação então percorrer o Corpus, e, para

cada entrada identificada como uma expressão multivocabular pré-identificada, buscar na

Hashtable o valor atômico correspondente e substituí-lo.

Figura 4.3- Processo de atomização do Corpus

Page 76: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

75

Na linguagem Java, todos os objetos possuem um código Hash, ou código de

espalhamento, que é armazenado num número inteiro de 32 bits cuja fórmula de Hash foi

projetada de tal maneira que minimiza o agrupamento (clustering) de resultados.

Cada classe possui, oriunda da própria implementação original do Java, uma maneira

diferente de gerar seu código de espalhamento, que pode ser sobrescrito no código final da

classe de forma a permitir a implementação de outras fórmulas de espalhamento.

O resultado final é uma versão atômica do corpus, que pode então ser submetido a

algoritmos de identificação de colocações.

4.4 Identificação de Expressões Candidatas

A identificação de expressões candidatas pode ser realizada com a utilização de quatro

algoritmos distintos baseados em métodos estatísticos.

Estes métodos podem ser aplicados a combinações de preposições com substantivos,

adjetivos, advérbios ou com todas as classes gramaticais que ocorrem no corpus.

Figura 4.4 - Fluxograma do processamento de morfemas

Page 77: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

76

O processo de identificação descrito na Figura 4.4 se inicia com a leitura de um

morfema do corpus atomizado. Em seguida a aplicação decide se o morfema deve ser

armazenado permanentemente ou não, baseado no fato dele ser o morfema seguinte a uma

preposição, ou o morfema seguinte ao seguinte.

Se ele deve ser guardado, uma decisão é feita baseada em flags que determinam se o

morfema é o seguinte ou o seguinte ao seguinte, armazenando-o em sua respectiva

hashtable.

Se não há indicação a priori para guardar este morfema, o sistema avalia se ele é uma

preposição. Se for, a reposição é armazenada ou, caso já exista, é também contabilizada

numa hashtable de preposições. Em seguida é recuperado o morfema anterior que havia

sido temporariamente armazenado para esta eventualidade, e as flags de armazenamento do

morfema seguinte e do seguinte ao seguinte são ativadas.

Em seguida estes morfemas são armazenados e contabilizados, fechando o ciclo.

No final da primeira leitura de todo o corpus, uma nova leitura é realizada, para que os

morfemas presentes nas tabelas de morfemas anteriores, seguintes, e seguintes ao seguinte

possam ser contabilizados. Ao final deste segundo loop os quatro dados básicos estão

presentes: a quantidade de preposições, a quantidade de palavras que ocorrem antes,

sozinhas e com a preposição, a quantidade de palavras que ocorrem depois, sozinhas e com

a preposição, a quantidade das que ocorrem depois das seguintes, sozinhas e como parte do

trigrama, e o tamanho do corpus. É a partir destes dados que todas as estatísticas são

geradas.

Page 78: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

77

4.5 A Ferramenta Linguistics Tools

Figura 4.5 - Diagrama conceitual da aplicação

A Figura 4.5 apresenta o diagrama conceitual da ferramenta Linguistics Tools,

desenvolvida no paradigma de orientação por objetos na Linguagem JAVA v.1.6, utilizando

o ambiente de desenvolvimento Eclipse, versão 3.04.

LinguisticsTools é a classe de entrada da aplicação, e a classe é responsável por exibir

a interface gráfica e tratar os eventos desta interface. Quando é instanciada, a aplicação

apresenta um menu principal com quatro opções: tabular um corpus do formato palavras,

extrair expressões cristalizadas pré-identificadas, re-inserir expressões atomizadas e

identificar novas expressões cristalizadas.

Quando um dos itens do menu é solicitado, a classe LinguisticsTools solicita uma

instância de parser para a classe ParserFactory, que foi implementada no padrão de

projeto Factory Method (GAMMA2000). Este Factory retorna então uma instância de uma

Page 79: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

78

das parsers que estendem a classe Parser. Estas classes se chamam parsers porque todas

operam sobre o mesmo princípio, o de receber um arquivo texto e processá-lo linha a linha,

executando operações sobre estas linhas.

A classe ParserPalavrasToSkE implementa uma máquina de estados que interpreta a

notação produzida pela ferramenta PALAVRAS e agrupa as categorias de informação,

separando-as por TABS. Desta forma, a saída do PALAVRAS torna-se processável por

uma gama maior de aplicações, como o Word Sketch e o próprio Linguistics Tools. Para

este fim, ela, como todas as que estendem Parser, abre uma interface gráfica solicitando

arquivos de origem e de destino.

A classe Parser possui o método abstrato ParseLine em duas versões, uma que recebe

como entrada uma string e outra que recebe um array de strings, e implementa o método

concreto write , que escreve os arquivos texto de saída. O método ParseLine é

implementado por cada classe que estende Parser, classes estas que, além de implementar

seu próprio algoritmo de tratamento das linhas, ainda adicionam os métodos específicos de

contagem, cálculo, etc.

A classe ParserPalavrasMweExtractor também estende a classe Parser. Esta classe é

responsável por identificar os multivocábulos presentes no PALAVRAS, gerar uma lista

com estes multivocábulos (Lista A), e em seguida quebrar estes mesmos multivocábulos

gerando outra lista, de forma que o anotador PALAVRAS possa ser “enganado” para

atomizar estas expressões. Por exemplo, se o PALAVRAS recebe uma frase com a

expressão “dia a dia”, ele automaticamente a classifica como um advérbio, na forma de

“dia=a=dia [dia=a=dia] ADV @<ADVL”. Quando esta classe identifica esta expressão, na

segunda lista ela aparece como “dia ou a ou dia”, o que gera a classificação atômica:

dia [dia] N M S @P< a [a] PRP @<ADVL dia [dia] N M S @P<

Tabela 4.5 - Lista atomizada do PALAVRAS

A classe ParserAssembleCorpusMwe é outra classe que implementa a classe Parser,

e sua responsabilidade é varrer o corpus substituindo os multivocábulos pré-identificados

Page 80: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

79

por aqueles atomizados na etapa anterior do método. Esta classe liga as listas A e B como

um “fecho em zíper” em uma Hashtable, e através de seu método ParseLine substitui as

expressões originais por sua contrapartida atômica.

A última classe que estende Parser é a classe ParserCollocationIdentifier, que é a

entrada para o processo de identificação de multivocábulos. Esta classe é também uma

superclasse, que é por sua vez estendida pelas classes que implementam os algoritmos de

identificação de multivocábulos, como as classes IdentifyChiSquare,

IdentifyMutualInformation , IdentifyLikelihoodRatio e IdentifyTTest .

Todas as classes que estendem ParserCollocationIdentifier utilizam uma classe de

suporte chamada TabbedLine, que como o nome sugere, recebe uma linha do corpus com

elementos separados por tabulações e a transforma num objeto, fornecendo assim funções

de acesso a seus parâmetros lingüísticos como Lemma e Classe Gramatical (PosTag).

4.6 Descrição dos Algoritmos Utilizados

Os algoritmos utilizados na busca de colocações são aqueles que baseiam-se em Teste

de Hipóteses. Testes de Hipótese são aqueles aplicados sobre dados experimentais, onde

uma hipótese baseada em aleatoriedade é estabelecida, e depois esta hipótese é comparada

com os resultados experimentais encontrados. Estes resultados experimentais são gerados a

partir da aplicação de algoritmos de teste sobre os dados experimentais, algoritmos como o

Teste-Z, Teste-T e o teste χ2.

Os Testes de Hipótese permitem a comparação entre uma situação esperada e uma

observada, e se aplicam a uma grande quantidade de situações, sempre que uma hipótese

pode ser estabelecida sobre o comportamento de algum tipo de população.

Em Lingüística de Corpus, os Testes de Hipótese permitem a busca de elementos da

língua que se comportam de maneira diferente daquela que poderíamos esperar, e são uma

das principais ferramentas estatísticas para sustentar teorias como a do Princípio Idiomático

de Sinclair (ver Seção 2.2).

Page 81: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

80

Na pesquisa de multivocábulos, em geral, a hipótese de teste, denominada neste

contexto Hipótese Nula, é gerada a partir da contagem independente dos elementos que se

deseja estudar, ou seja, das palavras.

Se uma palavra p1 tem probabilidade de ocorrência P(p1), dada por p1/N onde N é o

número de palavras no corpus, e outra palavra p2 tem probabilidade P(p2), dada por p2/N,

então a Hipótese Nula é que a freqüência de p1p2 é igual a P(p1)P(p2). Isso é ilustrado na

Tabela 4.6.

H0: P(por exemplo) = P(por) P(exemplo)

P(por) = 281.265 / 32.044.437 = 8,77 x 10-3

P(exemplo) = 12.173 / 32.044.437 = 3,79 x 10-4

H0:P(por exemplo) = 3,33 x 10-6

Tabela 4.6 - Hipótese nula de “Por exemplo”

Para testar a hipótese nula, vários algoritmos foram desenvolvidos. Destes, cinco foram

implementados neste trabalho. Sua descrição aparece a seguir.

4.7 O Teste-T de Student

Teste-T é uma classe de testes estatísticos baseada na distribuição estatística T,

desenvolvida por William Gosset no início do século 20 para monitorar a qualidade da

cerveja Irlandesa Guiness. Como os funcionários da Guiness eram proibidos de publicar

artigos científicos com informações da empresa, Gosset publicou seu trabalho sob o

pseudônimo de Student, estudante em inglês, daí o nome do teste.

Este tipo de teste foi projetado para avaliar quanto uma combinação de fatores é

provável ou improvável, e é um dos testes mais comuns na pesquisa de colocações

(KRENN2001, MANNING99). Sua teoria baseia-se no estabelecimento de uma hipótese

nula, e no cálculo da distribuição t das amostras, dado por

Page 82: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

81

N

s

xt

2

µ−=

Onde x é a média da amostra, s2 é a variância, µ é a média da variância e N o número

total de palavras.

Na busca de colocações, a média da amostra x é representada pela probabilidade da

ocorrência das duas palavras juntas, P(p1p2), a média µ da variância é representada pelo

produto da probabilidade das duas palavras em separado, P(p1)P(p2), a variância s2 é p(1-p),

o que equivale a p para bigramas de ocorrência relativamente pequena em relação ao

tamanho do corpus, e equivalendo, desta forma, à média da amostra x .

Bigrama: por exemplo, corpus com N =32.044.437 palavras

por = 281.265 ocorrências ;

exemplo = 12.173 ocorrências

por exemplo = 8.105 ocorrências;

N

s

xt

2

µ−= =

437.044.32

1053,2

1033,31053,24

64

− −

x

xx = 88,85

Tabela 4.7 - Exemplo da aplicação do Teste T

No exemplo da Tabela 4.7, o valor encontrado, t=88,85 é muito superior ao do valor

crítico calculado para uma tolerância α=0.005, que é largamente utilizada como tolerância

máxima, e cujo valor de tabela (MANNING99, pag. 609) para o teste T é 2,576. Se

diminuirmos a tolerância para α=0.0005, ainda assim o valor de t =3,291 é muito inferior ao

valor encontrado para “por exemplo”, indicando que esta expressão tem grande chance de

ser um multivocábulo.

A implementação na linguagem Java do método de cálculo desta função é apresentada

abaixo.

Page 83: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

82

...

prepRate = new Double(quantPrep.doubleValue()/numberOfLines.doubleValue());

compRate = new Double(quantComp.doubleValue()/numberOfLines.doubleValue());

Double H0 = prepRate*compRate;

Double xBar = new Double(p1p2.get(thisElement).doubleValue()/numberOfLines);

Double tTest = (xBar - H0) / Math.sqrt(xBar/numberOfLines);

… Tabela 4.8 - Implementação da função T-Test

Onde prepRate e compRate são números do tipo Double do Java, que recebem as

probabilidades de P(p1) e P(p2). A partir daí são calculados H0 e xbar, que equivalem

respectivamente a µ e x , e o algoritmo da fórmula está pronto para ser usado. O resultado,

tTest, é em seguida armazenado em uma HashTable que contém as duas palavras cujas

freqüências foram utilizadas e o valor resultante do teste.

4.8 Teste χ2

Uma das premissas do teste T é a distribuição normal das probabilidades, premissa essa

que não é necessariamente verdadeira em todos os casos onde o teste T é aplicado

(MANNING99).

Uma alternativa ao uso do Teste T é o teste χ2 (Chi quadrado), que foi introduzido em

1900 por Karl Pearson (PLACKETT1983) e é um procedimento estatístico onde os

resultados são avaliados tendo como referência a distribuição χ2.

Segundo MANNING, em sua forma mais simples, este teste é aplicado a tabelas 2x2,

como a da Tabela 4.9, e em essência compara as freqüências observadas desta tabela com as

freqüências estimadas pela hipótese da independência dos vocábulos. Se a diferença entre

as freqüências observadas e aquelas estimadas for muito grande, então a hipótese nula da

independência pode ser rejeitada.

P1 = por P1 ≠ por

P2 = exemplo 8.105 12.173 - 8.105 = 4.068

Page 84: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

83

P2≠ exemplo 281.265 – 8.105 = 273.160 32.044.437 – 281.265 –

12.173 = 31.750.999

Tabela 4.9 - Distribuição de “Por exemplo”

O cálculo do teste χ2 é realizado através da fórmula:

∑−

=ji ij

ijij

E

EO

,

22

)(χ

Onde i são linhas e j colunas da tabela. Oij é o valor observado e Eij o valor estimado.

Este valor estimado é a probabilidade P(p1)P(p2) x N, ou seja, se os dois vocábulos

ocorressem de forma independente, esta fórmula indicaria sua probabilidade estimada de

ocorrência. Para o bigrama “por exemplo” já calculamos o valor de P(p1)P(p2) = 3,33 x 10-6

que multiplicado por N = 32.044.437 resulta num valor estimado E aproximado de 106,70,

ou seja, pela distribuição χ2 seriam esperadas aproximadamente 106 ocorrências de “por

exemplo” no corpus.

Em sua forma mais simples, para tabelas 2 x 2 como as utilizadas nos cálculos deste

trabalho, o cálculo de χ2 assume a forma:

))()()((

)(

2221221221111211

2211212112

OOOOOOOO

OOOON

++++−

Que implementada na linguagem Java fica sob a forma:

Double O11 = p1p2.get(thisElement).doubleValue(); // quantidade de p1p2

Double O12 = quantComp.doubleValue() - O11; // quantidade do complemento sem a preposicao

Double O21 = quantPrep.doubleValue() - O11; // quantidade de preposicao sem o complemento

Double O22 = numberOfLines.doubleValue() - quantPrep.doubleValue() - quantComp.doubleValue(); //

número de linhas

Double chiSquare = ((numberOfLines-1)* Math.pow((O11*O22 -

O12*O21),2))/((O11+O12)*(O11+O21)*(O12+O22)*(O21+O22));

Tabela 4.10 - Implementação da função χ2

Page 85: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

84

Para o exemplo utilizado acima, o bigrama “por exemplo” temos um valor para χ2 de

aproximadamente 604.241,63, sendo que o valor de tabela (MANNING99, pag 609) para a

distribuição χ2 com um nível de probabilidade α=0.005 é 3,841, ou seja, este teste também

confirma a possibilidade do multivocábulo acima ser uma expressão fixa, evidência esta

fortemente calcada em evidência de corpus.

MANNING afirma ainda que para o problema de determinação de colocações, os

resultados to Teste-T e do χ2 tendem a ser semelhantes, mas que o χ

2 também é apropriado

para grandes probabilidades, situação na qual o Teste-T falha, daí a maior aceitação do

Pearsons χ2 numa gama maior de problemas de descoberta de colocações.

4.9 Log Likelihood

O teste χ2 tende a valorizar em demasia multivocábulos com ocorrência semelhante de

p1,p2 e p1p2. A expressão “on line”, por exemplo, que tem p1(on)=620, p2(line)=440 e

p1p2(on line)=403 tem um score de 1,907 x 107, em comparação com um score no teste T

de 20,07, criando uma exagerada discrepância em valores absolutos com variações difíceis

de ser justificadas pela freqüência dos multivocábulos.

Um maneira mais simples e direta de testar e interpretar os dados é o Log Likelihood

Ratio (MANNING99), que funciona a partir da comparação de duas hipóteses.

Hipótese 1: )()( 1212 ppPpppP ¬==

Hipótese 2: )()( 122112 ppPppppP ¬=≠=

Tabela 4.11 - Hipóteses do teste de Likelihood

Ou seja, na primeira hipótese a ocorrência de p2 com p1 é equivalente à ocorrência de

p2 sem p1. MANNING classifica esta hipótese como uma declaração de independência entre

p1 e p2.

Na segunda hipótese a ocorrência de p2p1 não é equivalente à ocorrência de p2|¬p1, o

que demonstra que há uma desigualdade na probabilidade das ocorrências juntas e

Page 86: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

85

separadas de p1 e p2. Esta seria uma declaração de dependência, e comparar as duas

hipóteses é a proposta deste teste.

A forma básica do teste de Log Likelihood é a seguinte, conforme descrita em

(MANNING99):

)(

)(

2

1

HL

HLLogLog =λ

Transcrevendo c1, c2 e c12 como o número de ocorrências de p1, p2 e p1p2 num corpus

de tamanho N, temos então:

N

cp 2= ,

1

121 c

cp = e

1

1222cN

ccp

−−=

Que em sua forma mais simples para combinações binárias traduz-se em:

A interpretação dos calores gerados pelo Log Likelihood é direta, e significa, por

exemplo, que “salvo conduto”, que tem score de 548,85 tem chance 548 vezes maior de

ocorrer do que seria previsto pela hipótese da independência, ou seja, se tanto salvo quanto

conduto ocorressem com a mesma freqüência com todas as outras palavras com as quais

formam bigramas.

Em relação ao teste de hipótese, MANNING afirma que se λ é o score de Likelihood de

uma forma específica, então a quantidade -2 log λ está assintoticamente distribuída em χ2, e

portanto os valores da tabela estatística de χ2 podem ser usados para avaliar os valores de -2

log λ, valores estes que para um grau de liberdade de 1 e um nível de confiança de 0.0005

equivalem a 7,88. Isso quer dizer que, se considerarmos um nível de tolerância de 0.0005%

para a classificação de bigramas, aqueles que tiverem score de Log Likelihood superior a

este número apresentam fortes indícios, baseados em corpus, que são multivocábulos. Neste

trabalho foi utilizado a mesma tolerância que nos testes com χ2, α = 0.005 equivalendo

portanto, a 3,84 pela tabela estatística.

A implementação da função de Likelihood no Java é a seguinte:

Page 87: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

86

double p = c2/N;

double P1 = c12/c1;

double P2 = (c2 - c12)/ (N - c1);

Double part1 = c12*Math.log(p/P1);

Double part2 = (c1-c12)*Math.log((1-p)/(1-P1));

Double part3 = (c2-c12)*Math.log(p/P2);

Double part4 = ((N-c1-c2+c12)*Math.log((1-p)/(1-P2)));

Double logLikelihood = -2*(part1+part2+part3+part4);

Tabela 4.12 – Implementação da função de Likelihood no Java

A implementação aqui descrita é diferente daquela descrita em (MANNING99), pois a

fórmula original não apresenta resultados apropriados para ocorrências muito baixas de

bigramas ou trigramas, provocando a ocorrência de logaritmos de zero e a conseqüente

destruição do cálculo. Além da utilização de uma versão diferente do algoritmo, as

variáveis c2 e c12 também são comparadas, e se forem iguais, c2 é adicionado de um, para

evitar o resultado zero em P2, o que gera um logaritmo de zero na variável “part3” e destrói

o resultado. Isto altera o resultado deste teste e certamente diminui sua eficácia, mas

MANNING reconhece que este teste, bem como o χ2 e o Mutual Information têm

dificuldade com ocorrências muito baixas de bigramas. A solução para este problema é o

aumento do volume dos corpora utilizados, o que não será implementado aqui, e nem

garante a não ocorrência do problema.

4.10 Mutual Information

CHURCH(1989) é um trabalho do início da Revolução do Corpus, e é sem dúvida uma

das publicações mais influentes em relação à metodologias e medidas de colocações e

multivocábulos. O que este trabalho faz é propor na prática uma versão de uma medida

teórica, aplicada para a lingüística. Esta medida é a Mutual Information (informação

mútua).

Segundo CHURCH, esta é uma medida de associação, e é mais objetiva e menos

custosa computacionalmente do que outras medidas usadas naquela época (1989).

Page 88: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

87

Pela definição em CHURCH(1989), “se dois pontos (palavras), x e y, têm

probabilidade P(x) e P(y), então sua Mutual Information é definida como”:

)()(

),(log),( 2 yPxP

yxPyxI =

Ou seja, ela compara a probabilidade de duas palavras aparecerem juntas com a

probabilidade individual de cada palavra aparecer separada, e a partir daí extrai uma métrica

de o quanto uma palavra tem a dizer sobre outra.

Segundo MANNING(99) o que a Mutual Information nos diz é que, se por exemplo

“salvo conduto” tem um score de 17, isto significa que se a palavra “salvo” ocorrer num

texto, a palavra “conduto” tem uma probabilidade dezessete vezes maior do que qualquer

outra palavra de seguir a palavra “salvo”.

Double prepRate = new Double(quantidadePrepreposicao.doubleValue()/numberOfLines.doubleValue());

Double compRate = new Double(quantidadeComplemento.doubleValue()/numberOfLines.doubleValue());

Double prepCompRate = new Double(p1p2.get(thisElement).doubleValue()/numberOfLines.doubleValue());

Double tTest = log2(prepCompRate/(prepRate*compRate));

Tabela 4.13 – Implementação da função de Mutual Information no Java

A implementação é tão simples quanto a função em si. A probabilidade de P1 e P2 é

calculada a partir da ocorrência de P1 e P2 e do tamanho do corpus. A probabilidade de

P1P2 é calculada do mesmo modo, a partir da Hashtable que armazena as ocorrências de

P1P2.

CHURCH chama atenção para o fato de a medida de associação ficar instável com

ocorrências muito baixas de P1P2, visto que o divisor se aproximará muito de zero,

causando uma distorção desproporcional nos resultados. No corpus Internet, por exemplo,

para P1P2 com uma única ocorrência, temos um denominador com valor:

810127,3986.974.31

1)()( −== xvaríolaPcontraP

Page 89: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

88

Porém apesar do aviso de CHURCH, na maioria dos casos em que P1P2 é baixo, P2

também é baixo, de certa forma corrigindo esta distorção. “contra varíola”, por exemplo,

que tem uma única ocorrência, tem score no teste de Mutual Information de 4,853. Neste

mesmo teste, o maior score é de “ponto e-vírgula”, multivocábulo incorretamente quebrado

pelo PALAVRAS, que foi de 21,763.

4.11 Preparação

Estes testes estatísticos, adaptados para a busca de colocações, geram listas, ou

classificações, de pares de átomos gramaticais que ocorrem de forma estatisticamente

anômala em relação à ocorrência esperada, dada a probabilidade de ocorrência no corpus de

cada uma das partes, mas sozinhos estes métodos são limitados a uma contagem de

bigramas que está sujeita a distorções como por exemplo em “de vista”, bigrama que

apresenta score 32,452 no T-Test aplicado no corpus jornalístico de 30 milhões de tokens.

Este bigrama sozinho aparece com grande freqüência, mas ele é uma expressão

cristalizada ou parte de outra expressão maior? Para isso, é necessário a pesquisa das

partículas que circundam este bigrama, e este procedimento é realizado pela ferramenta da

seguinte maneira:

Durante a identificação dos bigramas contendo preposições em sua cabeça, o morfema

anterior e o morfema posterior ao bigrama são armazenados em estruturas de dados junto

com os bigramas.

Após a aplicação dos algoritmos estatísticos nos bigramas, uma nova análise é

realizada levando em conta o morfema anterior, para analisar sua incidência com o bigrama

em questão.

Na Figura 4.6, o bigrama “de poupança” aparece 465 vezes no corpus e apresenta uma

classificação no Teste-T de 17,292, para um parâmetro alfa correspondente a uma margem

de erro de 0.005 de 2,76.

Page 90: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

89

Quando analisamos o bigrama como uma unidade, e realizamos a análise do morfema

anterior com esta unidade, aferimos um valor de 17,435, o que, neste caso, provê indicação

forte que o bigrama “de poupança” é parte de uma expressão que inclui o morfema

“caderneta”, e portanto não é uma expressão cristalizada iniciada pela preposição “de”,

objeto de interesse neste estudo.

Figura 4.6- Diagrama do método de janelas deslizantes

De maneira análoga, a análise com o morfema posterior revela o relacionamento do

bigrama com o que vem a seguir, sendo que neste caso a análise é mais complexa, pois ela

tem que levar em conta o relacionamento do morfema posterior com a segunda partícula do

bigrama.

Como exemplo dessa situação temos “de energia”, identificado na análise do T-Test do

corpus jornalístico na filtragem de substantivos com uma classificação de 36,611. A análise

do morfema “energia” com o morfema que o segue com maior freqüência, no caso

“elétrica”, fornece indicação que “energia elétrica” pode ser uma expressão cristalizada, e

que não é necessariamente uma expressão cristalizada iniciada pela preposição “de”.

Page 91: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

90

5 As Listas – Resultados

Os resultados aqui apresentados são os que apresentaram os melhores resultados, os do

Teste-T, e dividem-se em duas partes uma para cada corpus, e estas dividem-se em quatro

partes, uma para cada padrão buscado. Comentários serão fornecidos para muitos

resultados, sendo que o objetivo não é realizar uma análise exaustiva dos resultados

obtidos, mas de fornecer ao lingüista uma oportunidade de analisar as listas a partir de sua

própria experiência.

A listagem completa dos resultados para os outros algoritmos é apresentada no Anexo

1.

A execução dos testes foi realizada num Pentium Dual-Core de 2.00GHz, com 2GB de

memória RAM e no sistema operacional Microsoft Windows Vista 32 bits, com índice de

desempenho de 4,8. Os resultados de desempenho de cada teste serão apresentados junto

com os resultados.

5.1 Resultados Teste-T – Corpus Jornalístico

Os resultados do Teste-T, bem como os outros, podem ser subseqüentemente divididos

em quatro partes, uma para cada padrão gramatical pesquisado.

5.1.1 Teste-T – padrão PREP+N Identificação de Preposições: 210280 ms Identificação de vocábulos em (+1): 202 Identificação de vocábulos em (-1): 1829 ms Identificação de vocábulos em (+2): 1228 ms Contagem de vocábulos (-1),(+1)(+2): 202658 ms Primeiro cálculo: 6863 ms Segundo cálculo: 2848 ms Terceiro cálculo: 1610 ms Impressão de resultados preliminares: 7864 ms Fatoração do Segundo cálculo: 1687ms Impressão de resultados finais: 430 Tempo total de processamento : 437499 ms = aprox. 7,2 minutos

Tabela 5.1- Exemplo de estatística gerado pela aplicação

Page 92: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

91

Para o padrão PREP+N apresentamos aqui os primeiros 25 resultados, bem como seus

scores no Teste-T.

Ocorrência simples Primeiro cálculo Segundo cálculo Bigrama Ocorrências Bigrama Score Bigrama Score por;exemplo 8105 por;exemplo 88,841 como;forma 18,475 em;relação 6365 em;relação 75,071 segundo;informação 15,179 por;causa 4341 por;causa 64,957 em;suma 14,607 de;juro 3340 em;torno 50,490 desde;abril 14,178 de;janeiro 3066 a;favor 49,073 como;parte 13,910 de;trabalho 3032 de;janeiro 47,680 em;detrimento 13,318 de;forma 3012 de;juro 46,943 em;mina 13,093 de;pessoa 3010 de;segurança 43,189 até;junho 13,018 de;segurança 2778 de;saúde 42,842 por;motivo 12,915 em;torno 2701 de;maio 41,513 para;uso 12,861 de;saúde 2670 em;janeiro 41,507 desde;julho 12,745 a;favor 2503 de;dezembro 40,943 sob;pena 12,514 de;recurso 2370 de;forma 40,546 desde;maio 12,202 de;maio 2368 de;julho 40,339 com;efeito 11,793 de;vida 2359 de;junho 39,458 desde;agosto 11,786 de;futebol 2325 de;setembro 39,387 segundo;especialista 11,728 de;dezembro 2322 em;média 39,269 como;candidato 11,703 de;julho 2205 de;futebol 39,260 em;protesto 11,702 de;junho 2157 em;abril 39,156 desde;outubro 11,694 de;setembro 2129 por;volta 38,978 por;favor 11,645 de;ação 2119 em;maio 38,598 com;destino 11,632 de;abril 2089 de;março 38,428 segundo;testemunha 11,626 em;janeiro 2059 de;abril 38,284 com;desconto 11,480 de;março 2055 em;dezembro 38,186 desde;novembro 11,410 de;empresa 2036 em;geral 37,827 até;março 11,347

Tabela 5.2 – Teste-T: Padrão gramatical PREP+N

A Tabela 5.2 mostra os vinte e cinco maiores scores para contagem absoluta de

ocorrência de bigramas preposicionados, seguida da classificação destes bigramas pelo

Teste-T e em seguida a subtração desta lista, dos bigramas que tiveram scores no Teste-T

maiores que 2,576 na participação de trigramas.

Em comparação com a classificação realizada pelo PALAVRAS, os bigramas “como

forma”, “de forma”, “para uso”, “em média”, “em protesto” e “segundo testemunha”, por

exemplo, são classificados como palavras separadas, e não como multivocábulos, ao

contrário de “por exemplo”, “em relação a”, “por causa de”, “a favor” e “em suma” entre

Page 93: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

92

outros, demonstrando que é possível a partir da lista gerada criar uma lista de adições que

vai aperfeiçoar o processo de anotação.

É notável, por exemplo, que todos os bigramas identificados na lista do primeiro

cálculo fazem parte de trigramas com score alto no Teste-T, e por isso foram extraídos da

lista do segundo cálculo. Os scores do segundo cálculo revelam que há uma prevalência da

ocorrência de trigramas contendo preposições em <+1> sobre a ocorrência de bigramas com

a preposição como núcleo. O bigrama “como forma”, por exemplo, que ocupa o topo da

lista após o segundo cálculo, era o septuagésimo sexto na lista do primeiro cálculo, ou seja,

os primeiros 75 bigramas identificados no primeiro cálculo têm forte indicação de pertencer

a trigramas.

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score taxa;de;juro 45,134 em;relação;a, 79,164 assessoria;de;imprensa 31,028 por;causa;de 60,895 final;de;semana 30,768 em;torno;de 48,311 projeto;de;lei 30,460 em;vez;de 39,146 milhão;de;pessoa 29,905 por;volta;de 37,225 %;em;relação 29,122 com;base;em 36,125 fundo;de;pensão 24,386 por;parte;de 31,731 ano;de;idade 23,669 em;frente;a 31,603 plano;de;saúde 22,224 em;nome;de 31,055 cartão;de;crédito 21,925 em;busca;de 30,342 hoje;em;dia 21,655 a;respeito;de 29,763 milhão;de;tonelada 21,488 com;agência;internacional 29,705 ano;de;prisão 21,453 a;favor;de 28,814 11;de;setembro 21,408 em;meio;a 28,343 taxa;de;câmbio 20,355 por;falta;de 27,198 entrar;em;contato 19,508 de;imprensa;de 27,007 ontem;de;manhã 19,463 em;razão;de 26,916 meio;de;comunicação 19,354 em;caso;de 26,840 entrar;em;vigor 18,956 em;entrevista;a 26,680 31;de;dezembro 18,938 com;relação;a, 26,310 qualidade;de;vida 18,877 a;fim;de 25,879 fim;de;semana 18,873 em;direção;a, 25,283 destruição;em;massa 18,787 em;cima;de 24,041 o;sem;terra 18,759 em;função;de 22,549 deixar;de;lado 18,716 de;combate;a 22,078

Tabela 5.3 – Teste-T: Padrão gramatical * + PREP+N e PREP+N+*

Page 94: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

93

Já as janelas do segundo e do terceiro cálculo apresentam uma quantidade grande de

multivocábulos. Dos 25 listados aqui, apenas “%;em;relação” e “o;sem;terra” podem ser

classificados como não sendo multivocábulos, ou seja, uma taxa de acerto de 92% nesta

lista.

Dos multivocábulos identificados no segundo cálculo, podemos afirmar, por exemplo,

que “taxa de juro(s)” não faz parte da lista de multivocábulos do PALAVRAS, apesar de

“assessoria de imprensa” ser identificado como multivocábulo (substantivo). Na lista do

segundo cálculo a maioria das expressões (tais como “final de semana”, “projeto de lei”,

“fundo de pensão”, “ano de idade” e “plano de saúde”) não é identificada como

multivocábulo no PALAVRAS, o que demonstra também a validade e a utilidade deste

método de identificação, lembrando que estas são apenas as 25 primeiras expressões

identificadas.

Em relação aos multivocábulos que são alvo este estudo, os da janela do terceiro

cálculo, estes foram igualmente corretamente identificados com uma alta taxa de precisão.

Como os multivocábulos buscados são preposicionados, é natural que os resultados de

maior score sejam locuções, e é justamente isso que ocorre.

5.1.2 Teste T – Padrão PREP+ADV Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score de;ontem 6282 por;meio 63,536 há;pouco 14,228 por;meio 4284 até;agora 48,226 como;sempre 11,708 de;hoje 3739 de;ontem 43,610 durante;quase 9,536 até;agora 2352 até;hoje 36,678 há;apenas 8,729 para;não 2214 de;aí 29,896 desde;já 8,673 de;não 1639 por;enquanto 28,951 desde;anteontem 8,487 de;cerca 1598 há;muito 25,836 desde;cedo 8,168 de;aí 1557 até;ontem 25,145 sem;nunca 8,025 até;hoje 1398 por;trás 25,119 como;nunca 7,639 de;anteontem 1268 desde;então 24,813 até;aí 7,513 de;até 1254 de;hoje 24,078 como;também 7,340 de;aqui 1110 para;cá 22,773 após;quase 6,393 a;não 1058 há;cerca 22,701 como;algo 5,968 de;muito 984 por;aí 22,153 desde;logo 5,723 por;enquanto 970 de;anteontem 22,085 desde;sempre 5,632 a;pouco 938 por;acaso 21,882 durante;cerca 5,082

Page 95: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

94

por;não 900 por;aqui 20,334 para;debaixo 4,793 de;onde 897 com;cerca 18,613 de;outrora 4,590 com;muito 866 para;baixo 18,602 sem;jamais 4,533 de;amanhã 750 por;cerca 18,406 desde;quando 4,469 há;muito 721 a;pouco 18,285 pra;não 4,251 até;ontem 697 para;trás 17,789 para;além 4,146 em;primeiro 690 de;aqui 17,166 com;quase 4,025 por;muito 667 há;quase 17,141 com;aproximadamente 3,978 de;apenas 664 até;lá 16,366 desde;antes 3,846

Tabela 5.4- Teste-T: Padrão gramatical PREP+ADV

Aqui novamente são apresentados primeiro os resultados da contagem simples, e

depois a classificação no Teste-T com o padrão gramatical PREP+ADV. Pela contagem

simples podemos ver que este padrão é um pouco menos comum que o padrão PREP+N, e

como no padrão anterior, todos os multivocábulos no topo do primeiro cálculo são mais

freqüentes quando participam de trigramas. O bigrama “há pouco”, por exemplo, que é o de

maior score no segundo cálculo, é o vigésimo oitavo colocado no score do primeiro cálculo.

De novo aqui, o Teste-T mostra sua eficácia, já que quase muitos bigramas identificados

são locuções adverbiais, como “desde já”, “desde anteontem” e “desde cedo”. Este tipo de

locução está dentro da categoria de multivocábulos que este método pretende identificar.

Janela do segundo cálculo Janela do terceiro cálculo Trigrama Score Trigrama Score tarde;de;ontem 26,606 por;meio;de 60,775 partir;de;hoje 26,129 de;cerca;de 37,183 madrugada;de;ontem 22,235 com;muito;de 26,309 noite;de;ontem 22,154 em;primeiro;lugar 25,369 manhã;de;ontem 21,694 de;muito;de 24,873 partir;de;aí 19,561 há;muito;de 24,132 edição;de;ontem 17,755 a;muito;de 23,221 noite;de;anteontem 17,673 a;não;ser 22,572 apesar;de;não 16,589 por;cerca;de 22,342 partir;de;agora 15,800 com;cerca;de 21,712 partir;de;amanhã 15,438 de;aqui;a 21,599 ser;de;cerca 14,791 por;trás;de 21,558 jogo;de;hoje 14,713 a;cerca;de 21,333 vez;em;quando 14,130 há;cerca;de 21,330 %;a;muito 13,528 em;segundo;lugar 21,324 partida;de;hoje 13,092 em;cerca;de 19,815 estar;por;trás 12,257 por;muito;de 18,199 assim;por;diante 12,200 por;não;ter 17,373 partida;de;ontem 11,930 em;pouco;de 16,901 ser;de;apenas 11,770 de;ontem;ser 16,846 lá;para;cá 11,653 de;não;ter 16,655

Page 96: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

95

manchete;de;ontem 11,646 em;muito;de 16,016 não;por;acaso 11,614 a;pouco;que 15,241 dia;de;ontem 11,415 de;ontem;em 14,660 jogo;de;ontem 11,363 com;pouco;de 13,946

Tabela 5.5- Teste-T: Padrões gramaticais * + PREP+ADV e PREP+ADV+*

A identificação de trigramas na seleção com o padrão *+PREP+ADV também

demonstra uma taxa de acerto de 92%, com apenas duas expressões identificadas de

maneira equivocada: “ser de cerca”, que provavelmente é parte de uma expressão maior, e

“% a muito”. No terceiro cálculo, o que identifica multivocábulos com o padrão

PREP+ADV+*, há de novo uma grande prevalência de locuções adverbiais corretamente

identificadas

5.1.3 Teste T – Padrão PREP+ADJ Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score de;novo 3015 de;visto 32,452 a;curto 12,035 de;grande 2311 em;pleno 23,125 com;forte 8,458 de;bom 1801 com;grande 19,779 com;pequeno 8,455 de;visto 1358 com;direito 17,542 em;largo 7,951 de;alto 1355 com;alto 16,838 com;visto 7,763 com;grande 948 em;especial 16,313 de;maneiro 7,640 de;pequeno 878 de;imóvel 15,233 a;médio 7,292 de;longo 786 em;particular 14,931 por;completo 6,854 em;grande 773 de;longo 14,365 com;diverso 6,743 de;baixo 769 em;diverso 14,329 por;incrível 6,645 em;alto 710 de;curto 14,241 de;chiapas 6,404 em;pleno 600 em;comum 13,427 entre;jovem 6,296 em;especial 559 com;bom 12,352 para;deficiente 6,114 de;imóvel 556 como;certo 12,107 em;chiapas 5,920 com;bom 510 a;curto 12,035 com;enorme 5,898 de;curto 506 em;1º 11,984 com;raro 5,654 em;bom 496 de;baixo 11,777 sobre;eventual 5,620 com;alto 469 a;longo 11,720 há;exato 5,434 com;direito 468 sem;grande 11,582 segundo;estimativo 5,273 em;segundo 462 em;alto 11,205 para;eventual 5,252 de;1º 453 de;novo 10,922 como;alternativo 5,209 de;fundo 447 de;júnior 10,427 como;integrante 5,195 de;jovem 427 como;responsável 10,112 por;puro 5,187 em;comum 395 de;1º 10,074 sob;forte 5,139 em;novo 393 por;diverso 9,985 como;prioritário 4,851

Tabela 5.6 - Teste-T: Padrão gramatical PREP+ADJ

A identificação do padrão PREP+ADJ no Teste-T foi tão satisfatória quanto nos testes

anteriores, não obstante a freqüência bem inferior de ocorrências deste padrão em relação

Page 97: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

96

aos padrões PREP+N e PREP+ADJ. Isto por si só já constitui também um resultado

interessante, o de prevalência de padrões gramaticais envolvendo multivocábulos

preposicionados.

Talvez justamente por esta baixa freqüência de ocorrência, os bigramas identificados

com maior score no primeiro cálculo não demonstraram uma propensão tão grande quanto a

dos resultados anteriores de fazer parte de trigramas. “a curto”, por exemplo, primeiro

colocado no ranking do segundo cálculo, é o décimo quinto colocado no ranking do

segundo cálculo, e os bigramas que o seguem não tem scores muito inferiores aos mais bem

ranqueados no primeiro cálculo.

Janela do segundo cálculo Janela do terceiro cálculo

Trigrama Score Trigrama Score ponto;de;visto 35,253 de;longo;prazo 20,824 partir;de;1º 13,214 de;curto;prazo 19,995 prêmio;de;bom 12,793 com;direito;a 16,092 número;de;morto 12,398 de;visto;de 15,873 oscar;de;bom 12,241 a;longo;prazo 15,839 pano;de;fundo 12,083 de;1º;de 15,742 dar;como;certo 10,660 em;1º;de 15,462 fechar;com;alto 10,333 de;baixo;renda 15,452 estar;em;bom 10,266 com;alto;de 15,360 ter;em;comum 9,999 em;grande;partir 14,502 criação;de;novo 9,909 de;grande;porte 13,888 estar;em;alto 9,320 em;terceiro;lugar 13,705 fechar;em;alto 9,254 de;livre;comércio 13,599 fechar;em;baixo 8,878 a;curto;prazo 13,450 estar;em;pleno 8,640 de;bom;qualidade 12,669 $,;em;especial 8,612 de;último;hora 12,483 ficar;em;segundo 8,309 de;bom;filme 12,027 aprovar;em;primeiro 8,176 em;bom;parte 10,930 tudo;de;novo 8,164 a;médio;prazo 10,813 ter;como;principal 8,155 de;longo;distância 10,721 tendência;de;alto 8,108 em;alto;velocidade 10,532 ficar;em;terceiro 8,024 em;primeiro;turno 10,438 pedido;de;habeas 7,809 em;igual;período 10,437 linha;de;fundo 7,799 em;primeiro;instância 10,391 perder;de;visto 7,680 como;responsável;por 10,335

Tabela 5.7 - Teste-T: Padrão gramatical *+PREP+ADJ e PREP+ADJ+*

A Tabela 5.7, que apresenta o resultado da identificação de trigramas com o padrão

*+PREP+ADJ também apresentou bons resultados, com o multivocábulo “ponto de vista”

Page 98: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

97

ocupando o topo da lista. Aqui podemos notar algumas expressões que provavelmente

fazem parte de expressões maiores, como “premio de bom”, “oscar de bom”, “estar em

alto” e “fechar com alto”, que indica que não há uma prevalência importante de trigramas

adverbiais. Para o padrão PREP+ADJ+* os resultados foram melhores, com grande

presença de locuções que compõem trigramas, como “de longo prazo”, “de curto prazo”, “a

longo prazo” e “de baixa renda”. Aqui a presença de expressões que provavelmente fazem

parte de multivocábulos mais extensos é menor, indicando que há uma grande quantidade

de trigramas preposicionados com o padrão PREP+ADJ no início, o que é também mais um

resultado interessante.

5.1.4 Teste-T - Padrão PREP+* Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score de;o 1043510 de;o 770,932 como;forma 18,475 em;o 513138 em;o 569,034 para;facilitar 16,883 a;o 230118 a;o 379,054 para;ganhar 15,455 por;o 134791 por;o 278,233 durante;seu 15,184 com;o 91616 com;o 214,263 segundo;informação 15,179 para;o 88445 para;o 184,166 em;suma 14,607 de;um 50170 sobre;o 138,491 desde;abril 14,178 em;um 31414 em;um 114,282 para;completar 14,159 sobre;o 28753 contra;o 108,508 para;realizar 14,104 de;seu 23674 em;este 106,261 em;1985 14,010 entre;o 19471 de;um 103,128 em;91 13,940 de;- 17792 entre;o 102,623 como;parte 13,910 de;que 17708 a;partir 101,780 em;Minas=Gerais 13,841 contra;o 17617 segundo;o 96,885 em;89 13,748 de;esse 16942 de;São=Paulo 96,192 para;fugir 13,525 segundo;o 16401 de;seu 92,337 para;promover 13,452 em;que 14637 de;esse 89,221 via;Internet 13,331 em;este 13368 por;exemplo 88,841 em;detrimento 13,318 de;São=Paulo 12993 com;um 87,976 há;sete 13,244 com;um 12773 em;esse 86,399 em;mina 13,093 como;o 12743 em;São=Paulo 79,903 até;junho 13,018 em;esse 11436 apesar;de 78,976 para;viabilizar 12,995 em;seu 11205 de;este 78,086 para;aquele 12,973 por;um 10736 de;acordar 77,450 por;motivo 12,915 a;partir 10722 em;relação 75,071 para;uso 12,861

Tabela 5.8 – Teste-T: Padrão gramatical PREP+*

Page 99: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

98

A Tabela 5.8 apresenta os resultados para o padrão PREP+*, ou seja, preposições

seguidas de qualquer classe gramatical. Tanto em ocorrências simples quanto no primeiro

cálculo, a prevalência foi de contrações como “de+o” e “em+o”, o que é também uma

quantificação interessante deste tipo de morfema. Interessante também é que, apesar dos

scores altos das contrações, elas não aparecem na janela do segundo cálculo, o que

demonstra sua propensão natural a fazer parte de expressões maiores. É notável aqui que a

expressão que está no topo da lista do segundo cálculo, “como forma”, nem sequer consta

dos primeiros 25 identificados no primeiro cálculo.

Janela do segundo cálculo Janela do terceiro cálculo

Trigrama Score Trigrama Score presidente;de;o 124,620 em;o;último 103,957 %;de;o 105,109 em;o;Brasil 101,310 parte;de;o 95,814 a;partir;de 96,182 estar;em;o 79,522 de;o;governo 96,099 chegar;a;o 79,271 de;o;país 90,307 final;de;o 77,592 de;acordar;com 81,658 uma;de;o 75,644 em;o;dia 79,459 início;de;o 68,574 em;relação;a, 79,164 além;de;o 68,435 por;o;pouco 78,297 antes;de;o 67,074 em;o;próximo 77,012 acordar;com;o 66,212 em;o;ano 76,897 responsável;por;o 64,689 de;o;ano 76,627 depois;de;o 64,250 de;o;Reportagem=Local 75,491 partir;de;o 64,119 de;o;EUA 74,700 entrar;em;o 62,971 em;o;primeiro 74,681 participar;de;o 62,343 em;o;país 73,388 %;em;o 62,292 por;exemplo;- 70,979 fim;de;o 60,663 de;o;empresa 70,092 diretor;de;o 59,393 em;o;mercado 69,942 causa;de;o 58,941 em;o;entanto 67,005 ministro;de;o 58,830 de;São=Paulo;- 66,891 ir;a;o 58,661 de;o;mundo 66,730 apesar;de;o 58,348 em;o;final 66,359 líder;de;o 58,092 de;este;ano 65,856 dentro;de;o 57,608 de;o;cidade 65,634

Tabela 5.9 - Teste-T: Padrão gramatical *+PREP+*

Na identificação de trigramas apresentada na Tabela 5.9, a prevalência é de expressões

com contrações, o que de certa forma mina os objetivos buscados nesta forma de

identificação. Uma maneira interessante de mitigar este problema seria o desenvolvimento

de uma ferramenta de contração, que realizasse uma função oposta à da atomização,

Page 100: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

99

substituindo as partes da contração pela expressão já contraída, mas para os objetivos deste

trabalho escolhemos apresentar os resultados desta maneira para melhor retratar as

características da língua.

5.2 Resultados Teste-T – Corpus WEB

5.2.1 Padrão gramatical PREP+N Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score de;trabalho 7492 de;trabalho 70,042 como;forma 18,263 de;forma 5039 de;forma 53,460 em;agosto 16,007 de;vida 3326 de;janeiro 50,945 sem;problema 12,880 de;serviço 3156 de;fevereiro 44,036 com;capacidade 12,854 de;janeiro 3139 de;segurança 43,530 in;justiça 12,712 de;pessoa 3133 de;dezembro 42,483 em;escala 12,192 de;informação 2822 de;dólar 40,871 há;dia 12,158 de;segurança 2558 de;outubro 40,869 of;any 11,730 de;produção 2531 de;abril 40,606 segundo;dado 11,658 de;fevereiro 2480 de;serviço 40,572 como;fonte 11,383 de;dezembro 2213 de;novembro 40,516 com;cuidado 11,248 de;dado 2178 de;produção 40,421 de;plantão 10,940 de;dólar 2152 de;março 40,257 in;letra 10,616 de;comunicação 2039 de;comunicação 39,052 em;angola 10,549 de;novembro 2023 de;juro 38,818 a;convite 10,311 de;outubro 2012 de;setembro 38,625 por;via 10,188 de;abril 1972 de;maio 38,498 como;líder 10,019 de;desenvolvimento 1951 de;julho 37,285 of;its 9,521 de;juro 1951 de;saúde 36,449 de;segunda 9,500 de;março 1934 de;dado 35,848 com;urgência 9,204 de;setembro 1907 de;informação 35,745 com;qualidade 9,051 de;saúde 1901 com;base 35,500 como;alternativa 8,951 de;maio 1777 de;agosto 35,482 de;couro 8,897 de;recurso 1750 de;junho 35,104 com;foto 8,891 de;maneira 1729 com;certeza 34,438 com;ênfase 8,851

Tabela 5.10 – Teste-T: Padrão gramatical PREP+N

A tabela acima apresenta os resultados do Teste-T no corpus Internet, no que é

provavelmente uma fatia mais livre e representativa da língua portuguesa, visto que não foi

submetida ao processo de copydesk. Desta forma, visto que a eficácia do Teste-T já foi

estabelecida, é interessante comparar os resultados da Tabela 5.10 com aqueles da Tabela

5.2.

Page 101: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

100

Em ambos os corpora, o multivocábulo mais comum no segundo cálculo foi “como

forma”, com scores bem semelhantes, o que dá idéia de sua participação na língua. A partir

daí as listas diferem quase totalmente, pelo menos para os primeiros vinte e cinco

resultados, indicando que o viés do corpus jornalístico realmente afeta o tipo de

multivocábulos presentes. É notável também aqui a participação de expressões da língua

inglesa, como “of any” e “of its”, o que indica ou uma contaminação razoável de trechos em

inglês neste corpus, ou uma assimilação de expressões da língua inglesa nos textos

lusófonos da internet.

5.2.2 Padrão gramatical PREP+ADV Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score para;não 1946 até;hoje 33,266 como;sempre 13,678 de;aí 1919 até;agora 33,207 há;quase 10,983 de;hoje 1590 de;aí 32,874 até;aí 10,468 a;não 1457 por;aí 27,516 sem;nunca 9,407 de;não 1353 para;trás 21,550 há;pouco 8,220 de;aqui 1313 para;baixo 20,577 desde;cedo 8,147 de;onde 1147 por;lá 19,602 como;algo 7,640 até;hoje 1125 até;aqui 18,048 desde;ontem 7,294 até;agora 1124 para;cá 16,800 sem;sequer 7,277 por;não 1097 de;hoje 16,799 durante;quase 7,208 de;como 1060 até;onde 16,071 até;ali 6,651 por;aí 869 sobre;como 16,041 pra;onde 6,416 de;lá 645 até;lá 15,777 sem;jamais 5,809 de;mais 575 como;também 15,483 até;amanhã 5,538 por;mais 560 por;dentro 14,585 por;quase 5,147 sobre;como 541 pra;lá 13,717 há;muito 5,142 por;lá 521 como;sempre 13,678 há;apenas 4,879 para;baixo 517 para;lá 12,794 com;aproximadamente 4,853 para;trás 486 de;ontem 12,246 a;aproximadamente 4,798 de;ontem 475 por;perto 12,150 por;meio 4,682 de;sempre 419 para;melhor 11,661 há;já 4,608 como;também 387 pra;cá 11,627 como;antigamente 4,567 de;quase 370 para;dentro 11,502 a;very 4,352 de;ali 358 desde;sempre 11,175 há;aproximadamente 4,301 até;aqui 348 há;quase 10,983 de;outrora 4,215

Tabela 5.11 - Teste-T: Padrão gramatical PREP+ADV

Como já vinha acontecendo com os resultados do Teste-T, a lista apresentada acima

contém bons exemplares de multivocábulos, com uma alta taxa de acerto. O primeiro

cálculo apresentou 100% de identificação de locuções e/ou contrações como “de+aí”. O

Page 102: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

101

segundo cálculo também apresentou excelentes resultados, com a exceção de “haja já”, e “a

very”, e outras como “com aproximadamente” e “a aproximadamente”, que dificilmente

seriam classificadas como locuções do mesmo porte que “desde ontem” ou “como sempre”.

Janela do segundo cálculo Janela do Terceiro cálculo

Trigrama Score Trigrama Score dia;de;hoje 18,277 a;não;ser 24,920 e;de;aí 14,515 de;aqui;a 17,565 cuidado;para;não 11,256 por;não;ter 16,630 sair;de;lá 10,611 de;hoje;- 16,365 parte;de;baixo 10,079 de;aí;que 15,259 sair;de;aqui 9,337 de;onde;vir 14,788 exemplo;de;como 9,144 de;não;ter 14,421 fato;de;não 9,073 por;aí;- 12,886 que;até;hoje 8,935 para;trás;- 12,577 olhar;para;trás 8,649 até;hoje;- 12,118 idéia;de;como 8,573 até;agora;- 12,029 saber;de;onde 8,519 de;mais;um 11,018 ir;para;lá 8,287 de;sempre;- 10,924 facto;de;não 8,106 de;aí;o 10,918 ir;até;lá 7,996 de;aqui;para 10,758 ficar;para;trás 7,944 de;mais;uma 10,736 andar;por;aí 7,727 como;sempre;- 10,566 pensar;em;como 7,673 para;cá;- 9,968 sair;de;ali 7,468 por;lá;- 9,893 cabeça;para;baixo 7,408 para;baixo;- 9,555 direito;de;não 7,240 de;ontem;- 9,390 acabar;por;não 7,162 para;não;dizer 9,320 lá;para;cá 6,986 até;hoje;não 9,220 mundo;de;hoje 6,937 para;não;falar 9,035 ser;de;apenas 6,928 de;como;o 9,031

Tabela 5.12 - Teste-T: Padrão gramatical *+PREP+ADV e PREP+ADV+*

Os resultados aqui também são interessantes, com destaque para “dia de hoje” e “parte

de baixo” que são indiscutivelmente multivocábulos, e “olhar para trás” e “cabeça para

baixo”, que estão na fronteira das expressões idiomáticas, tornando-os ainda mais

interessantes do ponto de vista semântico.

5.2.3 Padrão gramatical PREP+ADJ Ocorrência simples Primeiro cálculo Segundo cálculo

Bigrama Ocorrências Bigrama Score Bigrama Score de;grande 2489 com;grande 26,438 sem;grande 11,482 de;novo 1521 em;pleno 23,643 por;puro 9,063

Page 103: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

102

de;bom 1304 em;especial 22,502 por;mero 8,659 de;alto 1229 de;longo 18,899 sem;prévio 8,236 com;grande 1217 em;diverso 17,680 em;simultâneo 8,019 de;pequeno 883 de;alto 15,248 a;médio 7,444 em;especial 749 em;comum 14,744 para;celular 6,906 de;longo 744 a;curto 13,774 como;verdadeiro 6,634 em;pleno 647 de;baixo 12,255 com;certo 6,316 em;grande 643 por;diverso 11,639 de;múltiplo 6,047 de;baixo 623 sem;grande 11,482 sem;igual 6,027 em;diverso 520 em;certo 11,311 com;tamanho 5,922 de;diverso 499 de;imóvel 11,182 em;uníssono 5,898 em;certo 471 em;1,ª 9,872 como;simples 5,873 em;alto 446 de;21, 9,523 com;extremo 5,820 em;comum 431 por;incrível 9,395 com;enorme 5,749 de;jovem 421 como;principal 9,261 como;alternativo 5,630 em;bom 392 de;curto 9,221 como;responsável 5,622 de;certo 369 por;puro 9,063 com;imenso 5,374 com;bom 360 com;cinza 8,873 com;inúmero 5,327 de;curto 268 de;extremo 8,865 com;absoluto 5,235 para;novo 266 por;casoual 8,838 com;amplo 5,199 para;grande 262 de;diverso 8,787 durante;longo 5,198 de;imóvel 252 por;mero 8,659 de;inúmero 4,998 a;curto 237 em;alto 8,427 com;elevado 4,773

Tabela 5.13 - Teste-T: Padrão gramatical PREP+ADJ

A Tabela 5.13 quase não tem multivocábulos, visto que o padrão PREP+ADJ se

adéqua melhor a trigramas do que a bigramas. O resultado disso é mostrado abaixo.

Janela do segundo cálculo Janela do Terceiro cálculo

Trigrama Score Trigrama Score 661;de;21, 10,817 de;longo;prazo 19,767 julgamento;em;1,ª 10,197 de;curto;prazo 13,635 ter;em;comum 9,514 a;curto;prazo 13,413 azul;com;cinza 9,273 de;baixo;renda 12,120 criação;de;novo 8,922 de;alto;nível 11,762 044;de;31, 8,602 de;grande;porte 11,743 estar;em;pleno 8,382 de;bom;qualidade 11,553 desenvolvimento;de;novo 8,372 em;terceiro;lugar 11,440 estar;em;bom 8,313 com;direito;a 11,112 tudo;de;bom 8,286 de;alto;qualidade 11,068 $,;em;especial 8,060 de;grande;importância 10,884 ser;de;grande 7,834 em;grande;medida 10,804 ter;como;principal 7,667 de;21,;06, 10,770 grupo;de;jovem 7,658 em;1,ª;instância 10,198 construção;de;novo 7,654 por;incrível;que 9,660 e;em;especial 7,504 em;bom;condição 9,369 publicar;por;casoual 7,345 por;casoual;em 8,747

Page 104: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

103

julgamento;em;1ª 7,211 de;igual;modo 8,713 publicar;em;semântico 6,705 de;longo;distância 8,656 busca;de;novo 6,304 de;longo;data 8,646 e;com;grande 6,289 de;31,;12, 8,602 Lei=8,630;de;25,2,1993, 6,245 de;alto;risco 8,518 Lei=4,589;de;11,12,1964, 6,164 a;médio;prazo 8,483 ter;como;objetivo 6,128 de;pequeno;porte 8,424 quadro;por;segundo 6,080 em;especial;em 8,407

Tabela 5.14 - Teste-T: Padrão gramatical *+PREP+ADJ e PREP+ADJ+*

Mais uma vez a quantidade de multivocábulos corretamente identificados tanto no

segundo cálculo,quanto no terceiro, é grande. Na Janela do terceiro cálculo podemos citar

“de;21.;06” e “de;31.;12,” como as únicas identificações incorretas, um resultado melhor do

que o da janela do segundo cálculo, o que indica uma prevalência de trigramas com padrão

PREP+ADJ+* sobre os com padrão *+PREP+ADJ.

5.2.4 Padrão gramatical PREP+*

Ocorrência simples Primeiro cálculo Segundo cálculo Bigrama Ocorrências Bigrama Score Bigrama Score de;o 816682 de;o 704,718 para;facilitar 18,586 em;o 387302 em;o 510,808 como;forma 18,263 a;o 198932 a;o 360,086 em;agosto 16,007 por;o 99342 por;o 246,248 há;dois 15,538 com;o 82905 com;o 215,024 para;desenvolver 15,200 para;o 79310 para;o 182,687 sem;muito 15,041 de;um 51865 em;um 138,398 ante;o 14,592 em;um 36181 sobre;o 136,896 durante;este 14,186 de;- 30250 em;este 115,835 em;ambos 13,787 sobre;o 27204 de;um 115,613 como;sempre 13,678 de;este 20484 de;este 101,069 para;verificar 13,459 em;este 17760 de;esse 97,322 sem;precisar 13,224 de;esse 17749 entre;o 95,604 para;cumprir 12,912 de;que 16981 com;um 94,942 sem;problema 12,880 de;seu 16770 em;esse 85,604 com;capacidade 12,854 em;que 16759 contra;o 83,242 em;Roma 12,832 em;- 15900 como;um 79,525 in;justiça 12,712 entre;o 15453 por;isso 74,194 in;CPLP 12,551 com;um 14357 por;um 72,976 em;1991 12,542 a;- 12712 durante;o 70,604 durante;esse 12,280 a;um 11768 de;trabalho 70,042 em;escala 12,192 como;o 10873 em;seu 61,680 há;dia 12,158 em;esse 10702 com;seu 60,635 em;1993 12,005 para;que 10635 a;um 58,310 segundo;dado 11,870 por;um 10598 of;the 54,474 of;any 11,730

Tabela 5.15 - Teste-T: Padrão gramatical PREP+*

Page 105: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

104

Ao não buscar um padrão, a qualidade dos resultados cai, demonstrando a importância

de fixar padrões gramaticais na busca de multivocábulos.

Janela do segundo cálculo Janela do Terceiro cálculo

Trigrama Score Trigrama Score parte;de;o 83,723 de;o;seu 96,724 através;de;o 71,877 em;o;seu 79,403 estar;em;o 68,044 em;o;Brasil 74,870 uma;de;o 68,015 de;o;mundo 73,099 %;de;o 63,214 de;o;país 67,447 maioria;de;o 61,275 a;o;seu 66,771 presidente;de;o 59,073 de;o;estado 65,895 chegar;a;o 58,883 de;o;governo 65,468 entrar;em;o 57,898 em;o;dia 61,306 final;de;o 53,720 em;o;último 60,202 membro;de;o 53,307 de;o;nosso 55,176 antes;de;o 53,142 em;o;site 54,451 depois;de;o 52,102 de;o;mesmo 54,070 fazer;com;que 51,013 em;o;verdade 54,039 início;de;o 50,611 de;o;cidade 53,286 voltar;a;o 48,437 em;o;mundo 52,308 fim;de;o 48,088 de;que;o 51,568 responsável;por;o 47,574 em;o;meu 51,548 sair;de;o 46,427 de;o;vida 51,133 ir;a;o 45,966 de;o;empresa 50,811 2007;a;o 45,288 em;o;final 50,636 aumento;de;o 44,848 em;o;mesmo 50,258 acesso;a;o 44,661 em;o;país 50,180 nome;de;o 44,305 de;o;meu 50,107 história;de;o 43,577 de;o;homem 48,743

Tabela 5.16 - Teste-T: Padrão gramatical *+PREP+*

Tanto na Tabela 5.15, quanto na Tabela 5.16 os resultados foram inconsistentes, o que

é natural visto que não havia um padrão específico a identificar, o que proporciona o

surgimento de ruído provindo de outras classes gramaticais como pronomes. Como

resultado, todos os trigramas do terceiro cálculo possuem contrações que poluíram os

resultados, diminuindo muito a validade deste tipo de metodologia sem um mecanismo de

eliminação de contrações.

Page 106: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

105

6 Considerações Finais

Este trabalho é um marco inicial num projeto maior de análise de multivocábulos da

língua portuguesa. Seus resultados são satisfatórios, no sentido que a massa crítica de

corpora e ferramentas de nossa língua foi acrescida, o que beneficia a todos da comunidade

lingüística.

A criação do corpus através da ferramenta WebBootCat demonstra a viabilidade desta

ferramenta para esta tarefa, para a qual não havia sido especificamente projetada, visto que

é uma ferramenta para a língua inglesa. Além disso, a integração deste corpus com o

anotador PALAVRAS propicia um aumento da sinergia entre os projetistas do WordSketch

e o grupo da Universidade do Sul da Dinamarca, que era um objetivo terciário deste

trabalho, melhorando assim a utilização do WordSketch para funções relativas à nossa

língua.

A elaboração de um método completo, que permite a um lingüista sem formação

computacional transformar um corpus anotado em listas de bigramas e trigramas de

colocações ranqueadas permitirá o enriquecimento de léxicos e dicionários destas

expressões, visto que sua identificação não mais terá que ser realizada manualmente. Além

disso, as listas já existentes poderão ser avaliadas em relação à evidência de corpus, o que

ajudará no processo de validação e avaliação destas listas.

As listas geradas contribuirão também para o projeto PALAVRAS, realimentando o

anotador e trazendo melhorias no processo de etiquetação e análise de nossa língua. A

comparação direta entre as quatro medidas revelou uma adequação muito maior do Teste-T

que qualquer outro teste, pelo menos para corpora de tamanho médio, na faixa de 30 a 50M

de palavras, corroborando os resultados de KRENN(2000). Apesar disso, a medida

prevalente para corpora maiores é a Mutual Information, o que pode indicar que para

tamanhos diferentes de corpora, medidas diferentes se adéquam melhor, e não

necessariamente que uma medida é superior a outra. Uma análise qualitativa e quantitativa

Page 107: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

106

mais profunda seria necessária para chegar a estas conclusões, e não foi este o objetivo

deste trabalho.

Como disse BALDWIN, esta é uma área muito rica em oportunidade de trabalhos, e há

espaço para todos, ainda mais no contexto da língua portuguesa, onde os pesquisadores de

lingüística tem carência de ferramentas computacionais próprias, que gerem resultados que

possam contribuir para pesquisas de ponta ao nível das que são praticadas pela comunidade

internacional.

6.1 Trabalhos Futuros

Dentre os vários desdobramentos previstos para o trabalho aqui apresentado podemos

citar:

- A análise do valor de corte para as classificações de Mutual Information,

LogLikelihood e Chi-Square, que foram arbitrariamente selecionados aqui, mas que

merecem um estudo à parte;

- A mudança da metodologia de cálculo dos trigramas, deixando de reduzir as

contagens a problemas binários e adicionando cálculos de variância;

- A melhoria do processo de atomização para compensar deficiências do PALAVRAS

com o tratamento de nomes próprios;

- A análise detalhada das listas aqui geradas contra o processo de identificação do

PALAVRAS;

- A comparação estatística detalhada dos corpora Jornalístico e Internet, o que resultará

em informações lexicográficas importantes sobre o português contemporâneo.

- Alteração do código para a admissão de diferentes padrões gramaticais que não

somente aqueles iniciados por preposição.

Page 108: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

107

- O aumento do tamanho do corpus para gerar melhores resultados nos algoritmos

Mutual Information, LogLikelihood e Chi-Square.

Page 109: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

108

7 Referências Bibliográficas

ANDRÉ, HILDEBRANDO. A., Gramática Ilustrada, Editora Moderna, 1978

ANANIADOU,S.; A Methodology for Automatic Term Recognition. International

Conference on Computational Linguistics. Proceeding of the 15th Conference on

Computational Linguistics – v 2. Kyoto, Japão, p. 1034 – 1038, 1994

BALDWIN, TIMOTHY; Compositionality and Multiword Expressions: Six of One,

Half a Dozen of the Other?; Proceedings of the Workshop on Multiword Expressions:

Identifying and Exploiting Underlying Properties, page 1, Sydney, July 2006- Association

for Computational Linguistics.

BIBER,D.; Variation across speech and writing; Cambridge, Cambridge University

Press, 1988.

BICK, ECKHARD, The Parsing System Palavras - Automatic Grammatical

Analysis of Portuguese in a Constraint Grammar Famework , Aarhus: Aarhus

University Press, 2002 - p. 188.

BRILL, E., Transformation-Based Error-Driven Learning and Natural Language

Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics ,

volume 21, n. 4, p. 543-565, 1995

BRILL, E., Some Advances in Transformation-Based Part of Speech Tagging,

National Conference on Artificial Intelligence, p. 722-727, 1994.

BRILL, E., RESNIK, P., A Rule-Based Approach to Prepositional Phrase

Attachment, Proceedings of the fifteenth international conference on computational

linguistics (COLING-1994), 1994.

Page 110: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

109

CARRERAS, X. , MÁRQUEZ, L., Introduction to the CoNLL-2004 Shared Task:

Semantic Role Labeling. Proceedings of the 8th Conference on Computational Natural

Language Learning. Boston, MA, USA. 2004.

CASTILHO, A.T., BASILIO, M. Formação e Uso da Nominalização Deverbal Sufixal

no Português Falado. Gramática do Português Falado Volume IV- Estudos Descritivos.

São Paulo/Campinas: FAPESP/ UNICAMP: 223-33

CHAPMAN, S., ROUTLEDGE, C., Key Thinkers and the Philosophy of Language,

ISBN13: 9780195187687, Oxford University Press, 2005.

CHURCH, K. W., HANKS, P., Word Association Norms, Mutual Information, and

Lexcography, Proceedings of the 27th. Annual Meeting of the Association for

Computational Linguistics, Association for Computational Linguistics, págs 76 - 83,

Vancouver, Canadá, 1989

DIAS, MARIA CARMELITA PÀDUA, Revendo as Locuções Prepositivas, Flores

Verbais, Editora 34, 1995, p. 193

ESKILDSEN, S. W., CADIERNO, T., Are Recurring Multi-Word Expressions Really

Syntatic Freezes? Second Language Acquisition from the Pespective of Usage-Based

Linguistics, Collocations and Idioms 1, Papers from the First Nordic Conference on

Syntatic Freezes, p. 86, Joensuu, Finlândia, 2006.

FIRTH, J. R., The Technique of Semantics, Transactions of the Philological Society,

p. 36-72, 1935.

LINGUATECA, na internet em http://www.linguateca.pt, último acesso em Maio de

2008.

GAMMA, E., HELM, R., JOHNSON, R., VLISSIDES, J., Padrões de Projeto, Ed.

Bookman, p. 112, 2000.

Page 111: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

110

GARRÃO, M. U., DIAS, M. C. P., Um Estudo de Expressões Cristalizadas do Tipo

V+SN e sua Inclusão em um Tradutor Automático Bilíngüe (Português, Inglês),

Dissertação de Mestrado inédita, PUC-Rio, 2001.

GARRÃO, M.U., DIAS, M. C., The Corpus Never Lies: a statistical approach for

the identification of verbal collocations, Collocations and Idioms 1: Papers from the First

Nordic Conference on Syntactic Freezes Joensuu, May 19-20, 2006

KARLSSON, Fred; Constraint grammar as a framework for parsing running text.

In Hans KARLGREN (ed.) COLING -90: Papers Presented to the 13th International

Conference on Computational Linguistics on the Occasion of the 25th Anniversary of

COLING and the 350th Anniversary of Helsinki University, volume 3, pp. 168–173.

Helsinki: Yliopistopaino.

KATZ, G., GIESBRECHT, E., Automatic Identification of Non-Compositional

Multi-Word Expressions using Latent Semantic Analysis, Proceedings of the Workshop

on Multiword Expressions: Identifying and Exploiting Underlying Properties, pags 12-19,

Sydney, July 2006- Association for Computational Linguistics.

KATO, M. Teoria sintática: de uma perspectiva de " -ismos" para uma

perspectiva de "programas". Revista DELTA: Documentação de Estudos em Lingüística

Teórica e Aplicada, vol.13, n.2. São Paulo, Agosto 1997.

KILGARRIFF, ADAM, Collocationality (and how to measure it), Proceedings of the

Euralex 2006. Torino, Italy. – 2006.

KILGARRIFF, A., RYCHLY, P., SMRZ, P., TUGWELL, D., The Sketch Engine,

Prodeedings from the Euralex 2004, França, p. 105-116. – 2004.

KILGARRIFF,A., I Don´t Believe in Word Senses, Computers and the Humanities,

Volume 31, Number 2, 1997 , pp. 91-113(23)

KILGARRIFF, A., GRENFENSTETTE, G., Introduction to the Special Issue on

Web as Corpus, Computational Linguistics n#29, 2003

Page 112: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

111

KRENN, B., Collocation Mining: Exploiting Corpora for Collocat ion

Identification and Representation, KONVENS 2000 / Sprachkommunikation, Vorträge

der gemeinsamen Veranstaltung 5. Konferenz zur Verarbeitung natürlicher Sprache

(KONVENS), 6. ITG-Fachtagung "Sprachkommunikation", pgs 209 - 214 , Alemanha,

2000

KRENN, B., EVERT, S., Can we do Better than Frequency? A Case Study on

extracting PP-Verb collocations, Proceedings of the ACL Workshop on Collocations –

2001 – Tolouse, França

INTERNET WORLD STATS, na internet em http://www.internetworldstats.com,

Último acesso em Abril de 2008.

McKEOWN, K. R., RADEV, D. R., Collocations, em A Handbook of Natural

Language Processing, editores Robert Dale, Hermann Moisl, e Harold Somers, Marcel

Dekker, 1999.

MATEUS, M. H. M.; BRITO, A. M.; DUARTE, I.; E FARIA, I. H.. Gramática da

Língua Portuguesa. Lisboa: Caminho. 1989.

MAMANI, L.; ATRIBUIÇÃO DE PAPÉIS SEMÂNTICOS A ARGUMENTOS DE

NOMINALIZAÇÕES: UM MÉTODO SEMI-AUTOMÁTICO; Dissertação (Mestrado em

Engenharia de Sistema e Computação) – IME – Instituto Militar de Engenharia, 2007.

SAG, I. A., BALDWIN, T., BOND, F, COPESTAKE, A., FLICKINGER, D.

Multiword expressions: A pain in the neck for NLP; em Proc. of the 3rd International

Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002),

1–15, Cidade do México, Mexico. - 2002

SARDINHA, TONY BERBER; Lingüística de Corpus – Págs (16,); Editora Manole,

2004.

Page 113: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

112

SARDINHA, TONY BERBER, A Língua Portuguesa no Computador - Campinas,

SP; ed. Mercado de Letras; São Paulo; FAPESP, 2005. Coleção As Faces da Lingüística

Aplicada.

SARDINHA, TONY BERBER, Beginning Portuguese corpus linguistics: Exploring

a corpus to teach Portuguese as a foreign language. DELTA, 15, 2: 291-302. São

Paulo.1999.

OOI, VINCENT B.Y. ; Computer Corpus Lexicography – Edinburgh University

Press; págs (xxx),1998.

PALAVRAS – na internet em http:// http://visl.sdu.dk/visl/pt/info/portsymbol.html.

Último acesso em Maio de 2008.

PIAO, S. S. L., RAYSON, P., MUDRAYA, O., WILSON, A., GARSIDE, R.,

Measuring MWE Compositionality Using Semantic Annotation, Proceedings of the

Workshop on Multiword Expressions: Identifying and Exploiting Underlying Properties,

pags 2-11, Sydney, July 2006- Association for Computational Linguistics.

PHILOLOGIC – The ARTFL Project XML/SGML Full Text System – online em

http://philologic.uchicago.edu/. Versão em português em

http://moodle.icmc.usp.br/philologic-plnbr1/ . Último acesso em Maio de 2008.

PLACKETT, R.L., Karl Pearson and the Chi-Squared Test, International Statistical

Review, Vol. 51, No. 1 ,pp. 59-72, Abril de 1983

Projeto PLN-BR: Recursos e Ferramentas para a Recuperação de Informação em

Bases Textuais em Português do Brasil. Projeto financiado pelo CNPq no âmbito do

edital CTInfo/MCT/CNPq nº 011/2005, para o biênio 2006-2007. In

http://www.nilc.icmc.usp.br/plnbr/index.htm

SINCLAIR, J.; Corpus, Concordance and Collocation, Oxford, OUP, págs 170,109.

1991.

Page 114: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

113

MANNING, C. D., SCHUTZE, H. Foundations of Statistical Natural Language

Processing, The MIT Press, Cambridge, Massachusetts, Londres – Inglaterra, 1999. pag 29,

PERCY, C. E., MEYER, C. F., LANCASSHIRE I., Synchronic Corpus Linguistics:

papers from the sixteenth International Conference on English Language and

Research on Computerized Corpora, Amsterdã/Atlanta, Rodipi, 1996

UNITEX – Corpus Processor, online em http://www-igm.univ-mlv.fr/~unitex/. Último

acesso em 31 de Maio de 2008.

VENKATAPATHY, S., JOSHI, K. A., Using Information about Multi-Word

Expressions for the Word-Alignment Task, Proceedings of the Workshop on Multiword

Expressions: Identifying and Exploiting Underlying Properties, pags 20-27, Sydney, July

2006- Association for Computational Linguistics.

Page 115: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

114

Anexo 1

8 Resultados completos

Os resultados aqui apresentados representam os vinte e cinco scores mais altos de cada

teste. Para alguns, comentários serão oferecidos, sempre que algo relevante for observado.

8.1 Resultados χ2 – Corpus Jornalístico

8.1.1 Padrão gramatical PREP+N Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score on;line 19171984,1 ad;hoc 4551757,1 per;capa 9571978,6 ponto;e-vírgula 3560492,0 von;Richthofen 6969976,5 devolvido;Bianca=RibeiroMilton 1602220,8 diante;Liechenstein 5340738,2 pós;era-Collor 1525924,6 ad;hoc 4551757,1 pós;Rachel=BotelhoCerca 1525924,6 ad;infinitum 4005547,5 by;Aoyama 1356372,8 ponto;e-vírgula 3560492,0 pera;manco 1201661,5 salvo;conduto 3349200,8 at;Ease 1033689,5 in;natura 3310772,4 via;funchal 1020986,3 von;Trier 3296933,6 ad;valorar 1001382,9 by;Your=Side 2967072,9 ad;referendum 667589,8 de;o 2899416,8 por;exemplo 604241,6 in;vitro 2841633,6 tirante;Tiepolo 593413,8 ad;nausear 2574993,0 at;Home=Network 516844,8 em;o 1822739,8 at;Their 516844,8 at;Work 1615136,5 ad;Vídeo=Tech 500693,3 devolvido;Bianca=RibeiroMilton 1602220,8 in;Paradise 444240,0 in;locar 1591789,8 até;agora 416232,8 pós;era-Collor 1525924,6 trás;Sílvia=Corrêa=Paloma=Cotes 332064,7 pós;Rachel=BotelhoCerca 1525924,6 exceto;S,=Estac 330253,6 pós;Viet-Nam 1525924,6 devolvido;Crispim=AlvesA 320442,6 ad;eternum 1502080,1 versus;CNI=2 302305,0 van;Gaal 1491861,9 versus;CNI=3 302305,0 of;life 1381730,6 versus;Comex 302305,0 by;Aoyama 1356372,8 versus;sequencialmente 302305,0

Tabela 8.1 – χ2 : Padrão gramatical PREP+N

Os resultados do χ2 para corpora de tamanho médio foi inconstante, e bem menos

satisfatório que o do Teste-T. A janela do primeiro cálculo tem alguns resultados

interessantes, como “on line” e “ad hoc”, e outros curiosos como “Von Richthofen”,

Page 116: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

115

sobrenome de origem européia muito presente na mídia a partir de Novembro de 2002 em

virtude dos crimes ocorridos em São Paulo, e de “pós; era-Collor”, um multivocábulo que

dificilmente aparecerá em textos cronologicamente distantes do fim do governo de

Fernando Collor de Mello.

Os resultados da janela do segundo e do terceiro cálculo não são apresentados aqui

porque não apresentaram nenhum resultado útil, sendo compostos apenas por seqüências

raríssimas de expressões que receberam o mesmo score e estavam assim ordenadas

alfabeticamente, sem nenhuma relevância para o estudo em questão.

8.1.2 Padrão gramatical PREP+ADV Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score até;agora 416232,8 até;agora 416232,8 versus;sequencialmente 302305,0 versus;sequencialmente 302305,0 qua;non 174376,8 por;meio 139180,1 por;meio 139180,1 de;que 43393,7 desde;então 92417,5 em;que 17133,3 até;hoje 70841,2 de;também 3199,6 há;cerca 46386,2 conforme;amplamente 2656,9 de;que 43393,7 de;depois 1727,6 pra;cá 43157,2 pra;trás 1171,8 para;cá 41327,7 de;político 1095,0 por;trás 37408,2 de;técnico 952,1 por;acaso 35817,0 de;assim 939,4 pra;lá 26604,8 para;como 903,1 há;quase 24458,2 em;só 896,9 há;muito 17702,9 até;onde 842,6 em;que 17133,3 de;nada 682,5 até;lá 14553,1 em;depois 682,1 até;ontem 13319,8 a;ontem 532,6 até;amanhã 12102,0 em;bem 464,5 por;enquanto 12004,4 de;forte 452,4 até;aqui 11789,1 a;quando 438,5 de;não 11661,8 a;ainda 435,8 para;trás 9443,9 a;hoje 431,6 a;que 7725,6 em;alto 421,6 desde;cedo 7052,3 em;meio 411,3

Tabela 8.2 – χ2 : Padrão gramatical PREP+ADV

Os resultados para o padrão PREP+ADV foram um pouco melhores, com grande

prevalência de identificações corretas. È interessante notar que as expressões identificadas

Page 117: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

116

no topo do score do primeiro cálculo estão também no topo do segundo cálculo, e que estas

são diferentes daquelas identificadas pelo Teste-T (“por meio”, “até agora” e “há pouco” e

“como sempre”).

Aqui também os resultados da janela do segundo e do terceiro cálculo não são

apresentados aqui porque não apresentaram nenhum resultado útil, sendo compostos apenas

por seqüência raríssimas de expressões que receberam o mesmo score e estavam assim

ordenadas alfabeticamente, sem nenhuma relevância para o estudo em questão.

8.1.3 Padrão gramatical PREP+ADJ

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score pera;manco 1201661,5 pera;manco 1201661,5 ad;limino 1001386,7 per;saeculo 70893,8 salvo;raríssimas 107928,7 via;férreo 38955,7 of;intellectual 99515,9 pra;corintivano 23492,0 of;rectangular 99515,9 menos;pusilânime 11587,5 per;saeculo 70893,8 by;bacana 4177,0 in;oculis 60460,2 in;maternal 3021,1 in;retail 60460,2 contra;pompeo 2311,5 via;férreo 38955,7 de;brasileiro 2213,1 of;financial 24877,5 de;pouco 2145,5 pra;corintivano 23492,0 sobre;o'Caso 2114,2 menos;pusilânime 11587,5 van;grátis 2099,6 em;pleno 9837,9 via;marítimo 2069,2 de;visto 9475,0 desde;detalhadíssimo 1962,7 via;aéreo 9435,7 como;justificativo 1743,7 salvo;honroso 8524,2 de;público 1538,6 segundo;estimativo 7803,1 desde;96, 1342,0 at;home 7327,2 de;passado 1252,6 via;terrestre 5900,9 até;5/7, 1237,0 versus;figurativo 5596,3 exceto;monico 1233,0 via;campesino 5113,0 pra;cabeludo 1216,5 on;international 5038,5 de;final 1158,1 por;conseguinte 4630,1 contra;45,054, 1155,8 by;bacana 4177,0 contra;narcocriminoso 1155,8 há;exato 3747,1 de;próximo 1131,4

Tabela 8.3– χ2 : Padrão gramatical PREP+ADJ

Nestes resultados é fácil ver que o χ2 não de adéqua bem às freqüências do padrão

PREP+ADJ. Os resultados para o Corpus Jornalístico são insatisfatórios e não podem ser

Page 118: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

117

comparados com os do Teste-T. As exceções notáveis desta lista são “via férreo(a)” e “via

marítimo(a)”, que são identificações interessantes.

Aqui também os resultados da janela do segundo e do terceiro cálculo não são

apresentados aqui porque não apresentaram nenhum resultado útil, sendo compostos apenas

por seqüência raríssimas de expressões que receberam o mesmo score e estavam assim

ordenadas alfabeticamente, sem nenhuma relevância para o estudo em questão.

8.1.4 Padrão gramatical PREP+* Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score on;line 19171984,1 ad;hoc 4551757,1 per;capa 9571978,6 ponto;e-vírgula 3560492,0 von;Richthofen 6969976,5 devolvido;Bianca=RibeiroMilton 1602220,8 diante;Liechenstein 5340738,2 pós;era-Collor 1525924,6 ad;hoc 4551757,1 pós;Rachel=BotelhoCerca 1525924,6 ad;infinitum 4005547,5 by;Aoyama 1356372,8 ponto;e-vírgula 3560492,0 pera;manco 1201661,5 salvo;conduto 3349200,8 at;Ease 1033689,5 in;natura 3310772,4 via;funchal 1020986,3 von;Trier 3296933,6 ad;valorar 1001382,9 by;Your=Side 2967072,9 ad;referendum 667589,8 de;o 2899416,8 por;exemplo 604241,6 in;vitro 2841633,6 tirante;Tiepolo 593413,8 ad;nausear 2574993,0 at;Home=Network 516844,8 em;o 1822739,8 at;Their 516844,8 at;Work 1615136,5 ad;Vídeo=Tech 500693,3 devolvido;Bianca=RibeiroMilton 1602220,8 in;Paradise 444240,0 in;locar 1591789,8 até;agora 416232,8 pós;era-Collor 1525924,6 trás;Sílvia=Corrêa=Paloma=Cotes 332064,7 pós;Rachel=BotelhoCerca 1525924,6 exceto;S,=Estac 330253,6 pós;Viet-Nam 1525924,6 devolvido;Crispim=AlvesA 320442,6 ad;eternum 1502080,1 versus;CNI=2 302305,0 van;Gaal 1491861,9 versus;CNI=3 302305,0 of;life 1381730,6 versus;Comex 302305,0 by;Aoyama 1356372,8 versus;sequencialmente 302305,0

Tabela 8.4 - χ2 : Padrão gramatical PREP+*

Aqui também os resultados não foram bons, com a presença de ruído gerado tanto pelo

processo de anotação do PALAVRAS, como no caso de “CNI=2” e “CNI=3”, quanto pelas

características da medida do χ2. Notáveis exceções são “ad hoc”, ”por exemplo” e “até

agora”, e as expressões estrangeiras como “in Paradise”. O primeiro cálculo tem resultados

Page 119: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

118

melhores, que foram eliminados no segundo cálculo mas que retêm sua importância como

“salvo conduto”, “in natura”, “in vitro”, e “of life”, que é provavelmente parte do

multivocábulo americano “way of life”.

Mais uma vez os resultados da janela do segundo e do terceiro cálculo não são

apresentados pelos mesmos motivos já apresentados anteriormente.

8.2 Resultados χ2 – Corpus WEB

8.2.1 Padrão gramatical PREP+N Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score trás;o-Monte 2362913,0 ponto;e-vírgula 1390211,9 pró;rata 1798583,3 ad;eternum 940428,4 ponto;e-vírgula 1390211,9 salvo;conduto 731070,4 ad;eternum 940428,4 ponto;multiponto 463402,7 ad;nauseum 940428,4 pera;aew 285486,5 per;cápita 793696,2 on;demand 236868,2 per;page 753521,1 van;Dunen 236850,1 salvo;conduto 731070,4 von;tade 234245,7 van;den 645588,2 per;fás 226770,3 ad;populum 576010,6 per;gunta 226770,3 von;mise 547299,1 pós;graduação 211886,6 per;cent 483769,4 de;o 211541,6 van;dunen 473700,2 qua;dro 183762,3 ponto;multiponto 463402,7 qua;lidade 163342,1 at;least 402430,1 pós;suir 156738,7 ad;nutum 376171,3 qua;tro 137817,3 qua;drado 367526,5 per;capita 129577,4 van;til 331579,3 ad;referendum 115739,5 sem;dúvida 293846,4 per;cambiare 113385,2 pera;aew 285486,5 per;kw, 113385,2 ad;arac 282128,5 per;severança 113385,2 on;demand 236868,2 per;uü 113383,2 van;Dunen 236850,1 versus;esquerdaPelo 111409,8

Tabela 8.5 χ2 : Padrão gramatical PREP+N

Num corpus mais variado e inconsistente, os resultados do χ2 espelharam os problemas

do corpus. Uma notável exceção, que por si só indica a validade do uso deste tipo de

corpora é o multivocábulo do internetês modeno “pera aew”. Para este mesmo corpus, o

Teste –T identificou “como forma” e “sem problema” quase no topo da lista de scores,

Page 120: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

119

expressões estas notadamente ausentes nos mais altos scores do χ2, tendo apresentado

respectivamente scores medianos de 3197 e 1909.

Mais uma vez os resultados da janela do segundo e do terceiro cálculo não são

apresentados pelos mesmos motivos já apresentados anteriormente.

8.2.2 Padrão gramatical PREP+ADV

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score até;hoje 134920,4 em;que 13584,2 até;agora 115842,7 para;que 5406,7 pra;cá 45299,7 ad;subsequentemente 4947,7 de;que 36598,4 exceto;metonímico 4279,1 malgrado;pesadamente 29853,2 com;que 4054,6 para;trás 20849,3 at;noon 3219,3 desde;cedo 14244,8 in;erentemente 3080,6 em;que 13584,2 de;também 2439,0 pra;trás 12469,8 senão;coletivamente 2403,4 de;não 11724,3 de;já 2113,8 por;aí 11452,3 de;primeiro 1449,2 até;lá 10637,9 pró;sim 1445,4 pra;lá 10629,8 a;como 1407,5 até;aqui 10028,8 de;direito 1133,6 há;quase 8799,2 ad;ibidem 1031,5 para;cá 7805,4 desde;en-tão 997,7 a;que 7459,6 de;contra 986,0 até;onde 6016,0 de;público 960,7 por;perto 5453,4 de;pois 910,7 para;que 5406,7 de;político 849,4 ad;subsequentemente 4947,7 em;já 829,3 em;não 4909,5 de;nada 784,2 de;como 4875,7 para;muito 698,7

Tabela 8.6 - χ2 : Padrão gramatical PREP+ADV

8.2.3 Padrão gramatical PREP+ADJ

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score ad;interdicto 282.128,5 per;spectivo 113385,2 per;cienciano 226.770,3 ad;2,527, 94042,8 by;casoual 177.661,9 van;asinar 59211,0 per;spectivo 113.385,2 pró;prio 56094,4

Page 121: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

120

by;affonsocaetano 102.072,4 salvo;raríssimas 45963,8 ad;2,527, 94.042,8 via;semi-erudito 22821,9 salvo;probo 72.495,2 pós;operatório 19590,6 van;asinar 59.211,0 pró;transgênico 16147,0 pró;prio 56.094,4 via;campesino 12164,8 versus;não-branco 49.512,4 on;lineâ 10636,0 salvo;raríssimas 45.963,8 on;reprendro 10636,0 by;rosano 42.176,5 by;larisso 9719,8 by;vinisko 32.806,0 by;dinho 7290,9 in;exceptional 24.741,1 antes;intocado 4821,4 mediante;avocatório 24.240,8 in;boris 4106,2 via;semi-erudito 22.821,9 in;illo 4106,2 by;miltontoshibo 21.872,6 pós;matrimonial 3132,8 pós;operatório 19.590,6 pra;váriso 3085,1 by;ítalo 18.741,1 in;piazzo 3080,6 in;verbis 17.938,3 menos;ingênuo 2313,1 pró;transgênico 16.147,0 senão;pragmático 2212,4 by;estevescarreirinho 14.581,8 contra;fecófilo 2058,0 of;conscious 13.960,4 menos;respeitoso 1848,4 via;campesino 12.164,8 até;6/6, 1742,7 pós;2ª 12.024,3 até;aceitano 1742,7

Tabela 8.7 - χ2 : Padrão gramatical PREP+ADJ

8.2.4 Padrão gramatical PREP+* Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score on;Oct 4342373,7 ponto;e-vírgula 1390212 von;Alles 2635279,8 ad;eternum 940428,4 de;o 2625858,1 salvo;conduto 731070,4 trás;o-Monte 2362913,0 ponto;multiponto 463402,7 ad;hominer 2006242,9 pera;aew 285486,5 pró;rata 1798583,3 on;demand 236868,2 em;o 1645215,4 van;Dunen 236850,1 von;Trier 1417189,0 von;tade 234245,7 of;the 1406212,4 per;fás 226770,3 von;Hagens 1405482,2 per;gunta 226770,3 ponto;e-vírgula 1390211,9 pós;graduação 211886,6 in;Cahora-Bassa 1348819,2 pós;Pico=de=Hubbert 208979,7 by;Guimarães 1028416,8 ad;usucapioner 188085,6 van;Leeuwen 947400,4 qua;dro 183762,3 ad;eternum 940428,4 von;Oettingen 175685,2 ad;nauseum 940428,4 qua;lidade 163342,1 von;Sass 878426,3 pós;ERASTO 156738,7 per;cápita 793696,2 pós;SCRIPTUM=Sugestões 156738,7 a;o 753996,9 pós;suir 156738,7 per;page 753521,1 excepto;Material=Filatélico/Numismático 144681,8 salvo;conduto 731070,4 qua;tro 137817,3 in;accorda 725909,7 per;capita 129577,4

Page 122: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

121

van;Dijk 710550,3 por;isso 118911,3 Tabela 8.8 - χ2 : Padrão gramatical PREP+*

8.3 Resultados Likelihood – Corpus Jornalístico

8.3.1 Padrão gramatical PREP+N

Primeiro Cálculo Segundo cálculo Bigrama Score Bigrama Score de;- 883.542,5 de;- 883542,5 em;- 355.799,2 em;- 355799,2 por;- 108.850,6 por;- 108850,6 com;- 89.165,4 com;- 89165,4 de;ser 80.054,4 de;ser 80054,4 por;exemplo 61.556,4 de;a 59818,0 de;a 59.818,0 em;ser 32417,4 em;ser 32.417,4 por;causa 31985,2 por;causa 31.985,2 em;a 24132,5 em;relação 27.446,8 como;o 14615,6 em;a 24.132,5 de;dizer 12888,4 em;torno 19.108,7 sem;terra 10974,2 a;favor 17.158,8 para;ser 10309,2 como;o 14.615,6 por;ser 9944,8 de;dizer 12.888,4 por;volta 9032,5 sem;terra 10.974,2 on;line 8843,8 para;ser 10.309,2 segundo;o 8475,4 por;ser 9.944,8 de;ir 8401,3 por;volta 9.032,5 com;ser 8137,1 on;line 8.843,8 de;segundo 7673,4 segundo;o 8.475,4 com;base 7491,8 de;ir 8.401,3 em;janeiro 7039,5 de;janeiro 8.281,5 a;respeito 6901,1 com;ser 8.137,1 contra;o 6819,1 per;capa 7.994,9 em;abril 6550,0

Tabela 8.9 – Log Likelihood: Padrão gramatical PREP+N

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score taxa;de;juro 29196,81 com;aumento;não 1,77E-09 assessoria;de;imprensa 16282,73 de;saber;e -3,28E-08 final;de;semana 12776,4 de;combustível;ter -4,86E-08 projeto;de;lei 12738,7 em;abril;deixar -1,20E-07 milhão;de;pessoa 11085,4 de;fato;levar -1,32E-07 fundo;de;pensão 9493,214 em;português;novo -1,63E-07 milhão;de;tonelada 7409,108 de;compensação;com -2,36E-07 cartão;de;crédito 7043,661 de;prefeito;com -2,36E-07 destruição;em;massa 6594,912 de;história;sobre -2,95E-07

Page 123: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

122

caderneta;de;poupança 6321,88 de;ouro;sobre -2,95E-07 lavagem;de;dinheiro 6201,34 de;capa;que -4,66E-07 plano;de;saúde 5885,511 de;orçamento;que -4,66E-07 11;de;setembro 5813,236 com;chance;por -7,83E-07 arma;de;destruição 5733,114 de;assinante;por -7,83E-07 %;em;relação 5595,734 de;competitividade;por -7,83E-07 ano;de;idade 5498,96 de;redação;por -7,83E-07 tráfico;de;droga 5370,501 de;regulamentação;por -7,83E-07 taxa;de;câmbio 5281,33 de;sorte;por -7,83E-07 entrar;em;contato 5222,942 com;transporte;ser -1,66E-06 km;a;noroeste 5172,353 de;aquecimento;ser -1,66E-06 hoje;em;dia 5101,289 de;baile;ser -1,66E-06 formação;de;quadrilha 5060,264 de;bicho;ser -1,66E-06 31;de;dezembro 4833,041 de;capacitação;ser -1,66E-06 gás;de;cozinha 4721,328 de;centro-direita;ser -1,66E-06 entrar;em;vigor 4482,64 de;diagnóstico;ser -1,66E-06

Tabela 8.10 - Log Likelihood: Padrão gramatical *+PREP+N e PREP+N+*

8.3.2 Padrão gramatical PREP+ADV

Primeiro Cálculo Segundo cálculo Bigrama Score Bigrama Score de;que 82669,1 de;que 82669,1 em;que 33294,2 em;que 33294,23 por;meio 23361,2 por;meio 23361,23 até;agora 20288,4 até;agora 20288,41 de;não 18322,2 a;que 15171,38 a;que 15171,4 em;não 10456,79 em;não 10456,8 de;como 10105,51 de;como 10105,5 até;hoje 8466,986 até;hoje 8467,0 de;segundo 7696,079 de;segundo 7696,1 de;mais 7667,163 de;mais 7667,2 de;também 5926,336 de;também 5926,3 de;já 5852,602 de;já 5852,6 de;mesmo 5406,669 de;mesmo 5406,7 em;como 5171,407 em;como 5171,4 desde;então 5085,624 desde;então 5085,6 de;todo 5044,777 de;todo 5044,8 de;muito 4978,118 de;muito 4978,1 por;trás 4443,172 por;trás 4443,2 de;ainda 4142,401 de;ainda 4142,4 há;cerca 3740,201 para;cá 4121,1 de;quando 3736,766 há;cerca 3740,2 por;acaso 3687,118 de;quando 3736,8 de;primeiro 3676,844 por;acaso 3687,1 de;só 3519,724 de;primeiro 3676,8 por;enquanto 3455,725

Tabela 8.11 - Log Likelihood: Padrão gramatical PREP+ADV

Page 124: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

123

Janela do segundo cálculo Janela do Terceiro cálculo

Trigrama Score Trigrama Score tarde;de;ontem 8014,5 para;não;conseguir -5,36E-07 partir;de;hoje 7076,5 de;ontem;apenas -2,63E-05 madrugada;de;ontem 6514,2 por;enquanto;ter -2,70E-05 manhã;de;ontem 5328,8 até;hoje;ver -2,77E-05 noite;de;ontem 4743,5 de;baixo;se -8,46E-05 partir;de;aí 4207,9 de;outrora;em -9,80E-05 noite;de;anteontem 3772,4 de;ali;como -1,23E-04 partir;de;agora 3291,5 por;enquanto;ser -1,29E-04 edição;de;ontem 3132,0 de;ontem;cinco -2,60E-04 apesar;de;não 3109,3 por;enquanto;ficar -3,02E-04 partir;de;amanhã 2760,2 até;ontem;sobre -3,09E-04 vez;em;quando 2740,7 de;hoje;querer -3,95E-04 assim;por;diante 2091,7 até;ontem;dever -4,05E-04 lá;para;cá 1717,8 por;aí;haver -4,39E-04 jogo;de;hoje 1701,9 até;agora;pagar -5,24E-04 manchete;de;ontem 1540,9 até;agora;durante -5,48E-04 partida;de;hoje 1528,0 de;lá;já -5,59E-04 marcar;para;hoje 1515,1 de;ali;não -6,38E-04 %;a;muito 1483,4 até;hoje;com -7,45E-04 acompanhar;de;perto 1097,4 de;ontem;vários -7,48E-04 fato;de;não 1086,2 até;hoje;três -7,49E-04 partida;de;ontem 1076,3 de;sempre;por -0,001170515 estar;por;trás 1026,3 de;hoje;jogar -0,001370127 sair;de;lá 1024,6 para;não;partir -0,001385762 antes;de;muito 1021,2 por;não;eu -0,001600267

Tabela 8.12 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+*

8.3.3 Padrão gramatical PREP+ADJ Primeiro Cálculo Segundo cálculo

Bigrama Score Bigrama Score de;segundo 5959,4 de;segundo 5959,4 de;primeiro 4251,1 de;primeiro 4251,1 de;brasileiro 4226,3 de;brasileiro 4226,3 de;visto 4201,8 de;pouco 4096,2 de;pouco 4096,2 de;público 2913,9 de;público 2913,9 em;pleno 2668,9 em;pleno 2668,9 de;passado 2378,9 de;passado 2378,9 de;final 2222,0 de;final 2222,0 de;próximo 2146,0 de;próximo 2146,0 de;político 2069,1 de;político 2069,1 de;próprio 1881,4 de;próprio 1881,4 de;último 1880,0 de;último 1880,0 de;principal 1809,5 de;principal 1809,5 de;técnico 1738,9 de;técnico 1738,9 em;brasileiro 1638,2

Page 125: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

124

em;brasileiro 1638,2 em;pouco 1586,1 em;pouco 1586,1 de;local 1495,5 de;local 1495,5 de;econômico 1476,1 de;econômico 1476,1 de;internacional 1474,5 de;internacional 1474,5 de;diretor 1464,3 de;diretor 1464,3 de;americano 1349,3 de;americano 1349,3 de;nacional 1298,1 de;nacional 1298,1 de;social 1280,5 de;social 1280,5 de;direito 1216,1 de;direito 1216,1 em;público 1169,9

Tabela 8.13 - Log Likelihood: Padrão gramatical PREP+ADJ

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score ponto;de;visto 18446,1 em;comum;fazer -1,18E-06 pano;de;fundo 2823,2 de;novo;coisa -1,17E-05 partir;de;1º 2103,2 de;tecno;de -1,51E-05 oscar;de;bom 2003,3 de;novo;local -2,61E-05 prêmio;de;bom 1956,4 para;idoso;de -3,03E-05 número;de;morto 1928,2 em;particular;como -4,08E-05 dar;como;certo 1342,8 de;alto;passar -4,55E-05 fechar;com;alto 1270,2 de;negro;um -7,14E-05 pedido;de;habeas 954,4 de;mau;ser -1,50E-04 fechar;em;baixo 938,7 de;alto;estar -2,50E-04 igual;para;igual 911,7 de;morto;por -2,52E-04 fechar;em;alto 901,5 de;eletroeletrônico;ser -2,54E-04 criação;de;novo 896,3 em;alto;todo -3,60E-04 Copa=São=Paulo;de;júnior 851,8 sem;meio;- -3,83E-04 pegar;de;surpreso 848,8 de;baixo;para -3,85E-04 aprovar;em;primeiro 780,4 em;comum;e -4,47E-04 comparação;com;igual 772,3 em;quinto;- -5,01E-04 viés;de;baixo 763,3 de;longo;ano -5,45E-04 estar;em;bom 702,9 de;novo;1 -5,57E-04 tendência;de;alto 699,1 de;grande;ação -7,71E-04 o;de;novo 699,1 para;bom;- -8,01E-04 acordo;de;livre 697,2 de;absurdo;o -8,41E-04 linha;de;fundo 690,0 de;alto;caso -9,54E-04 teste;de;múltiplo 662,2 com;enorme;e -9,80E-04 zona;de;livre 648,1 de;aposentado;que -0,00155 Tabela 8.14 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+*

8.3.4 Padrão gramatical PREP+*

Primeiro Cálculo Segundo cálculo Bigrama Score Bigrama Score de;o 1947889,5 de;de 323123,4

Page 126: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

125

em;o 1116496,0 em;de 131407,9 de;- 728829,6 de;em 129042,3 a;o 475362,2 por;- 96239,95 de;de 323123,4 para;- 94391,84 em;- 309761,1 de;e 80841,44 por;o 230540,9 com;- 67618,04 em;de 131407,9 a;de 59109,76 a;- 131392,7 de;a 54945,53 de;em 129042,3 em;em 52383,06 com;o 120327,1 de;para 41265,83 por;- 96240,0 para;de 40529,12 para;- 94391,8 por;de 40041,5 de;e 80841,4 de;$, 36300,81 a;partir 77999,9 de;por 35604,34 para;o 74826,2 apesar;de 35314,3 sobre;o 68446,7 de;com 32878,97 com;- 67618,0 com;de 32762,46 por;exemplo 61556,4 em;e 32680,69 a;de 59109,8 de;acordar 32476,79 de;a 54945,5 por;causa 31985,23 em;em 52383,1 em;ser 30506,27 em;este 47430,4 por;meio 24190,46 contra;o 42106,5 a;em 23880,21 de;para 41265,8 em;a 23874,39

Tabela 8.15 - Log Likelihood: Padrão gramatical PREP+*

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score o;de;o 155838,7 com;aumento;não 1,77E-09 de;de;o 143967,3 de;Belém;não 1,77E-09 o;em;o 113793,2 de;Luxemburgo;não 1,77E-09 presidente;de;o 81127,5 de;Pitta;não 1,12E-09 de;em;o 66572,3 de;outro;10 -8,16E-11 em;de;o 60230,7 por;um;emenda -1,97E-08 o;a;o 51645,8 em;São=Paulo;também -3,02E-08 parte;de;o 47293,7 de;vídeo;já -5,35E-08 acordar;com;o 41312,3 como;um;custo -5,96E-08 responsável;por;o 38417,0 em;o;elogio -6,20E-08 chegar;a;o 38208,6 em;abril;deixar -1,20E-07 %;de;o 34329,6 de;fato;levar -1,32E-07 que;de;o 34168,2 em;Belo=Horizonte;dever -1,47E-07 de;a;o 30766,6 em;português;novo -1,63E-07 o;por;o 30697,4 de;Pinochet;um -1,81E-07 taxa;de;juro 29196,8 de;seu;norma -1,94E-07 em;em;o 28191,0 de;40;até -2,33E-07 final;de;o 27027,3 a;ler;com -2,36E-07 a;de;o 26320,1 de;compensação;com -2,36E-07 início;de;o 23939,5 de;prefeito;com -2,36E-07

Page 127: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

126

uma;de;o 22478,3 de;ouro;sobre -2,95E-07 fazer;com;que 20593,7 em;1978;em -3,45E-07 entrar;em;o 20350,1 por;isso;incluir -3,66E-07 o;com;o 20285,2 com;o;Av, -4,23E-07 além;de;o 18925,3 de;capa;que -4,66E-07

Tabela 8.16 - Log Likelihood: Padrão gramatical *+PREP+*

8.4 Resultados Likelihood – Corpus WEB

8.4.1 Padrão gramatical PREP+N Primeiro Cálculo Segundo cálculo

Bigrama Score Bigrama Score de;o 390432,0 de;o 390432,0 de;e 80253,5 de;e 80253,5 de;ser 67941,5 de;ser 67941,5 de;um 52927,7 de;um 52927,7 de;a 46094,3 de;a 46094,3 em;e 30396,9 em;e 30396,9 em;ser 26018,9 em;ser 26018,9 em;um 20036,6 em;um 20036,6 em;a 17528,3 em;a 17528,3 a;e 16685,0 a;e 16685,0 de;trabalho 14429,7 a;ser 14241,4 a;ser 14241,4 como;o 12858,5 como;o 12858,5 para;e 12116,2 para;e 12116,2 a;um 11010,3 de;janeiro 11623,0 de;eu 10700,6 a;um 11010,3 sem;dúvida 10589,5 de;eu 10700,6 para;ser 10312,6 sem;dúvida 10589,5 com;e 9069,1 para;ser 10312,6 por;ser 7973,7 com;e 9069,1 com;certeza 7745,0 por;ser 7973,7 com;ser 7709,8 de;dezembro 7768,1 de;ir 7601,8 com;certeza 7745,0 de;março 7572,5 com;ser 7709,8 de;forma 7265,0 de;abril 7648,1 de;novembro 6969,9

Tabela 8.17 - Log Likelihood: Padrão gramatical PREP+N

Janela do segundo cálculo Trigrama Score milhão;de;dólar 21988,8 taxa;de;juro 21789,1 milhão;de;euro 18843,6 fluxo;de;trabalho 12094,4 ano;de;idade 9345,7

Page 128: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

127

meio;de;comunicação 7476,6 força;de;trabalho 6953,9 levar;a;cabo 6243,4 milhão;de;pessoa 5938,6 25;de;abril 5729,8 prestação;de;serviço 5523,7 entrar;em;contato 5340,9 levar;em;consideração 5199,5 final;de;semana 5134,6 azul;com;cinza 5091,9 ambiental;em;área 4951,7 tomada;de;decisão 4806,1 direito;de;autor 4783,9 bilhão;de;dólar 4775,2 ponto;de;partida 4723,8 país;em;desenvolvimento 4645,7 qualidade;de;vida 4575,8 caixa;de;som 4338,9 prestador;de;serviço 4179,5 afinal;de;conta 4113,4

Tabela 8.18 - Log Likelihood: Padrão gramatical *+PREP+N

Apesar dos bons resultados apresentados na Tabela 8.18, a janela do terceiro cálculo

não apresentou resultados minimamente relevantes e por isso não será apresentada aqui.

8.4.2 Padrão gramatical PREP+ADV Primeiro Cálculo Segundo cálculo

Bigrama Score Bigrama Score em;- 327340,2 em;hoje 704,65 a;- 179731,5 a;porque 651,57 de;que 69735,5 a;absolutamente 29,13 em;que 26219,0 até;aquí 12,38 de;não 18885,1 por;entonces 4,83 a;que 14606,8 van;agora 3,24 para;que 10615,6 de;1'incarnation 3,07 até;hoje 8722,3 per;sempre 1,95 em;não 8662,8 por;abertamente 0,78 de;muito 8428,8 para;retro 0,67 até;agora 8371,0 há;atualmente 0,60 com;que 7923,3 em;acerca 0,24 de;como 7372,9 a;perceptível 0,17 de;mais 6249,0 há;talvez 0,07 de;mesmo 5149,9 a;idem 0,02 de;também 4530,3 em;como 3878,2 de;já 3791,6 de;quando 3554,9

Page 129: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

128

de;só 3472,2 por;aí 3171,1 de;porque 3082,4 de;ainda 3013,2 para;trás 2954,3 em;muito 2940,9 Tabela 8.19 - Log Likelihood: Padrão gramatical PREP+ADV

Janela do segundo cálculo Janela do Terceiro cálculo

Trigrama Score Trigrama Score dia;de;hoje 3070,013 pra;cá;em -9,800E-07 cuidado;para;não 1462,391 de;aí;nosso -2,713E-06 sair;de;lá 1225,686 de;aí;então -2,287E-05 parte;de;baixo 1099,031 de;aí;só -3,927E-05 exemplo;de;como 859,076 para;quando;ter -1,361E-04 olhar;para;trás 858,965 até;hoje;como -2,129E-04 sair;de;aqui 775,318 de;baixo;a -2,589E-04 fato;de;não 751,635 até;hoje;para -3,514E-04 pensar;em;como 709,641 como;também;esse -3,565E-04 idéia;de;como 699,093 como;meio;e -3,771E-04 facto;de;não 682,854 até;agora;querer -5,117E-04 e;de;aí 660,448 por;lá;se -5,431E-04 cabeça;para;baixo 648,743 pra;onde;ser -5,966E-04 Recuperação;para;quando 621,177 de;aqui;por -8,931E-04 andar;por;aí 608,394 para;não;existir -9,918E-04 sair;de;ali 593,250 de;hoje;ver -1,235E-03 optar;por;não 560,717 de;hoje;uma -1,261E-03 ir;para;lá 529,562 até;já;e -1,345E-03 ficar;para;trás 517,866 a;mesmo;- -1,476E-03 lá;para;cá 516,502 com;sempre;- -1,476E-03 ir;até;lá 513,040 de;aquí;- -1,476E-03 insistir;em;não 477,043 em;sim;- -1,476E-03 saber;de;onde 474,528 entre;lá;- -1,476E-03 edição;de;hoje 448,092 de;aqui;ter -1,552E-03 teimar;em;não 430,114 até;lá;estar -1,552E-03 Tabela 8.20 - Log Likelihood: Padrão gramatical *+PREP+ADV e PREP+ADV+*

8.4.3 Padrão gramatical PREP+ADJ Primeiro Cálculo Segundo cálculo

Bigrama Score Bigrama Score de;só 3917,7 de;só 3917,744 de;primeiro 2726,0 de;primeiro 2725,975 em;pleno 2429,1 em;pleno 2429,102 de;próprio 2159,9 de;próprio 2159,866 de;direito 1874,4 de;direito 1874,416 de;público 1786,1 de;público 1786,148 com;grande 1630,8 com;grande 1630,785 de;social 1580,0 de;social 1580,02 de;político 1553,2 de;político 1553,202

Page 130: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

129

de;pouco 1448,6 de;pouco 1448,552 de;comentário 1423,1 de;comentário 1423,147 em;especial 1422,8 em;especial 1422,794 de;brasileiro 1269,3 de;brasileiro 1269,29 em;ainda 1266,1 em;ainda 1266,113 de;único 1202,0 de;único 1202,017 de;necessário 1184,9 de;necessário 1184,873 de;segundo 1118,3 de;segundo 1118,315 de;final 1074,1 de;final 1074,117 de;português 993,9 de;português 993,8924 de;nacional 993,7 de;nacional 993,6853 de;amigo 967,4 de;amigo 967,3648 de;seguinte 923,0 de;seguinte 922,9596 de;claro 886,9 de;claro 886,8514 de;principal 883,5 de;principal 883,5168 de;pessoal 851,1 de;pessoal 851,0655 Tabela 8.21 Log Likelihood: Padrão gramatical PREP+ADJ

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score 661;de;21, 3076,7 de;pequeno;entre -2,61E-06 044;de;31, 2039,4 de;casado;ser -2,89E-06 julgamento;em;1,ª 2003,2 de;mero;e -3,89E-05 azul;com;cinza 1683,7 em;comum;que -1,15E-04 Lei=8,630;de;25,2,1993, 1121,4 com;direito;de -1,62E-04 Lei=4,589;de;11,12,1964, 1103,6 de;diferente;e -3,77E-04 julgamento;em;1ª 962,9 de;estranho;que -3,82E-04 608;de;18, 822,4 em;comum;por -4,19E-04 criação;de;novo 804,1 por;segundo;seu -4,80E-04 publicar;por;casoual 782,0 como;culpado;o -5,42E-04 Lei=6,514;de;22,12,1977, 660,1 de;pobre;para -6,21E-04 publicar;em;semântico 634,8 para;jovem;a -6,58E-04 desenvolvimento;de;novo 580,0 de;pequeno;já -7,52E-04 grupo;de;jovem 576,8 em;bom;se -7,87E-04 construção;de;novo 551,1 de;futuro;um -9,46E-04 cultivo;de;transgénico 547,7 em;especial;ter -0,001198988 ter;em;comum 545,4 em;simultâneo;de -0,001216489 tudo;de;bom 515,7 a;dependente;- -0,001476482 brasilbrasileiro;em;terço 503,1 a;técnico;- -0,001476482 quadro;por;segundo 500,1 com;futuro;- -0,001476482 ter;como;principal 469,3 com;idoso;- -0,001476482 estar;em;bom 433,8 com;seguro;- -0,001476482 surgimento;de;novo 417,4 como;absoluto;- -0,001476482 engolir;em;seco 416,2 como;competente;- -0,001476482 oscar;de;bom 411,9 como;idêntico;- -0,001476482 Tabela 8.22 - Log Likelihood: Padrão gramatical *+PREP+ADJ e PREP+ADJ+*

Page 131: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

130

8.4.4 Padrão gramatical PREP+* Primeiro Cálculo Segundo cálculo

Bigrama Score Bigrama Score de;o 1646548,9 de;de 219048,2 em;o 928663,5 em;de 83280,8 de;- 635324,5 de;em 80677,8 a;o 431627,1 de;e 79018,9 de;de 219048,2 a;de 44966,5 em;- 217620,1 de;a 43129,3 por;o 184140,0 de;$, 35975,8 com;o 127795,4 de;para 32959,6 a;- 101868,8 para;de 31230,8 para;- 85596,8 em;em 30947,9 em;de 83280,8 em;e 29976,7 de;em 80677,8 por;de 25173,4 de;e 79018,9 de;por 25079,2 para;o 75134,7 de;com 24475,4 sobre;o 66463,3 com;de 24367,0 com;- 53574,0 em;ser 23357,2 por;- 52965,9 como;um 21865,8 a;de 44966,5 de;não 18870,9 em;este 44162,6 durante;o 17819,0 em;um 44103,9 em;a 17155,1 de;a 43129,3 a;em 17011,4 de;$, 35975,8 a;e 14278,5 de;para 32959,6 em;$, 13790,2 of;the 32280,5 de;ou 13114,8 de;ser 31837,1 em;para 12418,8

Tabela 8.23 - Log Likelihood: Padrão gramatical PREP+*

Janela do segundo cálculo Janela do Terceiro cálculo Trigrama Score Trigrama Score o;de;o 93454,6 sobre;este;entre 1,35E-08 de;de;o 88701,6 de;sobrevivência;ele 2,06E-09 o;em;o 66882,0 contra;o;problema -1,22E-08 de;em;o 39275,7 como;prova;para -1,39E-07 o;a;o 36101,4 de;elite;para -1,39E-07 em;de;o 33223,1 de;lembrar;para -1,39E-07 parte;de;o 32247,1 de;licenciamento;para -1,39E-07 através;de;o 27731,5 como;em;usar -1,86E-07 site;para;enviar 25977,3 para;nós;usar -1,86E-07 que;de;o 25504,8 sobre;o;bolsa -1,95E-07 fazer;com;que 25226,2 de;elas;3 -2,02E-07 milhão;de;dólar 21988,8 a;Genesis=Tree;de -2,04E-07 taxa;de;juro 21789,1 a;passear;de -2,04E-07 de;a;o 21621,6 com;manteiga;de -2,04E-07 maioria;de;o 21070,3 de;almoço;de -2,04E-07 chegar;a;o 19845,1 de;postura;de -2,04E-07

Page 132: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

131

responsável;por;o 19520,2 de;TV=Digital;de -2,04E-07 milhão;de;euro 18843,6 em;exposição;de -2,04E-07 o;por;o 18245,8 para;pergunta;de -2,04E-07 entrar;em;o 18099,0 de;baixo;e -2,42E-07 uma;de;o 17927,5 com;ela;não -2,77E-07 presidente;de;o 17575,7 para;o;tranqüilo -3,33E-07 a;de;o 16940,9 por;o;súbito -3,41E-07 em;em;o 15742,0 por;o;tampa -3,41E-07 o;com;o 14461,0 para;tudo;com -3,64E-07

Tabela 8.24 - Log Likelihood: Padrão gramatical *+PREP+*

8.5 Resultados Mutual Information – Corpus Jornalís tico

8.5.1 Padrão gramatical PREP+N Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score ponto;e-vírgula 21,764 ponto;e-vírgula 21,764 pós;era-Collor 20,541 in;leise 15,884 from;hell 19,648 in;memorian 15,884 by;calling 19,179 in;silico 15,884 by;stimulated 19,179 on;road' 15,657 at;bristol 18,979 von;mise 14,945 at;catania 18,979 versus;alien 14,118 ad;absurdun 18,934 in;public 13,299 ad;aeternum 18,934 mediante;repactuação 12,623 ad;bellum 18,934 após;show-case 11,132 ad;eternum 18,934 ponto;massa 10,692 ad;infinitum 18,934 mediante;reembolso 10,605 ad;nauseum 18,934 trás;trincheira 10,586 ad;uterum 18,934 até;seteira 10,274 ad;hoc 18,796 salvo;esquecimento 10,192 ad;referendum 18,349 sem;frecura 10,085 versus;majoritarista 18,206 sem;gatimanhos 10,085 versus;observacionismo 18,206 sem;gracez 10,085 at;attachment 17,979 sem;histórinha 10,085 salvo;conduto 17,090 sem;precendente 10,085 by;its 17,009 sem;tercina 10,085 von;ferne 16,945 sem;terra, 10,085 von;ihren 16,945 menos;lavanderia 9,950 von;unserm 16,945 segundo;gafor-Mahmoud 9,863 from;penedo 16,648 sem;tardança 9,763

Tabela 8.25 – Mutual Information : Padrão gramatical PREP+*

Os resultados acima dão uma indicação de um dos maiores problemas na medida da

Mutual Informartion: a baixa ocorrência de palavras e combinações. Devido a esse viés, é

Page 133: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

132

notável aqui a identificação de expressões estrangeiras, de ocorrência muito baixa no corpus

mas que acabam gerando scores altos na classificação, como “in public” e “on road”. Muito

poucas expressões foram identificadas nesta seleção, com destaque para “mediante

reembolso”, “sem frescura”, “sem precedente” e “sem terra”, sendo este último talvez o

mais interessante, pois denota a contemporaneidade dos textos utilizados e a facilidade da

criação de novos vocábulos na língua.

8.5.2 Padrão gramatical PREP+ADV Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score versus;sequencialmente 18,206 devolvido;até 6,782 qua;non 14,412 devolvido;ontem 6,287 conforme;fartamente 10,590 devolvido;depois 6,097 pra;cá 10,190 como;consensualmente 6,058 conforme;amplamente 9,794 conforme;oficialmente 5,702 pera;aí 8,606 trás;diante 5,344 pra;lá 8,299 salvo;lá 4,919 senão;simplesmente 7,908 como;seria 3,773 conforme;corretamente 7,788 por;sobejamente 3,373 até;agora 7,482 trás;agora 3,349 senão;através 7,391 como;irremediável 3,175 desde;então 7,229 há;precisamente 3,106 pra;trás 7,214 trás;já 2,794 para;o'politicamente 6,787 trás;ainda 2,294 devolvido;até 6,782 trás;até 1,927 desde;cedo 6,723 versus;como 1,614 por;detrás 6,548 van;até 1,600 há;cerca 6,491 até;pior 1,246 via;on-line 6,399 a;conscientemente 1,223 há;quase 6,378 trás;não 0,720 como;alhures 6,358 de;além-mar 0,401 para;cá 6,303 como;particularmente 0,235 devolvido;ontem 6,287 até;cedo -0,030 a;extamente 6,267 de;pacientemente -0,387 a;parentemente 6,267 até;longe -0,857

Tabela 8.26 - Mutual Information : Padrão gramatical PREP+ADV

Janela do Terceiro cálculo Trigrama Score a;atualmente;APS=Urgent 24,934 versus;como;Marcelo=ChertoMuitos 24,934

Page 134: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

133

com;então;presidente-Marcos=Andrade 23,934 desde;aproximadamente;1169 23,934 em;direito;Carteira=de=estagiário 23,934 exceto;talvez;Touchstone 23,349 há;mais;8,893 22,126 pra;dentro;Janio=De=FreitasBanqueiros 21,934 a;então;Alcantara=Machado/Periscinoto 21,233 como;dificilmente;negociável 21,233 como;antigamente;Arnaldo=JaborDESTA=Vez 21,126 como;lá;sustenido 21,027 de;somente;1,3425 21,027 em;somente;R$=856=milhões 20,474 para;aproxidamente;US$=80=bilhões 20,474 até;meio;aloprado 20,349 de;altamente;burocratizar 20,349 por;agora;dona=Nooge 20,349 como;ingênuo;caridoso 20,290 de;parcialmente;nublar 20,290 em;alerta;Jornais 20,233 a;amanhã;José=Basílio=dos=Santos 20,126 pra;quando;sapata 20,126 como;até;inhame 20,027 em;nada;lisonjeiro 20,027

Tabela 8.27 - Mutual Information : Padrão gramatical PREP+ADV+*

8.5.3 Padrão gramatical PREP+ADJ Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score ad;limino 18,934 pera;manco 18,612 pera;manco 18,612 per;saeculo 16,113 of;intellectual 16,603 via;férreo 12,250 of;rectangular 16,603 by;bacana 12,029 per;saeculo 16,113 in;maternal 11,562 in;oculis 15,884 antes;famigerado 10,129 in;retail 15,884 antes;inconcebível 9,892 salvo;raríssimas 15,135 antes;inofensivo 9,633 of;financial 14,603 salvo;drástico 9,613 pra;corintivano 14,520 van;grátis 9,455 menos;pusilânime 13,501 pra;cabeludo 9,253 versus;figurativo 12,451 contra;2,5, 9,176 via;campesino 12,320 como;o'queixo 9,058 via;férreo 12,250 como;pré-antropofágico 9,058 salvo;honroso 12,058 como;winnebago 9,058 by;bacana 12,029 via;sacro 9,057 at;home 11,840 pós;eleitoral 9,029 in;maternal 11,562 via;marítimo 9,020 há;cinso 11,363 conforme;comprovante 8,223 on;international 11,300 como;inaugurador 8,058

Page 135: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

134

desde;detalhadíssimo 10,939 como;mobilizável 8,058 of;ornamental 10,770 durante;mucho 8,006 até;5/7, 10,274 antes;inovador 7,838 exceto;monico 10,270 com;1,379, 7,118 contra;1,3740, 10,176 com;10,9, 7,118

Tabela 8.28 - Mutual Information : Padrão gramatical PREP+ADJ

8.5.4 Padrão gramatical PREP+* Primeiro cálculo Segundo cálculo

Bigrama Score Bigrama Score diante;Liechenstein 22,349 ponto;e-vírgula 21,764 ponto;e-vírgula 21,764 devolvido;Bianca=RibeiroMilton 20,612 devolvido;Bianca=RibeiroMilton 20,612 pós;Rachel=BotelhoCerca 20,541 pós;era-Collor 20,541 at;Ease 18,979 pós;Rachel=BotelhoCerca 20,541 at;Home=Network 18,979 pós;Viet-Nam 20,541 at;Their 18,979 from;hell 19,648 ad;Vídeo=Tech 18,934 from;LANtropolis 19,648 pera;manco 18,612 from;Mother=Nature 19,648 devolvido;Crispim=AlvesA 18,290 from;Wealth 19,648 devolvido;desacordar 17,442 by;Bern 19,179 trás;Inácio=Araujo=O=Baile 17,341 by;calling 19,179 trás;Sílvia=Corrêa=Paloma=Cotes 17,341 by;Saulo=Fonseca 19,179 devolvido;R$=665=mil 17,027 by;stimulated 19,179 menos;4,945 16,308 by;Your=Side 19,179 per;Carleson 16,113 tirante;Tiepolo 19,179 per;saeculo 16,113 at;bristol 18,979 from;Hell 16,063 at;catania 18,979 exceto;Julie=Burchill 15,971 at;Ease 18,979 pós;Daniela=FalcãoO 15,897 at;Home=Network 18,979 in;Between 15,884 at;Large 18,979 in;Between=Days 15,884 at;Their 18,979 in;Circle 15,884 ad;absurdun 18,934 in;leise 15,884 ad;aeternum 18,934 in;memorian 15,884 ad;bellum 18,934 in;Memorium 15,884

Tabela 8.29 - Mutual Information : Padrão gramatical PREP+*

Page 136: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

135

8.6 Resultados Mutual Information – Corpus WEB

8.6.1 Padrão gramatical PREP+N

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score ponto;e-vírgula 20,407 ponto;e-vírgula 20,40687 pró;rata 19,193 van;Dunen 17,85362 ponto;multiponto 18,822 qua;dro 17,48749 qua;drado 18,487 von;tade 16,83768 van;dunen 17,854 per;severança 16,79088 van;Dunen 17,854 versus;homem-sujeito 16,76553 van;ons 17,854 ad;cOLIGACAO 16,52105 van;zaken 17,854 ad;miradora 16,52105 qua;dro 17,487 qua;lidade 16,31757 von;rund 17,423 ante;cessor 15,8089 von;toggenburg 17,423 ad;blindnes 15,52105 von;trier 17,423 van;dunha 15,04627 pós;suir 17,258 per;omnia 14,20592 pera;aew 17,123 pós;graduando 13,93608 von;tade 16,838 on;pouvait 13,37681 per;cambiare 16,791 at;ividade 13,23826 per;cápita 16,791 at;ribuição 13,23826 per;fás 16,791 via;aerossol 12,89323 per;gunta 16,791 by;framing 12,83208 per;ignotiu 16,791 by;head-mouse 12,83208 per;kw, 16,791 by;invoking 12,83208 per;nefas 16,791 by;refusing 12,83208 per;omniaEnfim 16,791 ad;serving 12,71369 per;piacere 16,791 ante;quién 12,22394 per;qüestion 16,791 via;telef 11,89323

Tabela 8.30 - Mutual Information : Padrão gramatical PREP+N

8.6.2 Padrão gramatical PREP+ADV

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score malgrado;pesadamente 14,866 ad;subsequentemente 12,273 ad;subsequentemente 12,273 in;erentemente 11,589 exceto;metonímico 12,064 ad;ibidem 10,013 at;noon 11,653 como;inspiradamente 7,967 in;erentemente 11,589 devolvido;assim 7,754 senão;coletivamente 10,233 apesar;claramente 7,422 ad;ibidem 10,013 para;lelamente 6,820 from;e,g, 9,764 devolvido;também 6,598 pró;sim 9,501 diante;ainda 5,951

Page 137: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

136

durante;cêrca 9,351 qua;antes 4,711 desde;entonces 9,343 como;rés 4,627 pera;lá 9,328 ad;específico 4,477 desde;en-tão 8,968 de;intrisecamente 4,130 pera;aí 8,675 de;pràticamente 4,130 pra;cá 8,388 ante;ontem 3,978 desde;cedinho 8,383 pós;antes 3,482 van;íntimo 8,257 trás;somente 3,443 como;inspiradamente 7,967 de;ontém 3,130 in;idem 7,792 trás;quase 3,052 devolvido;assim 7,754 pós;aqui 2,990 desde;cedo 7,745 trás;sim 2,931 pra;trás 7,472 salvo;somente 2,772 apesar;claramente 7,422 como;repetidamente 2,682 conforme;expressamente 7,336 trás;apenas 2,681 por;milhãoSimultaneamente 7,179 de;looonge 2,545

Tabela 8.31 - Mutual Information : Padrão gramatical PREP+ADV

8.6.3 Padrão gramatical PREP+ADJ

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score per;cienciano 16,791 per;spectivo 16,791 per;spectivo 16,791 van;asinar 15,854 ad;2,527, 16,521 pró;prio 15,776 ad;interdicto 16,521 via;semi-erudito 14,478 van;asinar 15,854 pós;operatório 14,258 pró;prio 15,776 on;lineâ 13,377 versus;não-branco 14,596 pós;matrimonial 11,614 mediante;avocatório 14,565 pra;váriso 11,592 via;semi-erudito 14,478 antes;intocado 11,236 pós;operatório 14,258 in;boris 11,005 pró;transgênico 13,979 até;aceitano 10,768 salvo;probo 13,561 ponto;extra 10,743 on;erroneous 13,377 pós;metálico 9,799 on;lineâ 13,377 há;impeditivo 9,636 on;reprendro 13,377 como;anfitriÚo 8,967 salvo;raríssimas 13,167 como;encaixante 8,967 by;affonsocaetano 12,832 como;mononucleotídeo 8,967 by;dinho 12,832 como;ojectivo 8,967 by;emrsnmar 12,832 há;muuuuuito 8,636 by;estevescarreirinho 12,832 via;sacro 8,596 by;jubanoval 12,832 sem;dúbido 8,303 by;jussaramil 12,832 entre;cappuccino 8,200 by;marcosfcardoso 12,832 como;alternante 7,967 by;miltontoshibo 12,832 conforme;listado 7,486 by;osmar 12,832 entre;inerme 7,463

Tabela 8.32 - Mutual Information : Padrão gramatical PREP+ADJ

Page 138: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

137

8.6.4 Padrão gramatical PREP+*

Primeiro cálculo Segundo cálculo Bigrama Score Bigrama Score ponto;e-vírgula 20,407 ponto;e-vírgula 20,407 pró;rata 19,193 van;Dunen 17,854 ponto;multiponto 18,822 qua;dro 17,487 qua;02-01-2008=12:12 18,487 von;Oettingen 17,423 qua;02-01-2008=16:49 18,487 von;tade 16,838 qua;02-01-2008=2:12 18,487 per;Art=Fire=Blow 16,791 qua;drado 18,487 per;Hallberg 16,791 apesar;DOS=Pesares 17,930 per;Loken 16,791 van;Agt 17,854 per;severança 16,791 van;Dijk 17,854 per;Sonare 16,791 van;Duijn 17,854 per;spectivo 16,791 van;Dun 17,854 versus;homem-sujeito 16,766 van;dunen 17,854 versus;SULLIVAN 16,766 van;Dunen 17,854 ad;Aulas=de=Oclumência=Saia 16,521 van;Gogh 17,854 ad;cOLIGACAO 16,521 van;Hallen 17,854 ad;miradora 16,521 van;Hulst 17,854 qua;lidade 16,318 van;Leeuwen 17,854 van;asinar 15,854 van;Nistelrooy 17,854 ante;cessor 15,809 van;ons 17,854 pró;prio 15,776 van;Praag 17,854 ad;blindnes 15,521 van;Rij 17,854 pesar-de;carecer 15,312 van;Saant 17,854 van;dunha 15,046 van;Strafrecht 17,854 conforme;Robert=Yin 15,033 van;Welie 17,854 menos;24,8 15,024

Tabela 8.33 - Mutual Information : Padrão gramatical PREP+*

Como já vem acontecendo em testes anteriores, os resultados apresentados na Tabela

8.33 não são especialmente bons, estando extremamente poluídos pelo viés da metodologia

de calculo do M.I. e pela falta de uniformidade do corpus Internet, gerando resultados

absurdos como “qua;dro”, “qua;lidade” e “ante;cessor”. Nesta lista, salvo o multivocábulo

“ponto;e-vírgula” que já é resultado de um erro no processo de anotação, nenhuma

expressão foi corretamente identificada com score alto, ficando estas mescladas com

resultados incorretos e forçando uma revisão manual severa.

Page 139: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

138

Anexo 2

Substantivos comuns mais freqüentes no corpus jornalístico

80890 ano 44214 governo 41753 dia 39593 país 31666 empresa 28802 presidente 24717 pessoa 23340 mês 17903 caso 17652 mercado 17456 cidade 17096 grupo 16810 semana 16086 parte 15950 tempo 15509 problema 14914 jogo 14646 preço 14377 programa 14335 trabalho 14111 ação 13981 projeto 13623 time 12886 número 12794 estado 12774 área 12663 equipe 12634 mundo 12444 vida 12345 ponto 12048 final 12014 filme 11948 banco 11719 casa 11706 hora 11527 região 11501 história 11424 setor 11367 mulher 11293 valor 10927 nome 10913 dinheiro

10904 forma 10709 processo 10396 livro 10336 homem 10318 deputado 10287 sistema 10263 coisa 10038 diretor 10028 resultado 9941 serviço 9898 decisão 9800 obra 9785 informação 9650 jogador 9634 recurso 9629 vez 9573 partido 9518 ministro 9453 política 9438 aumento 9310 carro 9253 polícia 9191 início 9113 produto 9101 juro 9101 economia 9064 venda 9054 momento 9024 clube 8985 milhão 8942 taxa 8608 direito 8598 lugar 8587 família 8575 tel. 8497 situação 8450 técnico 8407 brasileiro 8340 pesquisa 8245 tipo 8203 produção 8132 criança

8105 noite 8014 líder 7937 título 7915 proposta 7894 período 7882 lei 7866 queda 7774 medida 7695 fim 7681 idéia 7645 rua 7633 acordo 7548 capital 7534 fato 7531 crise 7419 conta 7403 ataque 7332 dólar 7262 questão 7193 rede 7164 texto 7131 filho 7113 campanha 7006 funcionário 6979 risco 6965 local 6962 reforma 6961 guerra 6886 segurança 6877 gol 6862 música 6861 partida 6851 contrato 6818 investimento 6787 justiça 6781 morte 6765 falta 6744 operação 6720 governador 6705 poder 6664 candidato 6623 prazo

Page 140: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

139

6565 papel 6526 saúde 6484 seleção 6452 professor 6448 maioria 6441 reunião 6431 empresário 6428 pai 6420 mudança 6388 condição 6282 dívida 6271 futebol 6237 prefeitura 6212 zona 6206 ministério 6189 relação 6187 janeiro 6181 congresso 6142 imagem 6133 inflação 6130 plano 6081 crime 6065 eleição 6060 tV 6004 população 5964 escola 5914 autor 5903 lado 5872 gente 5861 crescimento 5829 fundo 5823 centro 5811 apoio 5806 movimento 5780 espaço 5748 base 5733 linha 5693 secretário 5597 série 5591 câmara 5581 modelo 5531 indústria 5527 vitória 5524 jornal 5524 custo

5522 prova 5516 força 5515 média 5510 entidade 5391 domingo 5377 defesa 5332 dado 5305 cinema 5286 época 5283 instituição 5279 mão 5272 prefeito 5255 pagamento 5243 objetivo 5238 senador 5205 participação 5195 cargo 5186 negócio 5180 fase 5155 possibilidade 5132 sociedade 5119 entrevista 5112 posição 5086 documento 5078 interesse 5076 km 5071 dezembro 5054 maio 5039 compra 5027 índice 5016 salário 5008 tema 5003 público 4980 uso 4971 controle 4947 atividade 4944 água 4941 advogado 4928 abril 4880 policial 4872 evento 4851 assunto 4797 estudo 4792 verdade 4735 voto

4734 minuto 4730 efeito 4713 junho 4685 corpo 4661 século 4660 campo 4650 negociação 4635 peça 4623 nível 4610 renda 4590 loja 4578 amigo 4573 terra 4572 versão 4546 março 4537 edição 4529 min 4527 setembro 4515 julho 4453 palmeira 4450 qualidade 4444 vítima 4408 show 4406 administração 4389 vaga 4367 redução 4364 entrada 4359 pedido 4326 comissão 4298 encontro 4288 curso 4279 médico 4273 emprego 4258 resposta 4235 página 4228 imposto 4220 disco 4213 lista 4208 telefone 4207 sucesso 4201 declaração 4201 motivo 4200 foto 4196 outubro 4194 atacante

Page 141: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

140

4153 pág. 4133 doença 4126 sábado 4126 dificuldade 4113 personagem 4102 opção 4089 investigação 4074 revista 4063 hospital 4062 companhia 4045 receita 4041 arma 4038 bolsa 4037 agosto 4032 veículo 4009 marca 4000 quadro 3983 site 3981 desenvolvimento 3974 relatório 3964 cultura 3964 e-mail 3953 ônibus 3950 avião 3936 município 3927 agência 3915 década 3909 acesso 3904 consumidor 3890 juiz 3885 total 3877 artista 3876 tarde 3873 jornalista 3870 mãe 3870 direção 3863 oposição 3852 artigo 3849 sul 3839 atentado 3838 membro 3836 órgão 3826 trabalhador 3816 viagem 3810 acidente

3808 diferença 3802 criação 3780 novembro 3779 violência 3763 chance 3749 palavra 3739 torneio 3734 carta 3728 cliente 3728 unidade 3710 senado 3708 atleta 3700 aluno 3699 razão 3697 dúvida 3691 maneira 3685 fevereiro 3654 prédio 3650 exemplo 3616 regime 3604 capacidade 3596 meio 3585 construção 3566 espécie 3564 caminho 3558 exportação 3548 greve 3534 crédito 3533 energia 3530 sentido 3527 pressão 3526 regra 3513 experiência 3506 denúncia 3503 votação 3497 organização 3494 prisão 3486 ator 3482 arte 3481 sindicato 3473 competição 3470 banda 3467 educação 3465 imprensa 3434 necessidade

3433 teatro 3431 temporada 3429 estudante 3423 representante 3418 cena 3410 ato 3402 universidade 3401 autoridade 3379 ar 3368 frente 3364 crítica 3358 real 3349 depoimento 3340 disputa 3330 comércio 3329 discussão 3314 cabeça 3310 volta 3304 gasto 3302 reserva 3300 discurso 3296 opinião 3291 carreira 3283 presidência 3272 nota 3262 computador 3260 vereador 3255 reajuste 3248 categoria 3242 volume 3242 reportagem 3236 festa 3229 presença 3220 saída 3219 investidor 3211 prática 3191 erro 3186 avaliação 3183 atenção 3148 perda 3125 abertura 3121 ordem 3107 verba 3088 bola 3086 dono

Page 142: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

141

3084 limite 3068 solução 3057 futuro 3053 conselho 3052 faixa 3046 tentativa 3043 estádio 3041 corte 3040 exame 3029 hotel 3025 moeda 3023 visita 3013 chefe 3010 expectativa 3009 dirigente 3006 meta 3005 norte-americano 2987 tendência 2978 data 2976 acusação 2973 prêmio 2970 inglês 2965 busca 2954 paz 2953 leitor 2944 droga 2943 teste 2935 conflito 2931 lançamento 2901 vantagem 2891 notícia 2887 sede 2886 sala 2886 exterior 2876 consumo 2871 tecnologia 2869 associação 2869 formação 2868 idade 2868 privatização 2867 preso 2852 agência internacional 2846 material 2845 irmão

2843 origem 2838 tratamento 2835 função 2824 porta 2823 cenário 2820 realidade 2813 equipamento 2812 restaurante 2809 orçamento 2807 campeão 2805 derrota 2803 exposição 2800 profissional 2798 paciente 2785 metade 2784 gás 2781 causa 2779 sexta-feira 2778 político 2778 financiamento 2768 debate 2767 bairro 2767 intenção 2760 folha 2760 motorista 2760 delegado 2749 transporte 2740 parlamentar 2738 corrupção 2737 empréstimo 2731 ajuda 2730 pena 2718 estrutura 2711 morador 2709 sinal 2701 mandato 2700 importação 2699 estratégia 2698 responsabilidade 2696 esquema 2691 medo 2685 contato 2661 comunicação 2627 escritor 2621 interior

2619 combate 2607 desempenho 2603 esporte 2603 bem 2597 oportunidade 2596 previsão 2584 piloto 2584 déficit 2574 caixa 2564 aprovação 2561 lucro 2555 horário 2539 câmbio 2527 tiro 2524 especialista 2523 união 2518 iniciativa 2515 gestão 2503 análise 2501 apli

Page 143: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

142

Page 144: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

Livros Grátis( http://www.livrosgratis.com.br )

Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas

Page 145: NUNO CAMINADA - livros01.livrosgratis.com.brlivros01.livrosgratis.com.br/cp064145.pdf · 5.1.1 Teste-T – padrão PREP+N ... Figura 3.1 - Porcentagem de distribuição de classes

Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo