CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… ·...

141
UNIVERSIDADE FEDERAL DO ABC Curso de Pós-Graduação em Ciência da Computação Dissertação de Mestrado Luciano Rossi Caracterização de grafos de genealogia acadêmica por meio de métricas topológicas Santo André 2015

Transcript of CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… ·...

Page 1: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

UNIVERSIDADE FEDERAL DO ABCCurso de Pós-Graduação em Ciência da Computação

Dissertação de Mestrado

Luciano Rossi

Caracterização de grafos de genealogia acadêmica

por meio de métricas topológicas

Santo André2015

Page 2: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação
Page 3: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Curso de Pós-Graduação em Ciência da Computação

Dissertação de Mestrado

Luciano Rossi

Caracterização de grafos de genealogia acadêmica

por meio de métricas topológicas

Trabalho apresentado como requisito parcialpara a obtenção do título de Mestre em

Ciência da Computação, sob orientação doProfessor Doutor Jesús Pascual Mena-Chalco.

Santo André2015

Page 4: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Este trabalho contou com auxílio financeiro da Universidade Federal do ABC – UFABC (bolsade mestrado, institucional), de março/2013 a janeiro/2014 e da Coordenação de Aperfeiçoamentode Pessoal de Nível Superior – CAPES (bolsa de mestrado, demanda social), de fevereiro/2014 afevereiro/2015.

Page 5: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação
Page 6: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação
Page 7: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Este exemplar foi revisado e alterado em relação à versão original, deacordo com as observações levantadas pela banca no dia da defesa, sobresponsabilidade única do autor e com a anuência de seu orientador.

Santo André, 03 de Agosto de 2015.

Assinatura do autor:

Assinatura do orientador:

Page 8: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação
Page 9: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Agradecimentos

Esta dissertação de mestrado representa um marco em minha história pessoal, pois trata-se darealização de objetivos que, até então, julgava impossíveis de serem feitos por mim. Agradeço aminha esposa, Rosana, que sempre foi a motivação maior para a superação de todos os desafios,aos meus filhos, Pedro e Julia, simplesmente por existirem e serem quem são.

Ao prof. Jesús, por ser uma pessoa extremamente generosa e um orientador que reúne tudoaquilo que um orientado pode esperar: conhecimento, dedicação, paixão pelo saber, humildade nocompartilhar, clareza na comunicação, paciência, respeito, companheirismo e um empenho inigua-lável em desenvolver o conhecimento científico com muita inspiração e trabalho duro. Obrigado,esteja certo que sua orientação impactou de forma relevante minha vida.

Agradeço aos professores com os quais contei durante este período, especialmente: prof. Ro-naldo Cristiano Prati, prof. Daniel Morgato Martin e prof. Etelvino José Henriques Bechara. Muitoobrigado pelas valiosas contribuições.

i

Page 10: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

ii

Page 11: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

ResumoROSSI, L. Caracterização de grafos de genealogia acadêmica por meio de métricas to-pológicas. 2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Uni-versidade Federal do ABC, Santo André, 2015.A busca pela origem de indivíduos apresenta-se como uma tentativa recorrente em obter respostasque expliquem o presente, com base no passado e permitam traçar os caminhos do futuro. A origemde um indivíduo esta ligada à algum tipo de relacionamento que possibilite identificar outro queo precedeu. Este modelo de estruturação de grupos sociais é objeto de estudo da genealogia. Agenealogia acadêmica utiliza os relacionamentos de orientação entre professores (orientadores) ealunos (orientados) para criar a estrutura social que, comumente, é representada por um grafo degenealogia. O grafo descreve seus vértices como orientadores e orientados e suas arestas direcionadasdescrevem as orientações acadêmicas existentes entre eles.Nesta dissertação de mestrado busca-se caracterizar os vértices de um grafo de genealogia consi-derando somente seus relacionamentos de orientação acadêmica. A caracterização dos vértices érealizada por meio do desenvolvimento e/ou adaptação de um conjunto de métricas topológicas. Oconjunto é composto por 22 métricas, sendo 13 de composição descendente ((i) largura, (ii) númerode folhas, (iii) profundidade, (iv) fecundidade, (v) fecundidade ponderada, (vi) maior largura, (vii)índice h genealógico, (viii) impacto, (ix) distância média, (x) média dos menores caminhos, (xi)pagerank inverso, (xii) pagerank inverso ponderado e (xiii) balanceamento pela fecundidade), 8 decomposição ascendente ((xiv) fecundidade inversa, (xv) fecundidade média do território inverso,(xvi) fecundidade ponderada média do território inverso, (xvii) número de origens, (xviii) largurainversa, (xix) profundidade inversa, (xx) pagerank e (xxi) pagerank ponderado) e 1 de composiçãomista ((xxii) balanceamento global). Acreditamos que todas as métricas propostas possam servir deinsumo para analisar computacionalmente qualquer grafo de genealogia.Em particular, as métricas propostas foram calculadas para o conjunto de doutores em matemá-tica cadastrados na plataforma do Mathematics Genealogy Project (MGP), que em Abril de 2014contava com mais de 178 mil registros de 185 países, e permitiu realizar análises para: (i) observarcaracterísticas específicas dos vértices do grafo, (ii) estudar o efeito da abrangência das métricas(janela) na caracterização dos vértices e (iii) classificar os vértices em função dos conjuntos de va-lores de suas métricas.Palavras-chave: métricas topológicas, grafos, atributos quantitativos, orientador-orientando, ge-nealogia acadêmica.

iii

Page 12: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

iv

Page 13: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Abstract

ROSSI, L. Characterization of academic genealogy graphs through topological metrics.2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Universidade Fe-deral do ABC, Santo André, 2015.

The search for the origin of individuals is presented as a recurrent attempt to get answers to explainthe present, based on the past and to retrace the paths of the future. The origin of a subject is linkedto some kind of relationship that allows identify others that preceded it. The academic genealogyuses the orientation relationships between professors (advisors) and students (advisees) to createa social structure that, commonly, is represented by a genealogy graph. The graph describes itsvertices as advisors/advisees and the directed edges describe their existing academic guidelinesbetween them.In this master thesis we present a characterization of a genealogy graph considering only theiracademic guindance relationships. The characterization of the vertices is performed through thedevelopment and / or adaptation of a set of topological metrics. The set consists of 22 metrics. Thefirst 13 descending composition metrics are related with: (i) width, (ii) leaf number, (iii) depth, (iv)fecundity, (v) weighted fecundity, (vi) max width, (vii) genealogical h-index, (viii) impact, (ix) averagedistance (x) average of the shortest paths, (xi) reverse pagerank, (xii) reverse pagerank weighted and(xiii) balanced fecundity. Eight ascending composition metrics related with: (xiv) reverse fecundity,(xv) fecundity of the reverse territory, (xvi) weighted average fecundity of the reverse territory,(xvii) number of origins, (xviii) reverse width, (xix) reverse depth, (xx) pagerank and (xxi) weightedpagerank. Finally, one mixed composition metrics called (xxii) overall balance. We believe that allproposed metrics can serve as input to analyze genealogy graphs.The proposed metrics were calculated for all PhDs in mathematics registered on Mathematics Ge-nealogy Project (MGP), which in April 2014 had more than 178,000 records from 185 countries, andallowed to perform analysis in order: (i) to observe specific characteristics of the graph vertices, (ii)to study the effect of coverage metrics (i.e, window size) in the characterization of vertices and, (iii)to classify the vertices according to the sets of values of their metrics.

Keywords: topological metrics, graphs, quantitative attributes, advisors-advisees, academic gene-alogy.

v

Page 14: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

vi

Page 15: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Sumário

Lista de Símbolos xi

Lista de Figuras xiii

Lista de Tabelas xv

1 Introdução 1

1.1 Considerações preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Definições preliminares 5

2.1 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 Conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Métricas em grafos de genealogia 11

3.1 Métricas de composição descendente . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1.1 Largura – Número de descendentes diretos. . . . . . . . . . . . . . . . . . . . 11

3.1.2 Número de folhas – Vértices sem descendentes . . . . . . . . . . . . . . . . . 12

3.1.3 Profundidade – Número de gerações descendentes . . . . . . . . . . . . . . . . 12

vii

Page 16: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

viii SUMÁRIO

3.1.4 Fecundidade – Número de descendentes diretos e indiretos . . . . . . . . . . . 12

3.1.5 Fecundidade ponderada – Influência normalizada de descendentes diretos e

indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.6 Maior largura – Maior número de descendentes pertencentes a uma geração . 14

3.1.7 Índice-h genealógico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.8 Impacto – Proporção de descendentes diretos ou indiretos considerando o con-

junto total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.9 Distância média – Média do tamanho dos caminhos existentes no grafo . . . . 15

3.1.10 Média dos menores caminhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.11 Pagerank inverso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.12 Pagerank inverso ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.13 Balanceamento pela fecundidade . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.14 Balanceamento global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Métricas de composição ascendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.1 Fecundidade inversa – número de ascendentes diretos ou indiretos . . . . . . . 19

3.2.2 Fecundidade média do território inverso – influência normalizada de ascen-

dentes diretos e indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.3 Fecundidade ponderada média do território inverso . . . . . . . . . . . . . . . 20

3.2.4 Número de ascendentes origem – Vértices sem ascendência . . . . . . . . . . 20

3.2.5 Largura inversa – Número de ascendentes diretos . . . . . . . . . . . . . . . . 20

3.2.6 Profundidade inversa – Número de gerações ascendentes . . . . . . . . . . . . 21

3.2.7 Pagerank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.8 Pagerank ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3 Métricas limitadas por janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4 Taxonomia das métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Sobre os dados utilizados 29

4.1 Conjunto dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2 Relacionamentos de orientação acadêmica . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3 Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Page 17: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

SUMÁRIO ix

4.4 Grupos e escolas matemáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.5 Topologia do grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Resultados 43

5.1 Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.1 Correlação entre métricas descendentes . . . . . . . . . . . . . . . . . . . . . . 44

5.1.2 Correlação entre métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . 46

5.1.3 Correlação entre os conjuntos de métricas combinados . . . . . . . . . . . . . 47

5.2 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Trabalhos correlatos 57

6.1 Relacionamentos de orientação – base de dados do MGP . . . . . . . . . . . . . . . . 58

6.2 Relacionamentos de orientação – outras bases de dados . . . . . . . . . . . . . . . . . 59

6.3 Outros tipos de relacionamentos – no contexto brasileiro . . . . . . . . . . . . . . . . 60

7 Conclusões 63

7.1 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7.2 Sugestões de pesquisas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A Caracterização da base de dados 65

B Classificação por janelas 73

C Publicações realizadas no período do mestrado 83

C.1 BRASNAM – III Brazilian Workshop on Social Network Analysis and Mining (2014) 83

C.2 SPGABC – Simpósio de Pesquisa do Grande ABC (2014) . . . . . . . . . . . . . . . 96

C.3 BRASNAM – IV Brazilian Workshop on Social Network Analysis and Mining (2015) 99

C.4 CMAC – Congresso de Matemática Aplicada e Computacional (2015) . . . . . . . . . 112

Referências Bibliográficas 115

Page 18: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

x SUMÁRIO

Page 19: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Lista de Símbolos

A(v) Conjunto dos ascendentes diretos do vértice v

bf(v) Métrica balanceamento pela fecundidade do vértice v

bg(v) Métrica balanceamento global do vértice v

C(k)(v) Conjunto dos caminhos de comprimento k sendo v o vértice origem

c(k)(v) Número de caminhos de comprimento k sendo v o vértice origem

D(v) Conjunto dos descendentes diretos do vértice v

D(k)(v) Conjunto dos descendentes diretos k-férteis do vértice v

dm(v) Métrica distância média no grafo de genealogia do vértice v

dei(||mvi ||) Valor da distância euclidiana entre as i métricas dos vértices adjacentes a v

DE(v) Conjunto dos valores das distâncias euclidianas dos vértices adjacentes a v

E Conjunto de arestas de um grafo

f+(v) Métrica fecundidade do vértice v

f−(v) Métrica fecundidade inversa do vértice v

F (v) Conjunto dos valores de fecundidade dos vértices adjacentes a v

fp(v) Métrica fecundidade ponderada do vértice v

fmT−(v) Métrica fecundidade média do território inverso do vértice v

fpmT−(v) Métrica fecundidade ponderada média do território inverso do vértice v

~G Grafo dirigido

h(v) Métrica índice h genealógico do vértice v

i(v) Métrica impacto do vértice v

xi

Page 20: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

xii LISTA DE SÍMBOLOS

l+(v) Métrica largura do vértice v

l−(v) Métrica largura inversa do vértice v

l(k)(v) Largura k-fértil do vértice v

||mvi || Valor normalizado das i métricas do vértice v

ml(v) Métrica maior largura no grafo de genealogia do vértice v

nf(v) Métrica número de folhas no grafo de genealogia do vértice v

NF (v) Conjunto dos vértices folha no grafo de genealogia do vértice v

no(v) Métrica número de origens do território inverso do vértice v

O(v) Conjunto dos vértices origem do território inverso do vértice v

p+(v) Métrica profundidade do grafo de genealogia do vértice v

p−(v) Métrica profundidade inversa do vértice v

pr+(v) Métrica pagerank do vértice v

prp+(v) Métrica pagerank ponderado do vértice v

pr−(v) Métrica pagerank inverso do vértice v

prp−(v) Métrica pagerank inverso ponderado do vértice v

T+(v) Território do vértice v

T−(v) Território inverso do vértice v

V Conjunto de vértices de um grafo

Page 21: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Lista de Figuras

2.1 Conjunto de grafos de genealogia dos matemáticos no Brasil . . . . . . . . . . . . . . 9

3.1 Janelas em grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Conjunto de grafos de genealogia – métricas descendentes . . . . . . . . . . . . . . . 25

3.3 Conjunto de grafos de genealogia – métricas ascendentes . . . . . . . . . . . . . . . . 26

3.4 Taxonomia das métricas topológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1 Fluxograma do método de obtenção dos dados . . . . . . . . . . . . . . . . . . . . . . 30

4.2 Evolução do número de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3 Matriz de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.4 Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.5 Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.6 Influência das escolas de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.7 Grafo de genealogia acadêmica dos matemáticos . . . . . . . . . . . . . . . . . . . . . 40

4.8 Topologia do grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1 Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 Variação dos coeficientes de correlação entre as métricas. . . . . . . . . . . . . . . . . 48

5.3 Exemplo de conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . 50

5.4 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.5 Variação da classificação em função do tamanho das janelas . . . . . . . . . . . . . . 52

5.6 Impacto do ano de titulação em função do tamanho da janela considerda. . . . . . . 53

5.7 PCA com janelas de diferentes tamanhos . . . . . . . . . . . . . . . . . . . . . . . . . 55

xiii

Page 22: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

xiv LISTA DE FIGURAS

5.8 Identificação dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.9 Grafo dos 50 matemáticos mais relevantes . . . . . . . . . . . . . . . . . . . . . . . . 56

Page 23: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Lista de Tabelas

5.1 Correlação entre as métricas descendentes . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2 Correlação entre as métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3 Correlação entre as métricas combinadas . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.4 Características das janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

A.1 Ranking de países e instituições – parte I . . . . . . . . . . . . . . . . . . . . . . . . 66

A.1 Ranking de países e instituições – parte II . . . . . . . . . . . . . . . . . . . . . . . . 67

A.2 Ranking de escolas – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

A.2 Ranking de escolas – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A.3 MSC – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

A.3 MSC – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

B.1 Ranking – janela 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

B.2 Ranking – janela 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

B.3 Ranking – janela 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

B.4 Ranking – janela 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

B.5 Ranking – janela 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

B.6 Ranking – janela 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

B.7 Ranking – janela 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.8 Ranking – janela 41 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

xv

Page 24: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

xvi LISTA DE TABELAS

Page 25: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 1

Introdução

1.1 Considerações preliminares

Atualmente, com o grande crescimento de informações disponíveis, a internet tornou-se umcampo fértil para a interação on-line e o desenvolvimento de diversas áreas da ciência da informação[Pinheiro & Loureiro, 1995] e ciência da computação [Hey et al., 2009]. Dentre elas a mineração ouprospeccão de dados (data mining) que vem ganhando grande destaque e importância nesse cenário.Nos últimos anos, está se dando especial interesse a tais tópicos devido à descoberta de conhecimentoque pode ser obtido a partir do tratamento de conjuntos de dados disponíveis nos repositórios deprodução científica, e.g., banco de dados de produções bibliográficas, de orientação acadêmica, deprojetos de pesquisa, e de diretórios de grupos de pesquisa [Tang et al., 2008].

Por outro lado, a importância das pesquisas científicas no desenvolvimento de uma nação éinegável. Também é inegável que instituições de ensino e pesquisa têm como um dos seus principaisativos a qualidade de seus docentes e a capacidade destes em fomentar, orientar e formar seus alunospara a pesquisa científica como ferramenta geradora de inovação com o objetivo de promover odesenvolvimento tecnológico e socioeconômico de um país [de Moraes, 2000].

A atividade de orientação/supervisão acadêmica é uma forma de relacionamento que promovea evolução do orientado, da instituição, da ciência e da sociedade de um modo geral. Atualmentepode-se observar diferentes iniciativas, por parte de comunidades acadêmicas específicas, no sentidode documentar, analisar e classificar estruturas de genealogia acadêmica. Analisar estes relaciona-mentos sob a forma de uma estrutura genealógica (grafo de genealogia acadêmica), permite ummaior entendimento sobre a comunidade científica (que é objeto deste estudo), a caracterização doindivíduo por meio de seus relacionamentos e a identificação do impacto gerado por esses indivíduosna formação dessa comunidade.

A identificação dos diferentes níveis de impacto que membros de comunidades acadêmicas exer-cem sobre seus respectivos grupos de atuação e na sociedade, de forma mais ampla, é comumenterealizada por meio da análise de publicações. No entanto, considerar o desempenho dos acadêmicosnas atividades de orientação/supervisão como sendo parte importante da contribuição do indivíduo

1

Page 26: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

2 INTRODUÇÃO 1.2

no desenvolvimento da ciência e, por conseguinte, da sociedade, não apresenta o mesmo grau derelevância.

A genealogia acadêmica pode ser definida como um estudo quantitativo da herança intelec-tual perpetrada por meio de relacionamentos de orientação entre estudantes e seus orientadores[Sugimoto, 2014]. Os relacionamentos de orientação acadêmica promovem a propagação de conheci-mento científico por meio da interação entre orientador, com diferentes desempenhos em orientação,e seus orientados, que são influenciados pelas características de seus orientadores [Malmgren et al.,2010]. Neste contexto, a genealogia acadêmica fornece meios para mensurar e analisar estas intera-ções.

A análise e caracterização de acadêmicos em um contexto genealógico, onde os relacionamentosde orientação/supervisão são os únicos elementos considerados, é possível por meio da utilização deum conjunto de métricas topológicas que, considerando toda a rede social, diferencie estes acadê-micos com base na relevância de suas orientações/supervisões.

Diferentes estudos foram publicados sobre genealogia acadêmica com o objetivo de caracte-rizar áreas do conhecimento específicas, como a Neurociência [David & Hayden, 2012], a Quí-mica Orgânica [Andraos, 2005], a Matemática [Chang, 2011, Malmgren et al., 2010], a Fisiolo-gia [Bennett & Lowe, 2005, Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros.Há ainda, iniciativas para a captação e estruturação de dados genealógicos utilizando plataformasWeb. O Mathematics Genealogy Project (http://genealogy.math.ndsu.nodak.edu) e o projeto Neuro-tree (http://neurotree.org/neurotree) são pautados na obtenção de dados genealógicos das respectivasáreas e na interpretação das estruturas genealógicas obtidas, a comunidade científica dos Físi-cos (http://academictree.org/physics) e, de forma mais específica, para os acadêmicos titulados comdoutorado (http://phdtree.org). Estes projetos são, inicialmente, orientados para a obtenção e do-cumentação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, estesregistros contribuem para a documentação histórica destas comunidades e resulta em campo fértilpara estudos futuros.

Esta dissertação considera como estudo de caso os registros genealógicos da comunidade acadêmico-científica dos matemáticos. A captação, estruturação e documentação destes registros foi realizadapela North Dakota State University por meio do Mathematics Genealogy Project (MGP). A escolhadeste conjunto de dados justifica-se pela magnitude, estrutura, abrangência e riqueza das informa-ções disponibilizadas pelo projeto. É importante notar que esta base de dados possui abrangênciainternacional e ainda não foi amplamente analisada, o que se apresenta como uma oportunidadeímpar para a obtenção de novos conhecimentos a respeito desta comunidade científica.

1.2 Objetivos

O objetivo geral desta dissertação é desenvolver e/ou adaptar um conjunto de métricas topológi-cas, de base quantitativa, que permita a caracterização de bancos de dados estruturados em formade grafo de genealogia, em um contexto acadêmico, por meio dos relacionamentos de orientação

Page 27: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

1.5 CONTRIBUIÇÕES 3

acadêmica existentes entre os indivíduos.Os objetivos específicos deste trabalho são os seguintes:

(a) Estruturar os dados genealógicos prospectados em forma de grafos de genalogia, possibilitandoa visualização da estrutura topológica do conjunto;

(b) Analisar a influência de grupos na formação da comunidade acadêmico-científica;

(c) Estudar a abrangência com que os relacionamentos de orientação acadêmica influenciam asgerações posteriores;

(d) Classificar os vértices do grafo de genealogia por meio da aplicação de técnicas de redução dedimensionalidade.

1.3 Contribuições

As principais contribuições deste trabalho são listadas a seguir:

(a) Propor a utilização de métricas topológicas (ascendentes e descendentes) baseadas na Teo-ria dos Grafos, desenvolvidas e/ou adaptadas, para a caracterização de grafos de genealogiaacadêmica.

(b) Documentar e registrar de forma perene os grafos de genealogia acadêmica em banco de dadosorientado a grafos, disponibilizando as estruturas para consultas.

(c) Caracterizar a comunidade acadêmico-científica dos doutores em matemática;

(d) Identificar os países/escolas com maior impacto na formação da comunidade dos doutores emmatemática.

1.4 Limites

Os resultados pretendidos com esta dissertação estão fortemente relacionados com a corretude ecompletude dos dados utilizados. Os dados considerados neste estudo de caso corresponde ao MGP,e apesar deste projeto ser uma iniciativa abrangente e seus dados constituírem um conjunto ímpara respeito dos doutores em matemática, algumas inconsistências foram observadas e documentadas.

Os registros obtidos na plataforma do MGP, em alguns casos, não são completos. Identifica-sea ausência de atributos ligados à titulação, como: ano, instituição e país. Também não é possível,na maioria dos casos, verificar a corretude das informações disponíveis.

Os registros identificados como incompletos e/ou incorretos foram excluídos das análises quenecessitavam destes dados. Ainda precisam ser feitos estudos para determinar se a completude dosdados pode ter impacto significante sobre os resultados obtidos para o estudo de caso (veja noCapítulo 4 uma descrição do percentual de registros desqualificados).

Page 28: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4 INTRODUÇÃO 1.5

1.5 Organização do trabalho

Esta dissertação está organizada em sete Capítulos, incluindo este Capítulo introdutório.O Capítulo 2 apresenta conceitos elementares sobre a Teoria dos Grafos, com as principais

definições utilizadas nesta dissertação, além de uma breve descrição sobre a área da genealogia eseus elementos, apresentando os principais objetivos desta ciência. Um exemplo construído a partirde um subconjunto dos dados (doutores em matemática com titulação no Brasil) prospectados noMGP completam este Capítulo.

As métricas topológicas desenvolvidas e adaptadas para a caracterização de grafos de genealogiaacadêmica são descritas no Capítulo 3, ordenadas de acordo com suas características (descendentesou ascendentes). Neste Capítulo descreve-se o processo de cálculo bem como o objetivo de cadauma das 22 métricas. Há, também, uma descrição sobre a abrangência das métricas (janelas) eum exemplo de grafo de genealogia conceitual com os valores das métricas calculados para janelasdistintas.

A base de dados utilizada no estudo de caso desta dissertação é descrita em detalhes no Capítulo4, onde há uma sucinta esplanação sobre o MGP e sobre o método utilizado para a prospecção deseus dados. Os dados são detalhados sob diferentes aspectos: (i) os matemáticos, (ii) os relacionamen-tos de orientação acadêmica, (iii) as áreas mais proeminentes (Mathematics Subject Classification),(iv) as escolas matemáticas e (v) a topologia do grafo resultante.

O Capítulo 5 descreve a correlação observada entre as métricas topológicas e sobre a capacidadedas métricas em caracterizam os vértices do grafo em função de seus coeficientes de correlação.Ainda neste capítulo, há a descrição a respeito do procedimento matemático denominado Análise deComponentes Principais (PCA). Este procedimento foi utilizado, nesta dissertação, com o objetivode reduzir a dimensionalidade dos dados e, assim, possibilitar uma classificação dos vértices dografo por meio dos resultados de suas respectivas métricas topológicas. A classificação por meio daPCA foi realizada considerando as 41 janelas possíveis para o grafo de genealogia, a variabilidadeobservada na classificação para cada janelas também é apresentada neste capítulo.

O Capítulo 6 é dedicado a descrever os trabalhos correlatos a esta dissertação que estão orde-nados por: (i) trabalhos que utilizaram a mesma base de dados e o mesmo tipo de relacionamento,(ii) bases de dados diferentes e o mesmo tipo de relacionamento e (iii) diferentes bases de dados etipos de relacionamentos.

Finalmente, o Capítulo 7 apresenta as principais conclusões obtidas no estudo de caso e listapossíveis desdobramentos futuros para esta dissertação.

Page 29: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 2

Definições preliminares

2.1 Grafos

Um grafo (G) pode ser definido como um par (V,E), onde V é um conjunto (não vazio) deobjetos, denominados vértices, e E é um conjunto de pares de vértices (u, v) que representam ligaçõesentre os vértices u e v; essas ligações são denominadas arestas. Outros conceitos fundamentais sobregrafos, utilizados nesta dissertação, são descritos a seguir:

• Grafos dirigidosAs arestas de um grafo podem apresentar orientações que indicam o sentido da ligação entreos vértices, ou seja, E é um conjunto de pares ordenados de vértices (u, v). Os grafos quepossuem arestas dirigidas são denominados grafos dirigidos. Se (u, v) é uma aresta em umgrafo dirigido ~G = (V,E), diz-se que a aresta (u, v) é incidente do vértice u e é incidente novértice v. Nesse contexto o vértice v é adjacente ao vértice u (u→ v).

• Graus de grafos dirigidosEm um grafo dirigido ~G, o grau de saída de um vértice v é o número de arestas que incidemdele (saem), denotado por d(v)−, e o grau de entrada de um vértice v é o número de arestasque incidem nele (entram), denotado por d(v)+. O grau de um vértice é definido como a somado grau de entrada e o grau de saída, ou seja, d(v) = d(v)− + d(v)+.

• Caminhos e ciclos em grafos dirigidosUm caminho de comprimento k (C(k)) de um vértice origem u a um vértice destino u′ emum grafo dirigido ~G é uma sequência (v0, v1, v2, . . . , vk) de vértices tais que u = v0, u′ = vk e(vi−1, vi) para i = 1, 2, 3, . . . , k. Em um grafo dirigido, um caminho (v0, v1, v2, . . . , vk) formaum ciclo se v0 = vk e o caminho contém no mínimo uma aresta. Um grafo que não possuiciclos é acíclico.

• Grafos dirigidos conexosUm grafo dirigido ~G é conexo se existe, no mínimo, um caminho ligando todos os vértices

5

Page 30: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

6 DEFINIÇÕES PRELIMINARES 2.3

deste grafo. No contexto desta dissertação, utiliza-se o termo grafo de genealogia que é definidocomo um grafo dirigido acíclico conexo.

• Níveis em grafosUm vértice de origem, em um grafo de genealogia, é aquele que apresenta grau de entradaigual a zero (d(v)+ = 0) e, neste trabalho, é denominado vértice raiz. A posição do vértice raizno grafo de genealogia é identificada como nível zero. Dado um grafo de genealogia ~G e dadoum vértice raiz v ∈ V o nível m de um vértice v′ ∈ V no grafo de genealogia é o comprimentok do menor caminho existente entre v e v′.

2.2 Genealogia

A busca da humanidade sobre suas origens é tema recorrente e pode ser observado desde osregistros no Livro de Gênesis até iniciativas contemporâneas no sentido de documentar a históriade comunidades acadêmicas por meio de suas relações. A genealogia acadêmica busca, atravésdo registro de acadêmicos, em diversas áreas, e seus relacionamentos de orientação documentarde forma perene a história de comunidades acadêmico-científicas e, assim, possibilitar um melhorentendimento sobre como o passado impactou na formação do presente e qual a tendência para ofuturo destas comunidades.

A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e disseminação degrupos inter-relacionados por laços familiares ou outro tipo de relacionamento qualquer. O objetode pesquisa da genealogia são os ascendentes e os descendentes de um indivíduo. O processo depesquisa envolvido na genealogia abrange a identificação de parentesco entre indivíduos por meiode registros históricos como certidões de nascimento, casamento, óbito, registro de propriedades eoutros documentos que possam comprovar uma ligação entre eles.

Um objetivo importante em um estudo genealógico é obter conhecimento que possibilite umentendimento do futuro com base no passado, por vezes, desconhecido. Esse estudo possibilitariatraçar a memória de diferentes indivíduos.

O desenvolvimento da internet e de novas tecnologias de informação mudou radicalmente a formapela qual pesquisadores na área de genealogia conduzem suas pesquisas, o acesso e o compartilha-mento de dados é uma das evoluções observadas no mundo digital [Hey et al., 2009, Marton et al.,2013]. Pesquisadores na área de genealogia, seja em qual for o contexto, têm como ferramentafundamental de trabalho o compartilhamento amplo e assertivo de dados referentes aos indivíduospesquisados e seus relacionamentos.

2.3 Grafos de genealogia

A utilização de representações gráficas para estruturar os indíviduos que têm algum tipo deconexão facilita o estudo genealógico. A estrutura geralmente utilizada é denominada árvore degenealogia. A origem do nome é devido a semelhança com a ramificação das árvores observadas na

Page 31: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

2.4 CONJUNTO DE GRAFOS DE GENEALOGIA 7

natureza, que normalmente seguem o padrão Fibonacci. O conceito também é utilizado na medicinapara o estudo de doenças de cunho genético.

As estruturas construídas a partir de dados de genealogia acadêmica não podem ser catego-rizadas como árvores no rigor da matemática formal, pois não atendem à todos os critérios dedefinição deste tipo de estrutura (e.g.: “deve haver um único caminho entre dois vértices em umaárvore.”). Nesta dissertação é utilizado o termo grafo de genealogia para nomear as estruturas degenealogia. Um grafo de genealogia pode ser definido como uma estrutura gráfica onde os indivíduossão representados por elementos geométricos (círculo, retângulo) e as ligações existentes entre esteselementos por segmentos de reta, ou seja, trata-se de um caso particular de grafo sendo categorizadocomo grafo direcionado acíclico conexo.

Os grafos de genealogia podem, em algum contexto, apresentar ciclos. Isto ocorre quando dife-rentes tipos de relacionamentos de orientação acadêmica são considerados no mesmo grafo. Suponhaum relacionamento professor-aluno do tipo iniciação científica. Caso o aluno continue evoluindo emseus estudos e o professor não, é possível que, no futuro, o aluno torne-se, por exemplo, orientadorde mestrado de seu antigo professor. Este exemplo, apesar de improvável, resultaria em um ciclo nografo de genealogia. Para este trabalho todos os relacionamentos são de mesmo tipo, não havendopossibilidade do surgimento de ciclos.

Um grafo dirigido ~G é um par (V,E), onde V é um conjunto finito de vértices e E é uma relaçãobinária ordenada em V . Para este trabalho, os acadêmicos e seus relacionamentos de orientaçãosão estruturados na forma de grafo de genealogia. Os vértices (V ) representam os indivíduos (aca-dêmicos) e as arestas direcionadas (E) representam seus relacionamentos. Tanto os vértices quantoas arestas direcionas (e.g., orientação ou supervisão) possuem atributos. As informações que comu-mente podem ser consideradas nos vértices desse tipo de estrutura são as seguintes: (i) nome doorientador/orientado, (ii) nome da instituição profissional a qual pertence, (iii) área de pesquisa doorientador/orientado, (iv) geolocalização da instituição acadêmica. Já as arestas podem considerarinformações relacionadas a: (i) ano da orientação, (ii) tipo de orientação, (iii) nome da instituiçãoonde foi realizada a orientação, (iv) áreas de pesquisa consideradas na orientação e (v) período deorientação1.

2.4 Conjunto de grafos de genealogia

Um grafo de genealogia, neste contexto, é um conjunto de vértices interligados ou um únicoelemento isolado. Um conjunto de grafos de genealogia é utilizado para representar comunidadesacadêmico-científicas em que seus vértices e arestas direcionadas contém atributos que podem sercategorizados em um mesmo contexto.

O conjunto de grafos de genealogia acadêmica prospectado da plataforma do MGP foi consti-tuído de forma a representar os acadêmicos e seus relacionamentos, estruturando-os em um banco de

1Para o conjunto de dados do estudo de caso considerado neste trabalho, não utilizamos atributos para os relaci-onamentos visto que não há registros deste tipo na base de dados utilizada.

Page 32: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

8 DEFINIÇÕES PRELIMINARES 2.4

dados orientado a grafos2, onde cada acadêmico é representado por um vértice e os relacionamentosde orientação acadêmica são representados por arestas direcionadas.

A título de exemplo, na Figura 2.1 apresenta-se um subconjunto de grafos de genealogia acadê-mica, constituído pelos grafos de genealogia dos matemáticos que obtiveram sua titulação no Brasil.Os grafos são ordenados segundo o tamanho (número de vértices) de cada componente conexa, ondea magnitude dos grafos aumenta da base para o topo da figura. Neste conjunto, observamos gra-fos constituídos desde um único vértice até estruturas mais complexas com diferentes níveis deprofundidade3.

O conjunto de grafos de genealogia acadêmica dos matemáticos do Brasil é composto por1.615 vértices que representam os matemáticos que foram titulados em instituições brasileiras[Rossi & Mena-Chalco, 2014b] e corresponde a 0,90% da base de dados total. Este conjunto ocupaa 12a posição em relação ao total de matemáticos (veja no Capítulo 4 uma descrição completa doconjunto de dados utilizado). Trata-se de uma comunidade jovem que apresenta franco crescimentoem número de titulações ano após ano. Comparando as décadas de 1980 e 1990 observa-se uma taxade crescimento de 159%, para a década seguinte o crescimento se mantém a uma taxa de 118%.

2Para a constituição do banco de dados foi utilizado a plataforma Neo4j que é um software livre de banco dedados orientado à grafos [Robinson et al., 2013].

3A métrica que estima a profundidade é descrita no Capítulo 3.

Page 33: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

2.4 CONJUNTO DE GRAFOS DE GENEALOGIA 9

Figura 2.1: Conjunto de grafos de genealogia dos matemáticos que obtiveram titulação no Brasil. Os vérti-ces e as arestas direcionadas representam os matemáticos brasileiros e seus relacionamentos de orientaçãoacadêmica, respectivamente. A magnitude dos grafos (número de vértices) aumenta da base para o topo dafigura.

Page 34: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

10 DEFINIÇÕES PRELIMINARES 2.4

Page 35: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 3

Métricas em grafos de genealogia

Uma métrica em um grafo de genealogia ~G = (V,E) é uma função de V em R, que utilizaas ligações entre os vértices para o cálculo de seu valor. As métricas podem ser divididas em doisgrupos, segundo seu objetivo específico. As métricas de composição descendente e ascendente. Oconjunto de métricas utilizado nesta dissertação, com seus respectivos objetivos, são descritas nestecapítulo.

3.1 Métricas de composição descendente

As métricas de composição descendente são aquelas que utilizam para sua mensuração a descen-dência de um vértice de interesse. A descendência de um vértice é comumente chamada de territóriodo vértice e pode ser definida por:

T+(v) = {u ∈ V : ∃(v, u)− caminho em G}. (3.1)

Esta categoria de métrica visa identificar como um determinado vértice impactou a formaçãodo grafo de genealogia por meio de suas relações de orientação. Trata-se de uma visão posterior àorigem do vértice analisado. As 14 métricas que compõem esta categoria são descritas a seguir.

3.1.1 Largura – Número de descendentes diretos.

A largura (l+) representa o número de vértices adjacentes (vizinhos) a um vértice de interesse.Ela é uma medida simples usada para classificar um vértice com base em sua capacidade de conexão.Trata-se de uma análise quantitativa importante, porém ela não considera as possíveis conexões dosvértices adjascentes ao vértice raiz, portanto essa métrica não revela o impacto indireto exercidopelo vértice de interesse na formação do grafo de genealogia.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a descedência direta do vérticev em G é:

D(v) = {u ∈ V : (v, u) ∈ E}, (3.2)

11

Page 36: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

12 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1

e a l+(v) é dada por:l+(v) = |D(v)|. (3.3)

3.1.2 Número de folhas – Vértices sem descendentes

A métrica número de folhas (nf) apresenta o número de vértices (v) não fecundos (d(v)− = 0)existentes em um grafo de genealogia ~G, ou seja, aqueles que não têm nenhum filho. No contextoacadêmico, podemos encontrar este tipo de característica em alunos que não realizaram orientações.

O número de folhas existentes em um grafo de genealogia pode nos indicar sua tendência decrescimento quando analisadas em conjunto com o atributo tempo. Por exemplo, folhas nascidas hámuito tempo (i.e., matemáticos que obtiveram sua titulação há mais de 10 anos) podem indicar suainfertilidade. Caso o grafo apresente a maioria de suas folhas nesta condição, ele pode ser classificadocomo sendo um grafo com baixa capacidade de crescimento. Por outro lado, se a maioria das folhassão novas (i.e., matemáticos que obtiveram sua titulação há menos de 10 anos) o grafo certamentetem grande potencial de expansão.

Dado um grafo de genealogia ~G = (V,E) e um vértice de interesse v ∈ V , a descendência de v

é dada por T+(v) (Eq. 3.1) e o conjunto NF dos vértices folha é definido por:

NF (v) = {u ∈ T+(v) : d−(u) = 0} (3.4)

neste contexto o valor da métrica nf(v) é dado por:

nf(v) = |NF (v)|. (3.5)

3.1.3 Profundidade – Número de gerações descendentes

A métrica profundidade (p+) é uma medida utilizada para representar o grau de maturaçãodo grafo de genealogia. Quanto maior o valor de p+ tanto maior será o tempo de existência destaestrutura. O inverso não é verdadeiro, ou seja, não se pode afirmar que grafos pouco profundossejam, necessariamente, novos. Essa métrica apresenta o tamanho do maior caminho existente nografo de genealogia de um dado vértice e representa o número de gerações descendentes a partir deum vértice de interesse.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a profundidade p+(v) é dadapelo maior comprimento k dentre os caminhos possíveis, ou seja:

p+(v) = max{k ∈ N : ∃(v, u)− caminho em G, ∀u ∈ NF (v)}. (3.6)

3.1.4 Fecundidade – Número de descendentes diretos e indiretos

A métrica fecundidade (f+) refere-se a quão prolífico é um vértice do grafo, considerando onúmero de descendentes (diretos ou indiretos) que ele possui em todos os níveis do grafo de genea-

Page 37: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.1 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 13

logia. Esta métrica tem como objetivo identificar o impacto do vértice analisado na composição doconjunto de grafos de genealogia.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a f+(v) é dada por:

f+(v) = |T+(v)|. (3.7)

Desta forma, podemos considerar que vértices com maior fecundidade são aqueles que possuem ummaior número de conexões diretas ou indiretas.

3.1.5 Fecundidade ponderada – Influência normalizada de descendentes diretose indiretos

Uma análise mais cuidadosa da métrica fecundidade, descrita anteriormente, nos leva a observarque os vértices localizados a partir do nível dois de um grafo não são resultado apenas da influênciado vértice de interesse, mas também da influência direta dos vértices adjacentes no nível anterior.

Analogamente a um grafo de genealogia familiar, é natural pensar que um neto sofre umainfluência maior de seu pai do que de seu avô. Neste sentido as características similares às do avôque o neto apresenta foram recebidas indiretamente, ou seja, houve um elo entre eles, o pai. Porvezes, o pai pode desenvolver características próprias sem que as tenha recebido do avô, e influenciaro neto segundo estas caracterísiticas. Assim parte do perfil do neto não teria nenhuma participaçãodo avô.

A fecundidade ponderada (fp) é utilizada para normalizar a influência indireta que os vérticessofrem. Neste trabalho, a fp utiliza como fator de ponderação o comprimento k do caminho entreo vértice raíz e seus descendentes.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , o conjunto de caminhos decomprimento k é dado por:

C(k)(v) = {(v, u)− caminhos de comprimento k em G : ∀u ∈ V }. (3.8)

O número de caminhos de comprimento k de v ∈ V para todo u ∈ V , é:

c(k)(v) = |C(k)(v)|. (3.9)

Neste contexto, a fp(v) é dada por:

fp(v) =

n∑

k=1

c(k)(v)

k2. (3.10)

A fp reduz o impacto da quantidade de vértices pertencentes à linhagem de um vértice raizà medida que eles se distânciam, ou seja, quanto mais distante um vértice está da raiz, menor ésua contribuição na composição do valor da métrica. Uma informação importante que essa métricaproduz é o quanto um vértice raiz foi capaz de motivar/influenciar seus descendentes.

Page 38: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

14 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1

3.1.6 Maior largura – Maior número de descendentes pertencentes a uma ge-ração

A maior largura (ml) identifica a maior quantidade de vértices existentes em um único nível dografo. A métrica ml de um grafo indica sua amplitude e permite comparações com outros grafos doconjunto, com o objetivo de estimar qual deles é mais abrangente. Quando a análise da ml é feitaem conjunto com o nível que a contém, temos uma ideia da topologia deste grafo. Normalmente,devido às características de propagação destas estruturas genealógicas, os maiores resultados sãoencontrados nos últimos níveis dos grafos. Quando a ml se apresenta em níveis superiores podemosclassificar este nível como sendo o momento de ruptura da influência do vértice raiz, sendo que, apartir daquele nível, a propagação do grafo ocorrerá devido à influência de alguns poucos vérticesem uma proporção menor que a observada nos níveis anteriores.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a ml(v) é dada por:

ml(v) = {k ∈ N : max(c(k)(v))}. (3.11)

3.1.7 Índice-h genealógico

O índice h genealógico (h) de um vértice é definido como o maior número h de conexões existentesentre ele e seus vértices adjacentes que possuem, pelo menos, o mesmo número h de conexões cadaum1. O objetivo desta métrica é considerar a quantidade e a qualidade genealógica (no sentido deperpetuidade) dos relacionamentos em um grafo de genealogia.

Dado um grafo de genealogia ~G, um vértice de interesse v ∈ V é k-fértil se l+(v) ≥ k (Eq. 3.3).A descendência direta k-fértil de um vértice u ∈ V é o conjunto:

D(k)(u) = {v ∈ D(u) : l+(v) ≥ k}, (3.12)

e a largura k-fértil de u é:

l(k)(u) = |D(k)(u)|. (3.13)

Neste contexto, o índice h de um vértice u é definido por:

h(u) = max{k ∈ N : l+(u), l(k)(u) ≥ k}. (3.14)1O índice h, proposta por Hirsch [2005], é uma métrica que combina quantidade (número de publicações) e

qualidade (número de citações) da produção acadêmica. Veja no Anexo C.3 um artigo redigido sobre a expansãodeste índice-h.

Page 39: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.1 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 15

3.1.8 Impacto – Proporção de descendentes diretos ou indiretos considerandoo conjunto total

Para verificar o quão importante um dado vértice é, em consideração a todo o conjunto degrafos de genealogia, utilizamos a métrica influência (i). A i é um valor entre 0 e 1, onde 0 significanenhuma influência e 1 representa o total da floresta. A ideia de influência está ligada à seguintepremissa: caso o vértice não exista qual seria a magnitude do conjunto de grafos resultante?

O cálculo da i leva em consideração a descendência total do vértice (f+) (Eq. 3.7) para estimarsua importância.

Dado um grafo de genealogia ~G, um vértice de interesse v ∈ V , a influência i(v) é dada por:

i(v) =f+(v)

|V | . (3.15)

3.1.9 Distância média – Média do tamanho dos caminhos existentes no grafo

A métrica distância média (dm) classifica a topologia do grafo constituído a partir de um vérticede interesse (v), considerando a proximidade de v em relação a todos seus descendentes.

Na comparação entre grafos de genealogia, aqueles que possuem maiores valores para esta mé-trica podem ser considerados mais coesos, ou seja, o tamanho médio de seus caminhos (ramificações)é maior.

Para o cálculo da dm consideramos a somatória do número de caminhos de tamanho k divididopela somatória do número de caminhos totais, que resulta no tamanho médio dos caminhos nografo.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a dm(v) é dada por:

dm(v) =

∑nk=1

(c(k)(v).k

)∑n

k=1

(c(k)(v)

) , (3.16)

onde n é o tamanho do maior caminho no grafo.

3.1.10 Média dos menores caminhos

Similarmente à dm, a métrica média dos menores caminhos (mmc) fornece, conceitualmente,informação sobre a distância entre os elementos do grafo, porém com a utilização de uma ponderaçãodiferenciada.

Dado um grafo de genealogia ~G = (V,E), um vértice de interesse v ∈ V , a mmc(v) é dada por:

mmc(v) =

∑nk=1

(c(k)(v).k

)∑n

k=1

(c(k)(v)

).∑n

k=1

(c(k)(v)

)− 1

, (3.17)

onde n é o tamanho do maior caminho no grafo.

Page 40: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

16 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1

3.1.11 Pagerank inverso

A métrica Pagerank (descrita na seção 3.2.7), que tem como objetivo classificar as páginas Webde acordo com sua relevância na rede, transmite o seu valor para os vértices adjacentes ao vérticede interesse, o que resulta em uma classificação onde os vértices folha apresentam um maior valorpara essa métrica. Os vértices que têm maior impacto na composição de um grafo de genealogia sãoaqueles que deram origem ao grafo (vértice raíz), ou seja, no contexto dos grafos de genealogia, osvértices raíz possuem maior relevância que os vértices folha.

A métrica Pagerank inverso (pr−) tem por objetivo corrigir o fluxo de transmissão do valor doPagerank para os vértices raíz, resultando em uma classificação onde estes vértices sejam privilegi-ados [Bar-Yossef & Mashiach, 2008].

Dado um conjunto de grafos de genealogia ~G, atribui-se um valor inicial: pr−(v) =1

|V | paratodo v ∈ V . Dado um vértice de interesse v ∈ V , a ascendência de v é:

A(v) = {u ∈ V : (u, v) ∈ E},

a largura inversa de v é:

l−(v) = |A(v)|

e o Pagerank inverso é dado por:

pr−(v) =(1− q)

|V | +

q

u∈A(v)

pr−(u)l−(u)

, (3.18)

onde, q é um fator de amortecimento que representa uma probabilidade de, durante as iterações,ocorrer uma interrupção no ‘percurso’ pelas conexões entre os vértices. Para este trabalho utilizou-seq = 0, 85.

3.1.12 Pagerank inverso ponderado

A métrica pagerank inverso ponderado (prp−) tem por objetivo proporcionar uma dimensãoadicional ao conjunto de métricas, auxiliando na caracterização dos vértices do grafo de genealogia.Seu valor é obtido por meio da utilização da métrica pagerank inverso como fator de ponderação.Vértice com valores maiores de prp− são aqueles que possuem menos descendentes, já os vérticesque originam grandes grafos de genealogia possuem baixos valores para esta métrica.

O valor da métrica prp− considerado neste trabalho está definido por:

prp−(v) =1

pr−(v). (3.19)

Page 41: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.1 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 17

3.1.13 Balanceamento pela fecundidade

Um grafo de genealogia é considerado balanceado se suas ramificações (i.e., caminhos existentesdo vértice raíz até todos os vértices folha) apresentam escalas semelhantes. A métrica balanceamentopela fecundidade (bf) para o vértice v utiliza o desvio padrão dos valores da métrica fecundidadedos vértices adjacentes ao vértice v com o objetivo de classifica-lo segundo a magnitude dos grafosoriginados a partir de sua vizinhança. Vértices com valores baixos para bf são aqueles que possuemdescendentes com características de conexão similares.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , o conjunto dos valores dafecundidade dos vértices adjacentes à v é:

F (v) = {f+(u) : u ∈ D(v)} (3.20)

onde:

• f+(u) é a fecundidade de u (Eq. 3.7);

• D(v) é o conjunto de descendente de v (Eq. 3.2);

e o balanceamento pela fecundidade é dado por:

bf(v) = std (F (v)) (3.21)

onde std (F (v)) é o desvio padrão dos elementos do conjunto F .Os vértices w ∈ V que apresentam valores de bf(w) = 0 são aqueles que possuem grafos de

genealogia com um balanceamento perfeito, ou seja, todos os seus vértices adjacentes possuem omesmo número de descendendes. Valores de bf(w) > 0 indicam um desbalanceamento proporcionalao valor desta métrica. Para vértices que não apresentam adjacentes (i.e., d(w)− = 0), assumimosarbitrariamente que bf(w) = −1.

3.1.14 Balanceamento global

A análise de balanceamento de grafos de genealogia proposta pela utilização da métrica balan-ceamento pela fecundidade, apresentada anteriormente, tem como limitação a utilização de somenteuma única métrica (fecundidade) como parâmetro para definição do equilíbrio do grafo. Porém, estamétrica não permite medir este equilíbrio sob a ótica das demais métricas.

A métrica balanceamento global (bg) também tem por objetivo verificar o balanceamento degrafos, entretanto utiliza todo o conjunto de métricas disponíveis para este fim.

O cálculo da métrica bg é realizado em algumas etapas. Primeiramente, realiza-se uma norma-lização (min-max) [Ding et al., 2001] dos valores de todas as métricas adjacentes a um vértice deinteresse, com o objetivo de harmonizar as escalas das métricas.

Seja um conjunto de grafos de genealogia ~G onde mvi é o valor da métrica i do vértice v ∈ V ,

os valores normalizados 0 ≤ ||mvi || ≤ 1 para as métricas são dados por:

Page 42: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

18 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.2

||mui || =

mui −mu

min

mumax −mu

min

: u ∈ D(v). (3.22)

O próximo passo consiste em calcular a distância euclidiana [Neto & Moita, 1998] entre osconjuntos de valores de métricas normalizados e suas respectivas médias ||mi||.

DE(v) = {dei(||mui ||) =

√∑(||mi|| − ||mu

i ||)2 : u ∈ D(v)}. (3.23)

O valor de bg(v) com v ∈ V é dado por:

bg(v) = std (DE(v)) , (3.24)

onde dei é a distância euclidiana do conjunto de métricas normalizadas do vértice u e std (DE(v))

é o desvio padrão dos valores das distâncias euclidianas obtidas.A interpretação do resultado da métrica balanceamento global e a tratativa para vértices que

não possuem descendência, seguem as mesmas diretrizes descritas para a métrica balanceamentopela fecundidade.

Aqui é importante destacar que a métrica de balanceamento global, ainda que inclusa nestaseção dedicada às métricas de composição descendentes, possui composição mista. O processo deobtenção dos valores de bg considerou ambos os grupos de métricas, as de composição descendentee ascendente, este último grupo é detalhado na seção que segue.

3.2 Métricas de composição ascendente

Em um estudo de caso realizado com o grafo genealógico de Johann Bernoulli e aplicando-se partedas métricas topológicas, descritas anteriormente [Rossi & Mena-Chalco, 2014a], observou-se que amaioria dos vértices analisados (80,69%) não possuiam descendentes, ou seja, a maior parte da grafoé composta por vértices folha. Com a utilização somente de métricas de composição descendente,diferenciar este conjunto de vértices folha é uma tarefa que não é possível de se realizar, pois não hálinhagem que possibilite o cálculo das métricas de composição descendente. Porém, considerandoque cada vértice do grafo de genealogia possui ancestrais (ascendência) diferentes, pode-se suporque mesmo vértices folha podem ser distintos entre si devido à influência de seus ancestrais.

No contexto acadêmico-científico, mais precisamente para as relações de orientação acadêmica,a qualidade da orientação impacta na formação do orientado [Malmgren et al., 2010]. Assim alunosque tiveram orientações diferentes tendem a apresentar desempenhos também diferentes.

Para possibilitar a diferenciação entre os vértices pertencentes a um grafo de genealogia, emespecial os vértices folha, utilizamos um conjunto de métricas de composição ascendente. Esteconjunto utiliza a ascendência de um indivíduo para a composição do valor da métrica, ou seja, ospais, avós, e demais ascendentes, com o objetivo de identificar como um determinado vértice foiimpactado pelas relações de orientação que recebeu. Trata-se de uma visão anterior à origem do

Page 43: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.2 MÉTRICAS DE COMPOSIÇÃO ASCENDENTE 19

indivíduo analisado.A diferença fundamental nos cálculos das métricas, para os dois grupos apresentados, está na

forma de se caminhar (ou percorrer) no grafo. Para as métricas de composição descendente utiliza-mos a orientação original das arestas, ou seja, caminhamos da origem para o destino, sendo origem ovértice inicial e destino um vértice adjacente que esteja ligado à origem por uma aresta direcionada.O cálculo das métricas de composição ascendente foram realizados com as arestas invertidas, ouseja, também caminhamos da origem para o destino, porém, sendo origem o vétice inicial e destinoum vértice adjascente que esteja ligado à origem por uma aresta direcionada invertida.

Os antecessores de um vértices são comumente chamados de território inverso (ou anti-território).Dado uma grafo de genealogia ~G e um vértice de interesse v ∈ V , o território inverso de v é definidopor:

T−(v) = {u ∈ V : ∃(u, v)− caminho em G} (3.25)

O principal objetivo deste grupo de métricas é possibilitar a caracterização de parte impor-tante dos vértices das grafos de genealogia que não possuem descendentes, aumentando assim apossibilidade de se obter conhecimento sobre estas estruturas.

3.2.1 Fecundidade inversa – número de ascendentes diretos ou indiretos

A métrica fecundidade inversa (f−) considera o total de vértices que precederam um vértice deinteresse, ou seja, contabiliza os pais, avós e os demais ascendentes de um dado vértice. A f− é umaimportante medida visto que agrega o total de vértices que, direta ou indiretamente, participaram daformação de um determinado vértice de interesse. Possibilita, também, a identificação de vérticesprimos (vértices que possuem ascendentes comuns e estão no mesmo nível) e analisar possíveiscorrelações entre seus atributos.

Dado uma grafo de genealogia ~G e um vértice de interesse v ∈ V , a métrica f− é definida por:

f−(v) = |T−(v)|. (3.26)

3.2.2 Fecundidade média do território inverso – influência normalizada de as-cendentes diretos e indiretos

A f− estima o total de vértices que estão conectados, direta ou indiretamente, a um determinadovértice de interesse, porém essa métrica não diferencia os vértices do território inverso entre si,portanto apresenta uma abordagem quantitativa. Para considerarmos o quão importante é umvértice que pertence à ascendência de outro e tranferir esta relevância para este vértice utilizamosa fecundidade média do território inverso (fmT−). A fmT− representa o valor médio das f+

individuais dos vértices que participam no território inverso do vértice em questão, transferindopara este vértice a relevância da qual seus antecessores fazem jus.

Page 44: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

20 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.2

No contexto acadêmico, dois indivíduos podem ter a mesma quantidade de ancestrais, porém,cada ancestral apresenta resultados, em termos de orientação acadêmica, diferentes entre si que, emtese, influenciaram estes indivíduos de formas diferentes.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a métrica fmT− é dada por:

fmT−(v) =1

f−(v)

w∈T−(v)f+(w). (3.27)

3.2.3 Fecundidade ponderada média do território inverso

Similarmente à fmT−, a fecundidade ponderada média do território inverso (fpmT−) representao valor médio das fp individuais dos vértices que participam no território inverso do vértice emquestão. A principal diferença entre estas duas medidas é a utilização de bases diferentes em suascomposições. Conforme discutido anteriormente, a f+ representa a quantidade total de descendentesdiretos ou indiretos enquanto a fp, devido ao seu fator de ponderação, estima de forma maisabrangente a importância de um vértice no grafo.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a métrica fpmT− é definidapor:

fpmT−(v) =1

f−(v)

w∈T−(v)fp(w). (3.28)

3.2.4 Número de ascendentes origem – Vértices sem ascendência

Um grafo de genealogia não é, comumente, originado de um único vértice raiz. Pode-se encontrargrafos que possuem mais de um vértice de origem. A principal característica de um vértice origemé a ausência de ascendentes (d(v)+ = 0). Esta métrica representa o número de ascendentes que, porsua vez, não tiveram ascendentes. A métrica dá a ideia do número de antecessores que influenciaramo vértice.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , o conjunto O(v) dos vérticesorigem é definido por:

O(v) = {u ∈ T−(v) : d(u)+ = 0} (3.29)

neste contexto, a métrica no(v) é definida por:

no(v) = |O(v)|. (3.30)

3.2.5 Largura inversa – Número de ascendentes diretos

A métrica largura inversa (l−) de um vértice pode ser definida como o número de vérticesexistentes em seu território inverso que estão diretamente conectados, por uma aresta direcionada,

Page 45: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.2 MÉTRICAS DE COMPOSIÇÃO ASCENDENTE 21

ao vértice de interesse. Esta métrica representa o número total de orientadores diretos do vérticeem questão.

Dado um grafo de genealogia ~G, e um vértice de interesse v ∈ V , a ascendência de v é:

A(v) = {u ∈ V : (u, v) ∈ E}, (3.31)

a largura inversa de v é:

l−(v) = |A(v)|. (3.32)

3.2.6 Profundidade inversa – Número de gerações ascendentes

Todo vértice em um grafo de genealogia pertence a uma linhagem de outros vértices que o prece-deram, exceto os vértices origem, que não possuem ascendente. Em certo contexto, as característicasde um vértices podem ser, total ou parcialmente, transmitidas para um vértice adjacente. Este com-portamento pode nos indicar que algumas características, as mais dominantes, se perpetuam pelografo devido às conexões existentes.

A métrica profundidade inversa (p−) é uma medida que apresenta o maior número de vérticesque precederam um vértice de interesse e são conectados em um único caminho. Em outras palavras,esta métrica é o tamanho do maior caminho existente no grafo de genealogia de um dado vértice eum vértice origem, representando assim o número de gerações ascendentes de um vértice.

Dado um grafo de genealogia ~G e um vértice de interesse v ∈ V , a profundidade inversa p−(v)

é dada pelo caminho de maior comprimento k dentre os caminhos possíveis entre v e u ∈ O(v), ouseja:

p−(v) = max{k ∈ N : ∃(u, v)− caminho em G, ∀u ∈ O(v)}. (3.33)

3.2.7 Pagerank

A métrica Pagerank foi originalmente desenvolvida por Larry Page e Sergey Brin [Page et al.,1999], fundadores do Google, com o objetivo de classificar as páginas Web de acordo com suarelevância na rede. Cada vértice representa uma página e cada aresta um link entres elas. Aspáginas com maiores valores de Pagerank são aquelas que: (i) têm maior número de páginas comlink’s direcionados para si e/ou (ii) estas páginas conectadas apresentam alto valor para a métrica.O cálculo do Pagerank é feito de forma iterativa, onde as páginas são inicializadas com um valorespecífico para a métrica e, após cada iteração, este valor é recalculado até que se obtenha resultadosestáveis de acordo com um limiar de convergência pré-estabelecido.

No contexto deste trabalho, a métrica pagerank (pr) mantém seu objetivo original, ou seja,classificar os vértices de um grafo segundo suas ligações, diferenciando-se somente as característicado grafo utilizado que, para este caso, é um conjunto de grafos de genealogia.

Page 46: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

22 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.3

Dado um conjunto de grafos de genealogia ~G, atribui-se um valor inicial: pr(v) =1

|V | para todo

v ∈ V . Dado um vértice de interesse v ∈ V , o pr(v) é obtido por:

pr(v) =(1− q)

|V | +

q

u∈D(v)

pr(u)

l+(u)

, (3.34)

em que:

• q é um fator de amortecimento que representa uma probabilidade de, durante as iterações,ocorrer uma interrupção no “percurso” pelas conexões entre os vértices (para este trabalhoutilizou-se q = 0, 85);

• l+(u) é a largura do vértice u (Eq. 3.3);

• D(v) é a descendência do vértice v (Eq. 3.2).

Em grafos que possuem ciclos o cálculo do pagerank é finalizado após n iterações até que umlimiar de convergência seja atingido. Para os grafos de genealogia, devido à ausência de ciclos,foi utilizado n = 10 iterações, visto que, em testes empíricos, observou-se uma estabilidade nosresultados a partir de 3 iterações.

3.2.8 Pagerank ponderado

A métrica pagerank ponderado (prp) tem por objetivo proporcionar uma dimensão adicional aoconjunto de métricas, auxiliando na caracterização dos vértices da grafo de genealogia. Seu valoré obtido por meio da utilização da métrica pagerank como fator de ponderação. Neste contexto, amétrica prp é definida por:

prp(v) =1

pr(v). (3.35)

3.3 Métricas limitadas por janelas

A aplicação das métricas, descritas anteriormente, têm por objetivo a diferenciação dos vérticesde um grafo de genealogia. Entretanto algumas métricas (e.g., fecundidade e fecundidade inversa)têm seus resultados impactados em função da posição do vértice na grafo.

Utilizando o contexto acadêmico como exemplo, onde os vértices representam orientadores e/ouorientados, e as arestas os relacionamentos de orientação, um acadêmico que viveu e orientou alunosno século XIX tende a ser privilegiado se comparado a outro que iniciou sua carreira nos anos 1980.Ainda que o acadêmico mais contemporâneo tenha um excelente desempenho, seria difícil haveruma equiparação quantitativa com relação ao acadêmico secular.

Com o objetivo de minimizar a ação do tempo nos resultados de algumas métricas, seus cálculosforam feitos limitando o território e o território inverso dos vértices analisados. Nesta dissertação

Page 47: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.4 MÉTRICAS LIMITADAS POR JANELAS 23

esta limitação é denominada janela. Uma janela de tamanho 5, por exemplo, permite que os cálculosdas métricas descendentes e ascendentes sejam limitados a vértices que estejam contidos em umcaminho, a partir do vértice de interesse, de tamanho menor ou igual a 5, em ambos os sentidos.

A Figura 3.1 exemplifica a seleção dos vértices considerados para o cálculo dos valores dasmétricas para janelas de tamanhos 1 a 4, tanto para o território do vértice de interesse, quanto paraseu território inverso.

TE

RR

ITÓ

RIO

INV

ER

SO

JAN

ELA

1

JAN

ELA

2

JAN

ELA

3

JAN

ELA

4

TE

RR

ITÓ

RIO

T

ER

RIT

ÓR

IOT

ER

RIT

ÓR

IO

Figura 3.1: Grafo de genealogia, com a representação da abrangência de janelas de tamanhos 1 a 4, parao cálculo das métricas do vértice de interesse (destacado em vermelho).

A utilização das janelas pode tornar a diferenciação dos vértices de um grafo de genealogia maisefetiva, equilibrando os valores das métricas e minimizando o fator tempo, quando as métricas sãoaplicadas em um contexto não teórico (e.g., acadêmicos e relacionamentos de orientação).

A título de ilustração, as Figuras 3.2 e 3.3 apresentam um exemplo de um conjunto de grafos degenealogia contendo duas componentes conexas, sendo que uma delas possui 1 vértice e a outra 10vértices. Para cada vértice foram calculados as métricas de composição descendente e ascendente,considerando janelas de abrangência de tamanhos 1, 2 e 3.

Page 48: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

24 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.4

3.4 Taxonomia das métricas

Cada uma das métricas topológicas, propostas nesta dissertação, possuem características e ob-jetivos específicos. A Figura 3.4 (parte superior) apresenta as principais características individuaisdestas métricas.

Nesta dissertação foram consideradas um total de 22 métricas, das quais 13 são de composiçãodescendente, 8 de composição ascendente e 1 de composição mista.

A utilização de janelas como limite de abrangência do cálculo das métricas não impacta todaselas, por exemplo, a métrica largura independe da abrangência da janela no processo de obtenção deseu valor, exceto os vértices folha que não possuem valores de métricas de composição descendente.Por outro lado, a métrica número de folhas depende da abrangência da janela para a obtenção deseu valor, ou seja, o mesmo vértice pode apresentar valores diferentes, para esta medida, em funçãoda janela utilizada.

A classificação das métricas, de acordo com sua dependência das janelas utilizadas, é apresentadano quadro resumo na Figura 3.4. Das 22 métricas, 15 são dependentes do tamanho da janelaconsiderada no processo de cálculo de seus valores.

Os valores de algumas métricas são obtidos por meio do uso de valores de outras. Um exemplo demétrica dependente é a fecundidade ponderada, que utiliza a fecundidade como elemento de cálculo.Por outro lado, a métrica largura é, neste contexto, independente, pois não utiliza nenhum outrovalor de métrica para seu cálculo.

No conjunto de métricas propostas, 10 delas são dependentes de outras medidas para a compo-sição de seu valor. Também são 10 as métricas cujos valores são discretos (veja a Figura 3.4).

Page 49: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.4 TAXONOMIA DAS MÉTRICAS 25

MÉTRICA TAMANHO VÉRTICES (v)DE JANELA A B C D E F G H I J K

1 2 1 3 1 1 1 1 0 0 0 0l+(v) 2 2 1 3 1 1 1 1 0 0 0 0

3 2 1 3 1 1 1 1 0 0 0 01 0 0 1 1 1 1 1 0 0 0 0

nf(v) 2 1 1 3 1 1 1 1 0 0 0 03 3 1 3 1 1 1 1 0 0 0 01 1 1 1 1 1 1 1 0 0 0 0

p+(v) 2 2 2 2 1 1 1 1 0 0 0 03 3 2 2 1 1 1 1 0 0 0 01 2 1 3 1 1 1 1 0 0 0 0

f+(v) 2 6 2 5 1 1 1 1 0 0 0 03 8 2 5 1 1 1 1 0 0 0 01 2,00 1,00 3,00 1,00 1,00 1,00 1,00 0,00 0,00 0,00 0,00

fp(v) 2 3,00 1,25 3,50 1,00 1,00 1,00 1,00 0,00 0,00 0,00 0,003 3,22 1,25 3,50 1,00 1,00 1,00 1,00 0,00 0,00 0,00 0,001 2 1 3 1 1 1 1 0 0 0 0

ml(v) 2 4 1 3 1 1 1 1 0 0 0 03 4 1 3 1 1 1 1 0 0 0 01 1 1 1 0 0 0 0 0 0 0 0

h(v) 2 1 1 1 0 0 0 0 0 0 0 03 1 1 1 0 0 0 0 0 0 0 01 0,20 0,10 0,30 0,10 0,10 0,10 0,10 0,00 0,00 0,00 0,00

i(v) 2 0,60 0,20 0,50 0,10 0,10 0,10 0,10 0,00 0,00 0,00 0,003 0,80 0,20 0,50 0,10 0,10 0,10 0,10 0,00 0,00 0,00 0,001 1,00 0,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

dm(v) 2 1,67 1,50 1,40 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,003 2,00 1,50 1,40 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,001 0,33 0,50 0,25 0,50 0,50 0,50 0,50 0,00 0,00 0,00 0,00

mmc(v) 2 0,24 0,50 0,23 0,50 0,50 0,50 0,50 0,00 0,00 0,00 0,003 0,22 0,50 0,23 0,50 0,50 0,50 0,50 0,00 0,00 0,00 0,001 0,09 0,03 0,06 0,02 0,02 0,02 0,03 0,01 0,01 0,01 0,01

pr−(v) 2 0,09 0,03 0,06 0,02 0,02 0,02 0,03 0,01 0,01 0,01 0,013 0,09 0,03 0,06 0,02 0,02 0,02 0,03 0,01 0,01 0,01 0,011 11,36 33,16 17,42 51,46 51,46 51,46 39,64 73,33 73,33 73,33 73,33

prp−(v) 2 11,36 33,16 17,42 51,46 51,46 51,46 39,64 73,33 73,33 73,33 73,333 11,36 33,16 17,42 51,46 51,46 51,46 39,64 73,33 73,33 73,33 73,331 1,00 0,00 0,47 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,00

bf(v) 2 1,50 0,00 0,47 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,003 1,50 0,00 0,47 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,001 0,00 0,00 0,64 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,00

bg(v) 2 0,00 0,00 0,64 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,003 0,00 0,00 0,64 0,00 0,00 0,00 0,00 -1,00 -1,00 -1,00 -1,00

Figura 3.2: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricasde composição descendente, calculadas para janelas de tamanhos 1, 2 e 3.

Page 50: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

26 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.4

MÉTRICA TAMANHO VÉRTICES (v)DE JANELA A B C D E F G H I J K

1 0 1 1 0 1 1 1 2 2 1 0f−(v) 2 0 1 1 0 2 2 2 3 4 2 0

3 0 1 1 0 2 2 2 3 5 3 01 0,00 2,00 2,00 0,00 1,00 3,00 3,00 2,00 1,00 1,00 0,00

fmT−(v) 2 0,00 6,00 6,00 0,00 4,00 5,50 5,50 4,00 2,25 3,00 0,003 0,00 8,00 8,00 0,00 5,00 6,50 6,50 4,67 3,40 4,67 0,001 0,00 2,00 2,00 0,00 1,00 3,00 3,00 2,00 1,00 1,00 0,00

fpmT−(v) 2 0,00 3,00 3,00 0,00 2,12 3,25 3,25 2,50 1,69 2,25 0,003 0,00 3,22 3,22 0,00 2,24 3,36 3,36 2,57 1,99 2,57 0,001 0 1 1 0 0 0 0 1 0 0 0

no(v) 2 0 1 1 0 1 1 1 2 0 0 03 0 1 1 0 1 1 1 2 1 1 01 0 1 1 0 1 1 1 2 2 1 0

l−(v) 2 0 1 1 0 1 1 1 2 2 1 03 0 1 1 0 1 1 1 2 2 1 01 0 1 1 0 1 1 1 1 1 1 0

p−(v) 2 0 1 1 0 2 2 2 2 2 2 03 0 1 1 0 2 2 2 2 3 3 01 0,01 0,02 0,02 0,01 0,03 0,02 0,02 0,03 0,06 0,03 0,01

pr+(v) 2 0,01 0,02 0,02 0,01 0,03 0,02 0,02 0,03 0,06 0,03 0,013 0,01 0,02 0,02 0,01 0,03 0,02 0,02 0,03 0,06 0,03 0,011 73,33 51,46 51,46 73,33 33,16 52,24 52,24 32,54 18,01 33,44 73,33

prp+(v) 2 73,33 51,46 51,46 73,33 33,16 52,24 52,24 32,54 18,01 33,44 73,333 73,33 51,46 51,46 73,33 33,16 52,24 52,24 32,54 18,01 33,44 73,33

Figura 3.3: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricasde composição ascendente, calculadas para janelas de tamanhos 1, 2 e 3.

Page 51: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

3.4 TAXONOMIA DAS MÉTRICAS 27

DEPENDENTE DERIVADA TIPO DEMÉTRICA SIGLA DE JANELA DE MÉTRICA VARIÁVEL

01 – Largura? l+ NÃO NÃO DISCRETA

02 – Número de folhas? nf SIM NÃO DISCRETA

03 – Profundidade? p+ SIM NÃO DISCRETA

04 – Fecundidade† f+ SIM NÃO DISCRETA

05 – Fecundidade ponderada‡ fp SIM SIM CONTÍNUA

06 – Maior largura‡ ml SIM NÃO DISCRETA

07 – Índice h genealógico/ h NÃO SIM DISCRETA

08 – Impacto‡ i SIM SIM CONTÍNUA

09 – Distância média‡ dm SIM NÃO CONTÍNUA

10 – Média dos menores caminhos‡ mmc SIM NÃO CONTÍNUA

11 – Pagerank inverso• pr− NÃO SIM CONTÍNUA

12 – Pagerank inverso ponderado‡ prp− NÃO SIM CONTÍNUA

13 – Balanceamento pela fecundidade‡ bf SIM SIM CONTÍNUA

14 – Balanceamento global‡ bg SIM SIM CONTÍNUA

15 – Fecundidade inversa‡ f− SIM NÃO DISCRETA

16 – Fec. média do território inverso‡ fmT− SIM SIM CONTÍNUA

17 – Fec. pond. média do território inverso‡ fpmT− SIM SIM CONTÍNUA

18 – Número de origens‡ no SIM NÃO DISCRETA

19 – Largura inversa‡ l− NÃO NÃO DISCRETA

20 – Profundidade inversa‡ p− SIM NÃO DISCRETA

21 – Pagerank◦ pr+ NÃO NÃO CONTÍNUA

22 – Pagerank ponderado‡ prp+ NÃO SIM CONTÍNUA

Figura 3.4: Descrição das principais características das métricas topológicas.

‡Desenvolvida para a dissertação. †Adaptada de David & Hayden [2012].•Adaptada de Bar-Yossef & Mashiach [2008] /Adaptada de Hirsch [2005]◦Adaptada de Page et al. [1999] ?Adaptada de Bondy & Murty [1976]

Page 52: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

28 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.4

Page 53: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 4

Sobre os dados utilizados

Os dados utilizados neste trabalho referem-se ao conjunto dos doutores em matemática e seusrelacionamentos de orientação acadêmica. Este tipo de estrutura, devido a suas características, écomumente denominada grafo (ou árvore) de genealogia acadêmica dos matemáticos.

O projeto de genealogia dos matemáticos (Mathematic Genealogy Project – MGP1) foi idealizadopor Harry Coonce, professor na North Dakota State University, no início da década de 1990 [Jackson,2007]. Esta plataforma tem como objetivo compilar informações sobre todos os matemáticos (e,nos últimos anos, acadêmicos de áreas afins) do mundo, por meio do registro histórico, via Web,dos indíviduos que obtiveram o título de doutor e seus respectivos alunos/doutores com formaçãoconcluída.

A plataforma do MGP é apresentada como ferramenta para a captação de novos registros epossibilita consulta à base de dados existente, que, em Abril de 2014, contava com mais de 178 mildoutores cadastrados de diversas partes do mundo. As informações que são possíveis de se obter,por meio da plataforma do projeto, são descritas a seguir.

• Nome completo do matemático;

• Nome da instituição e o nome do país onde foi obtida a titulação;

• Ano no qual o grau foi obtido;

• Título do trabalho defendido no doutorado;

• Número de classificação da área a qual o trabalho está relacionado (Mathematics SubjectClassification2);

• Lista de identificação do seu(s) orientador(es) e orientado(s);

• Número total de descendentes.1Disponível em: http://genealogy.math.ndsu.nodak.edu/2Classificador alfanumérico formulado pela American Mathematical Society utilizado para categorizar temas/tó-

picos da matemática, disponível em: http://www.ams.org/msc/msc2010.html

29

Page 54: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

30 SOBRE OS DADOS UTILIZADOS 4.1

Os registros do MGP são identificados por meio de um número de identificação exclusivo (id)para cada matématico. Os dados, que são objeto de estudo nesta dissertação, foram obtidos pormeio de consultas recursivas ao site do MGP, onde, com a utilização do id, obtivemos o (i) nomedo matemático, (ii) nome da instituição, (iii) nomde do país onde foi obtido o título, (iv) o ano detitulação, (v) a lista de todos os orientados cadastrados e (vi) o número de classificação da área deatuação.

A Figura 4.1 descreve o método utilizado para a obtenção dos dados do MGP. Por meio dofornecimento de um id obteve-se um documento em formato html do indivíduo em questão. Esteregistro, posteriormente, foi submetido a uma seleção dos dados de interesse, conforme descritoanteriormente. Após a obtenção e seleção de todos os registros disponíveis, estes dados estrutu-rados foram utilizados para povoar um banco de dados orientado à grafos, onde cada indivíduofoi representado por um vértice e cada relacionamento entre estes indivíduos foi representado poruma aresta direcionada. Os demais dados sobre o indivíduo foram armazenados como atributos dosvértices. Como informações nas arestas podem ser considerados o ano de titulação e o número declassificação de área.

registros ID’sPlataformaMGP

Dados genealógicos

registro html

Parâmetros

selecionados

Coleta de dados

registros

Grafos de genealogia

Figura 4.1: Fluxograma, ilustrativo, do método utilizado para a obtenção dos dados genealógicos.

Page 55: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.1 CONJUNTO DOS MATEMÁTICOS 31

4.1 Conjunto dos matemáticos

Em Abril de 2014 foram obtidos 178.698 registros de doutores em matemáticas e áreas afins e187.199 relacionamentos de orientação acadêmica, estes indivíduos estão distribuídos em 185 paísesou combinação destes (isso ocorre devido à declaração de dois países como local de titulação) e2.671 instituições ou combinações destas.

O primeiro registro data de 1363, na França, e segue até os dias atuais, conforme ilustrado naFigura 4.2, onde os gráficos apresentam a evolução do número de Doutores nos respectivos anos deobtenção do título.

Para possibilitar a análise do crescimento do número de matemáticos, o período total de abran-gência do MGP (1363-2013) foi dividido em quatro intervalos (1363-1600, 1601-1800, 1801-1900 e1901-2013), onde observa-se as contagens anual e acumulada.

O ano de 2014 apresentou, até Abril, um total de 199 novos registros de doutores. Estes nãoforam considerados na evolução pois referem-se à um período ainda incompleto.

��

���

���

����

����

����

����

���

����

���

����

����

����

���

���

����������� ����

���������������� �������������

��

���

���

���

���

���

���

���

����

���

���

����

���

���

��

��

���

���

���

����������� ����

���������������� �������������

��

��

��

��

��

��

���

����

����

����

����

����

����

����

���

����

���

����

����

����

���

����

���

���

����������� ����

���������������� �������������

����

����

����

����

����

����

�����

������

������

������

���

��

��

���

���

���

��

��

���

��

���

��

����

����

����������� ����

���������������� �������������

Figura 4.2: Crescimento do número de matemáticos que obtiveram o título de doutor através dos anos.

Os registro observados no MGP não são completos em sua totalidade. Do total de 178.698registros em 167.915 (93,97%) encontramos a declaração do país e da instituição onde foi obtido otítulo de doutor e em 167.643 (93,81%) encontramos o ano da titulação.

As Tabelas A.1 e A.1, disponíveis no Apêndice A, apresentam os resultados dos 20 paísescom maior número de matemáticos cadastrados no MGP e suas respectivas instituições melhorescolocadas segundo a quantidade de titulações realizadas. As quatro primeiras colunas identificamos países, com sua posição e seu nome seguido do número de matemáticos que obtiveram a titulaçãonaquela localidade e a porcentagem correspondente ao total da base de dados. Nas últimas quatro

Page 56: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

32 SOBRE OS DADOS UTILIZADOS 4.2

colunas observamos a posição e o nome da instituição pertencente aquele país, o número de doutorestitulados e sua representação percentual referente ao total de doutores daquele país.

O maior grupo de doutores em matemática é encontrado nos EUA3. Observamos 81.353 mate-máticos titulados nas intituições norte-americanas. Entre elas a mais representativa é a Universidadeda California, onde mais de 4% dos matemáticos norte-americanos obtiveram suas titulações.

O Brasil figura como 12o colocado com 1.615 matemáticos cadastrados no MGP (aproximada-mente 0,90% do total) e sua instituição com maior representatividade, neste critério, é a Universi-dade de São Paulo (USP) com 428 matemáticos4.

A relação completa dos países e suas respectivas instituições estão disponíveis em: https://sites.google.com/site/lucianorossihomepage/.

4.2 Relacionamentos de orientação acadêmica

Uma análise importante sobre as relações de orientação acadêmica, encontradas no MGP, édescrita na dissertação de mestrado de Narayan [2011] (Universidade de Oxford), onde buscou-se verificar a tendência de matemáticos em se relacionarem, por meio de orientação com outrosindivíduos, levando-se em consideração o número de alunos que ambos tiveram. Esse conceito,denominado assortividade, é muito utilizado em redes sociais para se verificar a correlação existenteentre atributos de indivíduos pertencentes à rede analisada [Newman, 2002]. A Figura 4.3 apresentauma matriz de relacionamento onde cada célula representa, por meio de sua coloração, a quantidadede relacionamentos existentes entre dois indivíduos que têm k e j filhos respectivamente. O cálculodos valores apresentados é dado por:

e(j,k) =|E(k−1),(j−1)|

|E| , (4.1)

para j, k = {1, 2, ..., n + 1}, em que E(k,j) é a quantidade de relacionamentos existentes entre ummatemático que orientou k alunos e seus filhos acadêmicos que registram j orientados, E é o total derelacionamentos existentes e n é o maior número de relacionamentos pertencente à um matemáticoda base de dados em questão.

As células na cor azul representam valores altos para a quantidade de relacionamentos. Vale notarque, a célula e(10, 0) apresenta um valor alto, 0, 0266 (célula na cor azul), esse valor representa arazão entre o número de relacionamentos observados e o total de relacionamentos existentes. Osrelacionamentos observados são aqueles entre um orientador com 10 alunos orientados que, porsua vez, não orientaram alunos. A célula e(10, 10) apresenta um valor baixo, 0, 00013 (célula nacor verde claro) que representa o número de relacionamentos entre orientador e orientado em que,ambos, tiveram 10 alunos, divido pelo total de relacionamentos existentes. Por outro lado, o valor

3As informações apresentadas na Tabela A.1 forão grafadas respeitando a declaração realizada no MGP.4Esta contagem incluí somente os matemáticos cuja declaração da instituição foi grafada como Universidade de

São Paulo.

Page 57: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.4 MATHEMATICS SUBJECT CLASSIFICATION 33

da célula e(10, 100) é igual a zero e indica que não existem orientadores com 10 alunos orientadosque, por sua vez, orientaram 100 alunos.

A Figura 4.3 sugere que, para o conjunto de dados analisado, os relacionamentos mais ob-servados são aqueles entre orientador com até 30 alunos orientados que não realizaram orientação(estas combinações apresentam acima de 1.000 ocorrências). As ocorrências diminuem à medida quebuscamos orientadores com maior número de alunos orientados e, diminuem ainda mais, quandoconsideramos maiores quantidades de orientações realizadas pelos alunos.

� � � � � � � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � �� �� �� �� �� �� �� �� � � � � � � � � � � � � � � � � � � ��� ��� ��� ��� ��� ��� ��� ��� �� �� ��� ��� ��� ��� ��� ��� ��� ��� �� �� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ��� ���

���

���

���

���� ���� �� �� �� � � ��� ��� ����

���

� ����������������������������������

� ����������������������������������������������������

� �����������������������������������

���

���

���

��

��

��

��

��

��

��

Figura 4.3: Matriz de correlações (assortividade) entre matemáticos e seus orientados. A cor da célulasrepresenta a quantidade de relacionamentos observados entre indivíduos com k alunos (eixo horizontal) e jalunos (eixo vertical) respectivamente.

4.3 Mathematics Subject Classification

De acordo com a declaração da missão do Mathematics Genealogy Project, disponível na suapágina web, o termo matemática é utilizado de forma geral, podendo incluir doutores em áreas doconhecimento distintas. Um atributo disponível nos registros do MGP que permite a identificaçãoda área de atuação do acadêmico registrado é a Mathematics Subject Classification (MSC).

A MSC é um esquema de classificação alfanumérico e hierárquico, desenvolvido com o objetivode facilitar a classificação de publicações científicas da área. O registro desta informação no MGPé limitada ao primeiro nível de especificação.

A maioria dos registros (55,76%) apresentam o código “00” ou a ausência da identificação doMSC. A Figura 4.4 apresenta as dez classificações mais observadas.

A relação completa dos registros classificados pela MSC está disponível no conjunto de dadosconsiderado apresentada nas Tabelas A.3 e A.3 do Apêndice A.

Page 58: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

34 SOBRE OS DADOS UTILIZADOS 4.4

Figura 4.4: As 10 principais áreas de atuação declaradas no “MGP”. Os registros classificados como “Gene-ral” referem-se, também, à ausencia da declaração na base de dados. A grafia das categorias foi mantida emconcordância com a representação disponível em: http://www.ams.org/msc/ pdfs/ classifications2010.pdf .

4.4 Grupos e escolas matemáticas

Os registros dos matemáticos cadastrados na plataforma do MGP possuem diversos atributos,como descrito anteriormente. O atributo país é referente ao local onde o matemático obteve suatitulação e não ao local de seu nascimento. Podemos encontrar alguns exemplos onde o local datitulação é diferente do local de nascimento do matemático. Sofya Kovalevskaya titulou-se na Ale-manha, porém seu país natal é a Russia. O húngaro Alfred Haar obteve sua titulação, também, naAlemanha [Chang, 2011].

No contexto desta dissertação, podemos agrupar os matemáticos pelo atributo país que eleapresenta. Há, ainda neste contexto, duas possibilidades de realizar este agrupamento: (i) levando-seem consideração a declaração referente à este atributo na base de dados (grupo) ou (ii) considerando-se os relacionamentos de orientação acadêmica (escola). Para a segunda possibilidade, a escola deum matemático é definida pelo local de titulação de seu ancestral direto (orientador), já a escoladeste orientador é definida pelo local de titulação de seu ancestral. Este processo é repetido deforma sequencial até que se encontre um matemático que não apresenta ancestral (vértice origem).

Neste exercício de análise, um matemático que não apresenta ancestral é denominado origem.No contexto das métricas, descritas no Capítulo 3, um vértice origem é aquele que apresenta o valor0 como resultado da métrica profundidade inversa. Uma escola pode ser definida como um conjuntode vértices origem, agrupados pelo compartilhamento do mesmo atributo país, e suas respectivasdescendências, independente do local de titulação dos descendentes. Por outro lado, define-se grupocomo um conjunto de vértices agrupados em função de seu país de titulação.

O grafo de genealogia acadêmica, constituído a partir dos dados da plataforma MGP, apresentaum total de 71 escolas constituídas por 9.677 origens5 e suas respectivas descendências, identificadaspelo método descrito anteriormente. Estas escolas são descritas nas Tabelas A.2 e A.2, no Apêndice

5Não foram consideradas as origens cuja declaração do país de titulação foi omitida.

Page 59: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.4 GRUPOS E ESCOLAS MATEMÁTICAS 35

A, onde temos: seus nomes, sua linhagem total, o número de origens que a compõem, a média dematemáticos por origem e a representação percentual do total de matemáticos na escola (linhageme origens) pelo total de matemáticos na base de dados (178.698).

Um caso interessante, considerando-se a comparação entre a magnitude do grupo e da escola, éo norte-americano. Os EUA, em números absolutos, são o primeiro país em quantidade de matemá-ticos titulados em suas instituições, conforme descrito na Tabela A.1 (Apêndice A). Sob o ponto devista das escolas (origem histórica dos indivíduos), a norte-americana é apenas a 8a colocada apesarde apresentar 3.992 origens. Este alto número de origens se deve ao fato de que a escola americanaé relativamente nova, quando comparada às escolas européias, e grande parte dos matemáticostitulados neste país têm, em sua ascendência, algum orientador pertencente a outras escolas.

O Brasil apresenta uma situação semelhante à dos EUA. Em número de titulações ocorridas eminstituições brasileiras, o Brasil é o 12o colocado. Observando as características da escola brasileira,temos 14 origens e somente um matemático em sua linhagem. O restante dos matemáticos tituladosno Brasil pertencem a outras escolas, ou seja, seus orientadores, diretos ou indiretos, não pertencemà escola brasileira.

Podemos classificar os matemáticos, no contexto das escolas às quais pertencem, em dois grupos:(i) os matemáticos que apresentam uma única origem (escola) e (ii) aqueles oriundos de diversasorigens (escolas). Pertencem ao primeiro grupo aqueles que apresentam, em sua linhagem ascen-dente, apenas indivíduos oriundos de uma única escola, ou seja, tanto a escola quanto o local datitulação fazem referência ao mesmo país. Já o segundo grupo, descende de matemáticos de duas oumais escolas distintas e ainda podem divergir quanto ao local de titulação de seus membros. Assimsendo, os matemáticos com diversas origens são aqueles que tiveram dois ou mais orientadores deescolas diferentes, seja no nível imediatamente superior ou nos demais níveis ascendentes dos grafos.

Um matemático pode pertencer a duas ou mais escolas simultâneamente quando há interseçãode uma ou mais escolas. A interseção de escolas ocorre quando um matemático recebe orientaçãoacadêmica direta de dois ou mais orientadores de escolas diferentes. Este matemático é o ponto, apartir do qual, diferentes escolas compartilham os mesmos matemáticos.

Para a identificação das escolas das quais os matemáticos fazem parte, podemos utilizar umvetor binário onde cada posição identifica uma escola. Caso o matemático pertença àquela escola,associa-se à posição correspondente o valor 1, caso contrário associa-se o valor 0.

A Figura 4.5 apresenta um diagrama de Venn a título de ilustração. Neste diagrama as trêsescolas (A, B e C) apresentam áreas de interseção simultânea. O número de áreas resultantes destasinterseções é dado por 2r−1, onde a base binária corresponde a presença (1) ou ausência (0) de umelemento e r é o número de escolas. Definimos a localização de um elemento do conjunto analisadopor meio de um vetor binário. Caso um determinado elemento pertença, simultâneamente, às trêsescolas, ele se localiza na área representada pelo vetor [1,1,1], ou seja, este elemento está presentenas escolas A, B e C. Para um elemento que está presente apenas na escola C e não está presenteem A e B, o vetor da área correspondente é [0,0,1]. Os vértices de origem única são identificadospelos vetores onde somente uma posição contem o valor de 1.

Page 60: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

36 SOBRE OS DADOS UTILIZADOS 4.4

Figura 4.5: Diagrama de Venn das interseções possíveis entre três escolas e os vetores binários que carac-terizam as possíveis áreas que compartilham elementos.

Os vetores binários correspondentes aos matemáticos da plataforma MGP têm 71 posições.Cada posição refere-se a uma das escolas identificadas na base de dados e apresentadas nas Ta-belas A.2 e A.2 (Apêndice A). Para consulta do número de matemáticos pertencentes às diver-sas combinações possíveis de escolas, os dados estão disponíveis em: https://sites.google.com/site/lucianorossihomepage/.

A identificação dos grupos e escolas matemáticas é importante para o entendimento sobre acomposição do conjunto de grafos de genealogia matemática e suas características. Matemáticos quepertencem ao mesmo grupo (mesmo país de titulação) podem pertencer a escolas distintas, ou ainda,a um conjunto destas escolas. Se admitirmos que um relacionamento de orientação acadêmica podeimpactar na formação de um indivíduo, perpetuando características do orientador no orientado,então indivíduos pertencentes a uma mesma escola podem, em algum nível, compartilhar as mesmascaracterísticas.

A conjunto de grafos de genealogia dos matemáticos é, em sua maior parte, o resultado dainterseção de escolas diferentes. As interseções das escolas formam grupos específicos que, em teoria,compartilham características.

Utilizando o vetor binário, descrito anteriormente, para cada matemático analisado, foi iden-tificada a(s) escola(s) que influenciou estes matemáticos e como estas influenciaram os diferentesgrupos de matemáticos.

A Figura 4.6 apresenta os gráficos de influência entre as escolas e os grupos identificados. Paraesta representação utilizamos os 20 maiores grupos do conjunto de dados (Tabela A.1). Cada gráficorepresenta a influência sob dois aspectos. Para cada radar chart temos a influência que esta escolaexerceu sobre os 20 maiores grupos da base de dados (linha vermelha) e a influência que este gruporecebeu das 20 escolas identificadas (linha azul).O ponto central e a maior circunferência no gráficorepresentam: nenhuma influência e influência total, respectivamente.

Page 61: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.4 GRUPOS E ESCOLAS MATEMÁTICAS 37

A escola mais influente, neste contexto, é a francesa6, que exerceu grande influência (em médiapróxima à 75%) sobre os 20 maiores grupos da base de dados.

Outras escolas representativas são: a britânica, a alemã, a polonesa, a checa7 e a belga queinfluenciaram, de forma relevante, a formação da comunidade acadêmica dos matemáticos, segundoo conjunto de dados do MGP. As demais 65 escolas apresentaram pouca influência na comunidade,na grande maioria dos casos a influência foi inferior a 5%.

O grupo de matemáticos titulados no Brasil foi influenciado de forma semelhante pelas escolas:alemã, britânica, francesa e polonesa (cerca de 75% dos matemáticos titulados no Brasil, pertencema estas escolas). As escolas belga e austríaca completam às mais influentes, porém, com menorimpacto (cerca de 50% e 12%, respectivamente).

Como escola, o Brasil não exerceu influência sobre nenhum outro grupo.

6A grafia do nome das escolas nos gráficos de influência foram mantidas em concordância com o registro do MGP.7A escola checa não foi representada devido a não ser um dos 20 maiores grupos, em número de matemáticos

titulados.

Page 62: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

38 SOBRE OS DADOS UTILIZADOS 4.4

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�������������������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

������ ������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

����������!�"�������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

���#������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

���$��%����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�&����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�'��(��%����� ��

������

���

�����

��� �

�)���������

������

���

�����

��� �

�&����%��������

������

���

�����

��� �

�"%���������

������

���

�����

��� �

���(�%������

���������������*%&��#���"�����������������������*%&����

��

���

���

������

������

���

���

���

���

��� ��

���

���

������

������

���

���

���

���

��� ��

���

���

������

������

���

���

���

���

��� ��

���

���

������

������

���

���

���

���

���

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

���% ������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

��%!�&�������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�����%������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�'����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�&�����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

�+�����������

������

���

��

��

���

���

������

������

���

���

���

���

���

���

��� �

$����� ��

Figura 4.6: Representação gráfica da influência das escolas matemáticas sobre os grupos de matemáticostitulados naquele país. A linha vermelha representa a influência exercida pela escola (país ao qual o gráficorefere-se) sobre os grupos (20 eixos), já a linha azul refere-se à influência que aquele grupo (país ao qualo gráfico refere-se) sofreu das escolas (20 eixos). O ponto central e a maior circunferência representamnenhuma influência e influência total, respectivamente.

Page 63: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.5 TOPOLOGIA DO GRAFO 39

4.5 Topologia do grafo

O grafo de genealogia, resultante da representação dos matemáticos como vértices e seus relacio-namentos de orientação acadêmica como arestas direcionadas, possui 10.048 componentes conexas.A maior componente conexa contém aproximadamente 88,72% dos vértices totais (158.548 vérti-ces), por outro lado, a segunda componente conexa, em relação ao número de vértices, apresentaapenas 0,08% dos vértices totais (141 vértices). As últimas 7.542 componentes conexas referem-sea vértices isolados, ou seja, não possuem ascendentes ou descendentes. No grafo, em média, cadavértice possue 2,094 vizinhos.

A Figura 4.7 apresenta o grafo dos matemáticos. As componentes conexas foram ordenadas pormeio do número de vértices que possuem. Para possibilitar uma melhor visualização os vértices folha(vértices que não possuem descendentes) foram retirados da representação gráfica, estes vérticesrepresentam um total de 136.230 matemáticos, ou seja, a estrutura apresentada na Figura 4.7representa cerca de 23,76% do conjunto total, reunindo os matemáticos mais relevantes em funçãode suas orientações acadêmicas.

Os vértices do grafo de genealogia são rotulados pelos seus respectivos valores da métrica índice-h genealógico, cuja escala de valores varia de 0 à 12, a dimensão e a coloração dos vértices (de azula vermelho) representam a variação desta escala.

A Figura 4.8 apresenta algumas medidas sobre a topologia do grafo. O grau de entrada deum vértice (Figura 4.8a) representa o número de arestas que nele incidem. No contexto do grafode genealogia, esta medida identifica o número de orientadores que um determinado matemáticoteve no processo de obtenção de seu título. Há uma predominância de vértices com somente umascendente. Por outro lado, poucos vértices apresentam descendente (grau de saída), como destacadona Figura 4.8b.

A vizinhança ou adjacência de um vértice v em um grafo é um conjunto de vértices N(v) queestão ligados a v por uma aresta. A conectividade da vizinhança de v é a média dos graus dosvértices w ∈ N(v). A Figura 4.8c apresenta a conectividade média da vizinhança dos vértices cujosgraus variam de 1 à 122. As Figuras 4.8d e 4.8e referem-se à conectividade média da vizinhança con-siderando o grau de saída da vizinhança ascendente e o grau de entrada da vizinhança descendente,respectivamente.

Finalmente, a Figura 4.8f descreve a distribuição dos comprimentos dos menores caminhosencontrados no grafo de genealogia.

Page 64: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

40 SOBRE OS DADOS UTILIZADOS 4.5

Figura 4.7: Representação do grafo de genealogia acadêmica dos matemáticos. As componentes conexas sãoordenadas segundo o número de vértices que as compõem. A rotulação dos vértices refere-se à métrica índice-h genealógico, cuja escala de valores varia de 0 (azul) à 12 (vermelho). Os vértices folha foram omitidos parafacilitar a visualização.

Page 65: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

4.5 TOPOLOGIA DO GRAFO 41

�������

�������

�������

����� �������

������

�������

����� �������

������

������

����� �������

������

����������� �������

������

� � � � � � � �� � � � � � � �

���� ���� �

�������

�������

�������

����� �������

������

�������

����� �������

������

������

����� �������

������

����������� �������

������

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

���

���

���

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

���

���

���

���� ���� �

(a) Distribuição do grau de entrada (b) Distribuição do grau de saída

��

��

��

��

������� � ���

� ��

��

������� � ���

� ��

������� � ���

� ��

�������� � ���

� ��

� � �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

������� ����������

��

��

������� ����

�� �� ��� ������ �� �

��

��

������� ����

�� �� ��� ������ �� �

��

������� ����

�� �� ��� ������ �� �

������� ����

�� �� ��� ������ �� �

������� ����

�� �� ��� ������ �� �

� � � � � � �

������� ����

�� �� ��� ������ �� �

� � � � � � �

������������������ ��� �������� � �

(c) Conectividade da vizinhança (d) Conectividade da vizinhança (entrada)

����

����

����� ����������������������������

����

����

����

����� ����������������������������

����

����

����� ����������������������������

����

����

����� ����������������������������

����

����

����

����� ����������������������������

����

����

� � �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

����� ����������������������������

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

���

�������� ���� ���������������!���

�����

�����

�����

�����

�����

�����

�����

�����

�����

�����

���������

���

���

�����

���������

���

���

���

���

� � � � � �� �� �� �� �� �� �� �� �� �� �� ��� � � � � �� �� �� �� �� �� �� �� �� �� �� ��

�������������

(e) Conectividade da vizinhança (saída) (f) Distribuição dos menores caminhos

Figura 4.8: Topologia do grafo de genealogia. (a) Distribuição de frequência dos vértices segundo seus grausde entrada. (b) Distribuição de frequências dos vértices segundo seus graus de saída. (c) Conectividade médiado grau da vizinhança dos vértices. (d) Conectividade média do grau de entrada da vizinhança descendentedos vértices. (e) Conectividade média do grau de saída da vizinhança ascendente dos vértices. (f) Distribuiçãodos comprimentos dos menores caminhos no grafo.

Page 66: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

42 SOBRE OS DADOS UTILIZADOS 4.5

Page 67: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 5

Resultados

5.1 Correlação entre as métricas

Os estudos com o objetivo de extrair conhecimento relevante a respeito de grupos estruturadosem grafos de genealogia, feitos até o presente momento, comumente utilizam a fecundidade (f+) deum vértice do grafo para caracterizá-lo, especialmente trabalhos dedicados à análise de comunidadesacadêmicas (e.g. o trabalho desenvolvido por [David & Hayden, 2012]). Esta métrica é importantepara a caracterização de um acadêmico de interesse, porém a utilização individual da f+ não ésuficiente para caracterizar um vértice com certo grau de assertividade.

Os trabalhos correlatos, descritos no Capítulo 6, são exemplos da utilização apenas do territóriode um vértice para sua caracterização, ou de poucas outras métricas com esse objetivo.

Este trabalho não se limita à utilização somente da descendência de um vértice. O objetivo éadaptar e desenvolver métricas topológicas que, individualmente, tragam alguma informação re-levante sobre o conjunto de grafos de genealogia e, quando combinadas, possam diferenciar seusvértices, agrupando-os de acordo com os resultados de seus relacionamentos.

Para verificar a capacidade de diferenciação que as métricas, quando analisadas em conjunto,podem proporcionar foi utilizado a análise de correlação. Esta análise consiste de verificar se osvalores de uma determinada variável estão relacionados a uma outra, e em que proporção istoocorre.

A análise foi realizada para cada par de métricas isoladamente. Utilizando o diagrama de dis-persão correspondente a cada par e seu coeficiente de correlação r (método de Pearson), que é dadopor:

r =n∑

xiyi − (∑

xi) (∑

yi)√(n∑

x2i − (∑

xi)2)(

n∑

y2i − (∑

yi)2) (5.1)

Foi observado que as métricas de maior efetividade para a caracterização de vértices são aquelasque apresentam baixa correlação com outras, ou seja, os valores das métricas apresentam baixarelação entre si. Nestes casos, podemos dizer que as informações fornecidas pelas métricas são

43

Page 68: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

44 RESULTADOS 5.1

de naturezas distintas e proporcionam uma melhor diferenciação entre os vértices. É importantenotar que as correlações entre as métricas dependem diretamente dos dados utilizados, ou seja, aefetividade das métricas apresentam variação em função do conjunto de dados utilizado.

Segundo Cohen [1992], um coeficiente de correlação é considerado alto quando acima de 0,50,para valores entre 0,30 e 0,50 o coeficiente é considerado médio e baixo para valores inferiores a 0,30.Os pares de métricas podem, ainda, apresentar uma correlação onde o valor de uma métrica aumentaproporcionalmente, em algum grau, em função do aumento da outra, nestes casos classificamos acorrelação como positiva. As correlações são negativas quando, considerando um par de métricas, amedida que o valor de uma aumenta, o valor da outra diminui proporcionalmente em algum grau.Para a obtenção dos coeficientes de correlação entre as métricas foi utilizado o método de Pearson.

O método de cálculo e o objetivo individual de cada uma das métricas é apresentado em detalhesno Capítulo 3.

A Figura 5.1 apresenta os resultados da aplicação da correlação. A diagonal principal identificaas métricas utilizadas – exceto profundidade e profundidade inversa que definem as janelas utilizadas– juntamente com o respectivo histograma que ilustra as frequências para todas as métricas (decomposição ascendente e descendente) para o conjunto de dados completo. Abaixo da diagonal, nasinterseções entre as colunas e linhas, encontra-se os diagramas de dispersão. No lado oposto, osrespectivos coeficientes de correlação para cada par de vértices analisado.

5.1.1 Correlação entre métricas descendentes

As métricas de composição descendente utilizam a descendência (território) de um vértice parasua caracterização. Trata-se de uma visão posterior ao surgimento do vértice em questão e temcomo objetivo verificar sua contribuição na formação do conjunto de grafos de genealogia.

Uma característica importante nestas métricas para definir sua efetividade em diferenciar vér-tices de uma grafo de genealogia é a de que seus valores sejam independentes entre si, ou seja,métricas que apresentam baixos coeficientes de correlação (valores inferiores a 0,30) podem contri-buir de forma mais efetiva para a caracterização do grupo analisado.

Analisando somente o conjunto de métricas de composição descendente, pode-se classificar seuscoeficientes de correlação e, consequentemente, a efetividade deste conjunto em caracterizar vérti-ces, de acordo com a Tabela 5.1. Para este conjunto, cerca de 47,43% das análises apresentaramcoeficientes de correlação com graus considerados baixos, sejam as correlações positivas ou nega-tivas. Os resultados mostram que este conjunto, isoladamente, não apresenta boa capacidade paradiferenciar vértices em um grafo de genealogia, visto que na maioria dos casos há uma correlação,de grau alto ou médio, entre os resultados das métricas.

A métrica média dos menores caminhos (mmc) pode ser considerada um destaque neste grupo.Ela apresenta baixa correlação com 10 métricas deste grupo. Somente 2 métricas têm forte correlaçãocom ammc: reverse pagerank ponderado (rprp) (r = −0, 55) e balanceamento global (bg) (r = 0, 69).Por outro lado, a métrica fecundidade ponderada (fp) produz resultados que estão fortementecorrelacionados com a maioria dos resultados das outras métricas, exceto com: mmc (r = 0, 01) e

Page 69: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.1 CORRELAÇÃO ENTRE AS MÉTRICAS 45

Figura 5.1: Correlação entre as métricas topológicas para o conjunto de dados completo da plataformaMGP. A diagonal principal apresenta o nome e a frequência dos valores de cada métrica. Abaixo da diagonalprincipal estão representados os gráficos de dispersão para cada combinação de pares de métricas e acimaos respectivos coeficientes de correlação.

Page 70: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

46 RESULTADOS 5.1

bg (r = 0, 27).

Tabela 5.1: Coeficientes de correlação entre as métricas de composição descendentes.

Intervalo Frequência Frequência CorrelaçãoAbsoluta Relativa Grau Orientação

−1 ≤ r ≤ −0, 5 5 6,41% alto negativa−0, 5 < r ≤ −0, 3 1 1,28% médio negativa−0, 3 < r ≤ 0 12 15,38% baixo negativa

0 < r ≤ 0, 3 25 32,05% baixo positiva0, 3 < r ≤ 0, 5 10 12,82% médio positiva0, 5 < r ≤ 1 25 32,05% alto positiva

O conjunto de métricas de composição descendente foi aplicado, de forma preliminar, em um es-tudo de caso utilizando o grafo de genealogia acadêmica de Johann Bernoulli [Rossi & Mena-Chalco,2014a]. Os resultados obtidos foram relevantes no sentido de caracterizar este grafo de genealogia ediferenciar os vértices que o compõem. No entanto, dos 81.768 vértices identificados somente 15.791(19,31%) apresentavam descendência, ou seja, 65.977 vértices não puderam ser caracterizados devidoà ausência de descendentes (vértices folha).

Para possibilitar a caracterização de vértices que não apresentam descendentes, utilizamos umconjunto de métricas de composição ascendente, que é descrito a seguir.

5.1.2 Correlação entre métricas ascendentes

Parte importante dos vértices que compõem o conjunto de grafos de genealogia dos matemáticosnão apresentam descendentes (136.230 vértices). Percentualmente, os vértices folha representam76,23% da base de dados, porém, o fato de um vértice não possuir descendentes não significa quetodos possam ser considerados semelhantes. Os ascendentes de um determinado vértice possuemvalores de métricas que os diferenciam, portanto ascendências diferentes podem impactar de mododistinto estes vértices folha, permitindo sua caracterização.

A efetividade na caracterização dos vértices pelas métricas de composição ascendente tambémforam estudas por meio de seus coeficientes de correlação. O conjunto de métricas ascendentes,detalhadas no Capítulo 3, têm como objetivo caracterizar os vértices do conjunto de grafos pormeio de seus ancestrais.

A análise das correlações entre o conjunto de métricas de composição ascendente demonstrou queeste grupo apresenta maior potencial de caracterização de vértices, quando comparado ao conjuntode métricas de composição descendente. A Tabela 5.2 descreve a classificação dos coeficientes decorrelação encontrados neste grupo. Cerca de 60,72% dos coeficientes analisados têm grau de corre-lação baixo, ou seja, a maior parte dos valores das métricas deste grupo tendem a ser independentesentre si.

Page 71: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.1 CORRELAÇÃO ENTRE AS MÉTRICAS 47

Três métricas se destacam neste grupo, devido ao baixo grau de correlação encontrado, sãoelas: pagerank (pr), pagerank ponderado (prp) e balanceamento global1 (bg). Todos os coeficientesde correlação das três métricas apresentaram valores baixos, com exceção feita à correlação entreprp e l− (largura inversa) que apresentou r = −0, 52.

Tabela 5.2: Coeficientes de correlação entre as métricas de composição ascendentes.

Intervalo Frequência Frequência CorrelaçãoAbsoluta Relativa Grau Orientação

−1 ≤ r ≤ −0, 5 1 3,57% alto negativa−0, 5 < r ≤ −0, 3 0 0,00% médio negativa−0, 3 < r ≤ 0 12 42,86% baixo negativa

0 < r ≤ 0, 3 5 17,86% baixo positiva0, 3 < r ≤ 0, 5 4 14,29% médio positiva0, 5 < r ≤ 1 6 21,43% alto positiva

Os coeficientes de correlação entre as métricas, descendentes ou ascendentes, podem variar deacordo com o conjunto de dados considerado. As métricas poderão ser mais ou menos efetivasna caracterização de vértices em grafos de genealogia, em função das características dos dadosanalisados.

Para a conjunto de grafos de genealogia dos matemáticos, o conjunto de métricas utilizadoapresentou bons resultados em caracterizar os vértices das grafos.

5.1.3 Correlação entre os conjuntos de métricas combinados

As análises individuais dos conjuntos de métricas descendentes e ascendentes, resultaram naidentificação das métricas com maior potencial para a caracterização de seus vértices. A viabilidadeda utilização dos dois conjuntos, simultâneamente, depende, também, da correlação existente entreeles, visto que, quanto menor for a correlação, melhor é o potencial de diferenciação dos vértices.

A utilização do conjunto total de métricas topológicas proporciona um aumento da efetividade decaracterização do conjunto de métricas propostas. Para este cenário, conforme ilustrado na Tabela5.3, cerca de 72,63% das 190 correlações possíveis apresentam coeficientes de correlação baixos.

A Figura 5.2 apresenta um gráfico que sumariza as correlações, em um plano cartesiano, ondeno eixo das abscissas tem-se as métricas e no eixo das ordenadas observa-se a escala dos coeficientesde correlação. As barras representam os coeficientes encontrados entre a métrica em questão e asdemais métricas do conjunto.

1A métrica balanceamento global foi considerada nas duas análises de correlação, tanto para o conjunto descen-dente quanto para o ascendente, devido à sua composição ser mista.

Page 72: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

48 RESULTADOS 5.1

Tabela 5.3: Coeficientes de correlação entre o conjunto total de métricas.

Intervalo Frequência Frequência CorrelaçãoAbsoluta Relativa Grau Orientação

−1 ≤ r ≤ −0, 5 6 3,16% alto negativa−0, 5 < r ≤ −0, 3 1 0,53% médio negativa−0, 3 < r ≤ 0 70 36,84% baixo negativa

0 < r ≤ 0, 3 68 35,79% baixo positiva0, 3 < r ≤ 0, 5 14 7,37% médio positiva0, 5 < r ≤ 1 31 16,32% alto positiva

A métrica que apresenta correlação baixa com as demais do conjunto é o pagerank. Um outrodestaque é o pagerank ponderado, que apresenta correlação significativa com somente uma outramétrica (largura inversa).

As correlações entre as métricas topológicas propostas são importantes para identificar aquelasque permitem diferenciar os vértices de grafos de genealogia, quando aplicadas em conjunto. Porémcada métrica individualmente produz informações relevantes sobre a topologia do grafo resultantede um vértice de interesse. Mesmo aquelas métricas supostamente redundantes, devido à correla-ção existente entre elas, podem, individualmente, proporcinar dados distintos sobre o conjunto devértices analisado.

Figura 5.2: Correlação das métricas topológicas. As colunas representam as métricas, cada barra plotadaidentifica o coeficiente de correlação entre a métrica em questão e as demais. O eixo vertical apresenta aescala dos coeficientes de correlação.

Page 73: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 49

5.2 Análise de componentes principais

O cálculo das métricas topológicas, para todos os vértices do grafo de genealogia, resultou emum conjunto de dados multidimensional, onde cada vértice é representado por um vetor de valoresaqui denominadode “características”. Cada valor corresponde a cada uma das 22 métricas.

Para possibilitar a diferenciação dos vértices segundo seus vetores de características foi imple-mentado um procedimento matemático tradicional denominado análise de componentes principais(PCA – principal component analysis) que é comumente usada para reduzir a dimensionalidadede dados multidimensionais [Hoffmann, 1999, Jackson, 2005, Neto & Moita, 1998]. As dimensõesobtidas por meio da aplicação da PCA são denominadas componentes principais. A primeira com-ponente principal concentra a maior variação dos dados. As demais componentes concentram asvariações de maior a menor, sendo ortogonais às anteriores.

A PCA pode ser definida, algebricamente, como combinações lineares das variáveis originais ou,geometricamente, como coordenadas dos pontos amostrais em novos eixos que são o resultado darotação dos eixos originais, na direção da variação máxima. As componentes principais são obtidaspor meio de uma matriz de rotação que possibilita rotacionar o sistema de coordenadas original.

Para ilustrar a redução de dimensão possibilitada pela PCA, foi considerado o grafo de genealogiarepresentado na Figura 5.3. Os vetores de características de cada vértices foram submetidos aoprocedimento que resultou em duas componentes principais que explicam 61,10% e 21,33% davariação total, para a primeira e segunda componentes, respectivamente.

A Figura 5.4.b apresenta o sentido e a orientação de cada uma das métricas utilizadas nas duascomponentes principais obtidas. As orientações (representadas graficamente na Figura 5.4.b por umvetor) indicam o quadrante e um ângulo, no plano cartesiano, nos quais as métricas se localizam. Osentido (representado graficamente pela seta do vetor) representa a direção de aumento dos valoresde cada métrica.

A aplicação da PCA reuniu as métricas de composição descendente em um grupo com sentido eorientação muito similares, este comportamento também se repetiu para as métricas de composiçãoascendente, porém, de forma mais esparsa. As métricas pagerank inverso ponderado e pagerankponderado apresentaram sentido e orientação opostos aos dois grupos anteriores, possívelmentedevido ao fator de ponderação utilizado.

A distribuição dos vértices no plano cartesiano em função das duas componentes principais éapresentada na Figura 5.4.a. Cada vértice no eixo da primeira componente pode ser utilizado parauma classificação (ranking), em função de suas métricas topológicas onde foram consideradas suasconexões diretas e indiretas.

Page 74: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

50 RESULTADOS 5.2

Figura 5.3: Exemplo de grafos de genealogia para ilustração da aplicação da PCA.

Figura 5.4: Análise de componentes principais: (a) distribuição dos vértices da conjunto de grafos apre-sentada na Figura 5.3, nas duas componentes principais. Observe que, a primeira componente pode forneceruma classificação dos vértices segundo suas métricas; (b) orientação das métricas nas duas componentesprinciais.

O exemplo apresentado para ilustrar a classificação de vértices, em um conjunto de grafos degenealogia em função de suas métricas topológicas, considerou todo o conjunto de vértices. Emum contexto de grande quantidade de vértices, como é o caso da genealogia dos matemáticos,considerar todo o conjunto de vértices pode influenciar o resultado da classificação. Vértices queestejam posicionados nos níveis superiores do grafo de genealogia apresentam uma vantagem nocálculo de suas métricas, quando comparados com os vértices posicionados nos níveis inferiores.Esta vantagem é devida ao fator tempo, ou seja, estes vértices absorvem o desempenho de umadescendência de maior magnitude que, a rigor, não é resultado do desempenho direto do vértice de

Page 75: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 51

interesse.Limitar a abrangência dos níveis considerados no grafo para o cálculo das métricas pode reduzir

o efeito gerado pelo tempo e, consequentemente, normalizar o desempenho de vértices pertencen-tes a níveis diferentes no grafo. Considerando o grupo dos matemáticos, podemos comparar doisindivíduos que possuem diferentes números de gerações a partir de si, tornando-os equivalentes emrelação a profundidade do grafo. A diferenciação entre os matemáticos fica, exclusivamente, a cargodo número de descendentes existentes nas gerações consideradas.

O conjunto de grafos de genealogia dos matemáticos possui 42 níveis (gerações), ou seja, o tama-nho do maior caminho encontrado neste grafo é 41. O cálculo das métricas topológicas foi realizadolimitando o tamanho do maior caminho de 1 a 41, a partir do vértice de interesse tanto para o ter-ritório quanto para o território inverso deste vértice (Capítulo 3). Esta limitação na influência dosvértices que serão contemplados no cálculo é denominado janela. No contexto da genealogia dos ma-temáticos, o tamanho da janela definirá o número de gerações anteriores e posteriores consideradasa partir do matemático de interesse.

Para ilustrar a influência do tamanho da janela considerado no cálculo das métricas, na Figura5.5 é apresentado uma matriz de classificação para os 0,1% matemáticos melhores posicionados.Cada coluna na matriz representa a posição na primeira componente principal, considerando umtamanho de janela variando de 1 a 41. Os matemáticos são distinguidos pelos diferentes tons decores, que foram utilizadas para rotular indivíduos antes da classificação. O posicionamento dosmatemáticos no ranking é alterado em função do tamanho de janela considerado, observando-seuma redução da influência do tamanho da janela a partir de um certo limiar (aproximadamentepara um tamanho de janela igual a 32).

Conforme discutido anteriormente, o posicionamento do vértice nos níveis do grafo de genea-logia impacta o resultado de suas respectivas métricas. Para o conjunto de dados considerado, oposicionamento do matemático no grafo está correlacionado com o ano de obtenção da titulação.Na Figura 5.6 observa-se a variação do ano de titulação do matemático para diferentes tamanhosde janela, sob a perspectiva da moda e da média dos anos de titulação.

Os resultados mostram que existe uma tendência de as janelas com menor abrangência resul-tarem em classificações onde os matemáticos mais contemporâneos estão melhores posicionados.Considerando a moda como parâmetro, a janela de tamanho 1 produz um ranking em que os mate-máticos melhores posicionados são aqueles que obtiveram suas titulações no século XX. As janelascom tamanho variando de 2 a 6 produzem classificações onde os matemáticos titulação no séculoXIX são destacados. Para valores superiores ao tamanho 15 existe uniformidade com relação aoperíodo de titulação.

Os dados representados na Figura 5.6 fornecem base para concluir que quanto maior for otamanho da janela considerada no cálculo das métricas topológicas, tanto maior será o impacto dofator tempo na classificação obtida pela PCA, até um limiar de uniformidade (janela de tamanho 15),

Page 76: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

52 RESULTADOS 5.2

Figura 5.5: Variação da classificação dos matemáticos em função do tamanho da janela considerada. Ascolunas representam as diferentes classificações para as 41 janelas utilizadas para o cálculo das métricas. Fo-ram representados os 0,1% matemáticos melhores colocados que são distinguidos pelas diferentes tonalidadesde cores.

para este conjunto de dados. O padrão deste comportamento pode ser representado pela sumarizaçãodos valores de moda e média dos anos de titulação por meio de um polinômio de grau 3 (linhacontínuas na figura).

Os diferentes tamanhos de janela não influenciam a variabilidade observada na aplicação daPCA. A variação total, considerando as duas componentes, apresenta-se estável em cerca de 50%,exceto para a janela de tamanho 1 que, para este conjunto, resulta em um percentual de variaçãoligeiramente maior (aproximadamente 57%). Por outro lado, a média de orientados diretos para os50 indivíduos melhores colocados é inversamente proporcional ao tamanho da janela, havendo umaestabilidade a partir da janela 20. Estes dados são apresentados na Tabela 5.4.

A Figura 5.7 apresenta os resultados da aplicação da PCA para janelas de tamanho 1, 5, 10,15, 20, 25, 30 e 41. Estas janelas foram escolhidas arbitrariamente com o objetivo de abrangertodo o intervalo. Os sentidos e orientações das métricas topológicas sofrem a influência do tamanhoda janela utilizada, conforme observado no segundo diagrama de cada uma das oito sub-figuras. Adistribuição dos vértices nas duas componentes principais, segundo os resultados de suas respectivasmétricas, apresenta um padrão similar. Porém, conforme discutido anteriormente, estas distribuições

Page 77: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 53

Figura 5.6: Diagrama da moda (linha vermelha tracejada) e da média (linha azul tracejada) dos anosde titulação dos matemáticos da plataforma do MGP em função do tamanho da janela considerada. Acorrelação do tamanho da janela e do ano de titulação é representada pela sumarização dos dados por meiode um polinômio de grau 3, tanto para a moda (linha vermelha contínua) quanto para a média (linha azulcontínua). Foram utilizados os 1% matemáticos com melhor classificação segundo a aplicação da PCA.

Tabela 5.4: Principais características para diferentes tamanhos de janelas.

Tamanho Orientados diretos Variação total nas duasda janela (média) componentes principais

1 72,92 56,89%5 25,18 50,64%10 12,46 50,56%15 7,34 49,53%20 5,00 48,91%25 4,60 49,24%30 4,34 50,38%41 4,32 50,57%

também são afetadas, havendo uma aparente alternância no posicionamento dos vértices de acordocom o tamanho da janela considerado.

As análises realizadas não possibilitaram uma conclusão definitiva a respeito do tamanho ideal dejanela que resulte em uma efetiva classificação dos matemáticos. Entretanto, é fato que esta escolhainterfere fortemente no resultado pretendido. Note que, o tamanho da janela pode ser consideradocomo um parâmetro a ser relevante como um parâmetro a ser considerado na tomada de decisõesem política científica.

Empíricamente, pode-se considerar um tamanho adequado de janela como sendo um valor entre5 e 7, considerando que uma supervisão de doutorado tenha duração média de 5 anos, o períodototal de atividade de um orientador é, no mínimo, de 25 à 35 anos, não considerando um período

Page 78: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

54 RESULTADOS 5.2

intermediário de maturação entre as supervisões. Provavelmente, a influência de um acadêmico emum indivíduo de sua descendência após este período é pouco relevante.

No Apêndice B são apresentados os ranking’s dos 50 matemáticos melhores posicionados segundoos resultados de suas métricas topológicas para os oito tamanhos de janelas considerados.

Considerando a classificação obtida por meio da aplicação da PCA onde os valores das métricastopológicas foram calculados com uma janela de tamanho 5, pode-se identificar os matemáticosmais representativos segundo estes critérios. Na Figura 5.8 identifica-se o nome e o país de titulaçãodos matemáticos com maior destaque em orientações acadêmicas.

O grupo identificado reúne matemáticos renomados por suas contribuições para o desenvol-vimento da ciência. Entretanto, no contexto desta dissertação o ranking dos matemáticos é feitoexclusivamente por meio de seus respectivos desempenhos em orientação acadêmica.

O matemático de maior destaque neste grupo é David Hilbert. Apesar de Hilbert ser declaradocomo pertencente à escola alemã no MGP, ele é natural de Königsberg, Prussia (hoje Kaliningrado,Russia), onde titulou-se em 1885. De acordo com a base de dados obtida, Hilbert possui 13.238descendentes sendo 75 diretos2.

Os matemáticos identificados neste processo estão interligados por relacionamentos de orientaçãoacadêmica, seja direta ou indiretamente. As conexões existentes entre eles é apresentada na Figura5.9, onde foram representados os 50 matemáticos mais importantes de acordo com esta classificação.Os vértices foram rotulados com os respectivos países de titulação de cada matemático e foramdestacados os 8 melhores, em concordância com a Figura 5.8.

O grafo de relacionamentos apresenta dois aspectos importantes. O matemático de maior desta-que (Hilbert) é filho acadêmico do segundo colocado (Lindermann), ou seja, o orientado apresentamelhor desempenho em formação de recursos humanos que o orientador, intuitivamente seria natu-ral que ocorresse o contrário. Outro aspecto interessante é sobre a formação das escolas. Observa-seuma tendência de relação entre indivíduos de um mesmo país, quando há um relacionamento deorientação entre matemáticos de países diferentes, novas escolas surgem.

A aplicação da PCA apresenta-se como uma forma efetiva de ordenar, de forma automática,os vértices em um grafo de genealogia. A identificação de um tamanho de janela adequado comoelemento fundamental que possibilite a comparação entre vértices de “gerações” diferentes é aindaum desafio que deverá ser tratado nos próximos passos deste projeto.

2Dados de Abril de 2014.

Page 79: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 55

(a) Janela com tamanho 1 (b) Janela com tamanho 5

(c) Janela com tamanho 10 (d) Janela com tamanho 15

(e) Janela com tamanho 20 (f) Janela com tamanho 25

(g) Janela com tamanho 30 (h) Janela com tamanho 41

Figura 5.7: Análises de componentes principais para janelas de tamanhos: 1, 5, 10, 15, 20, 25, 30 e 41. Paracada análise é apresentado a projeção dos vértices em função das duas primeiras componentes principais ea orientação das métricas topológicas.

Page 80: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

56 RESULTADOS 5.2

Figura 5.8: Identificação dos principais matemáticos classificados por meio da PCA utilizando uma janelade tamanho 5.

6 8

C. F. Klein1868

E. H. Moore1885

K. Weierstrass1841

E. Kummer1831

1

2

3 4

7

O. Veblen1903

5

D. Hilbert1885

E. Schmidt1905

C.L.F. Lindemann1873

1903

Figura 5.9: Grafo de genealogia acadêmica que descreve os relacionamentos existentes entre os 50 principaismatemáticos, segundo a PCA com janela de tamanho 5.

Page 81: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 6

Trabalhos correlatos

A análise de redes sociais é uma abordagem que origina-se em outras áreas do conhecimento(sociologia, psicologia social e antropologia) [Matheus et al., 2006] e apresenta grande crescimentonos últimos anos devido ao (i) aumento da quantidade de dados disponíveis para análise, (ii) desen-volvimento das áreas de informática e processamento de dados e (iii) a ampliação dos assuntos deinteresse e áreas do conhecimento que utilizam este tipo de análise. A utilização destas análises podeser de grande valor para a obtenção de conhecimento sobre diversos grupos sociais e envolve qua-tro componentes principais: gerenciamento e estruturação de dados, descoberta de conhecimento,aprendizagem de máquina e técnicas de visualização [Freitas et al., 2008].

A representação de indivíduos e seus relacionamentos em forma de redes (grafos) apresenta-secomo método eficaz para extrair conhecimento em contextos, por vezes, de difícil interpretação.Caracterizar a ciência, como por exemplo a área da Ciência da Informação, e a contribuição que aanálise de redes sociais proporciona para a correta interpretação é ainda um desafio.

Nesse contexto, utilizar grafos de genealogia como ferramenta para o estudo e descoberta deconhecimento em grupos inter-relacionados é uma estratégia interessante que apresenta ampla apli-cação. Um desafio importante, neste tipo de estudo, recai sobre a forma pela qual pode-se extrairconhecimento relevante a respeito de tais estruturas.

Segundo Sugimoto [2014], os estudos de genealogia acadêmica são principalmente utilizados noambiente acadêmico por pesquisadores interessados em traçarem suas próprias raízes. Entretanto,estes estudos são pouco explorados por aqueles que estudam a ciência a partir de perspectivashistóricas, filosóficas, sociológicas e científicas. A real importância da genealogia acadêmica deve-seao fato de oferecer insumos quantitativos e qualitativos para mensurar as interações, em diferentesdimensões, dos orientadores e seus orientados/supervisados. Adicionalmente, este tipo de estudopermite analisar a ciência desde um ponto de vista de transferência de conhecimento científicoentre diferentes gerações, assim como, o impacto ou influência desta transferência.

Os trabalhos desenvolvidos com objetivos correlatos ao desta dissertação são apresentados aseguir. Os estudos estão agrupados em três categorias de acordo com os tipos de relacionamentosconsiderados e os dados utilizados. O primeiro grupo refere-se aos trabalhos correlatos que utilizaram

57

Page 82: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

58 TRABALHOS CORRELATOS 6.1

o mesmo tipo de relacionamento (orientação acadêmica) e a mesma base de dados (plataforma doMGP). O segundo grupo reúne aqueles trabalhos que utilizaram dados provenientes de outras basesde dados e o mesmo tipo de relacionamento. Por fim, no terceiro grupo descreve-se os trabalhosrealizados em grafos estruturados em função de outros tipos de relacionamentos e outras bases dedados.

6.1 Relacionamentos de orientação – base de dados do MGP

O MGP é o resultado dos esforços empreendidos por Harry Coonce [Jackson, 2007] para docu-mentar todos os doutores em matemática do mundo e seus relacionamentos de orientação acadêmicaem todos os tempos. Este projeto constitui uma excelente base de dados sobre a comunidade acadê-mica dos matemáticos. Uma descrição detalhada sobre os dados deste projeto é descrita no Capítulo4.

Devido à sua importância e às características de seus dados, a plataforma do MGP serviu debase para diversos estudos sobre este pequeno e seleto grupo de acadêmicos. É importante destacarque o conjunto de dados gerado a partir da plataforma do MGP é uma base ímpar que ainda nãofoi explorada completamente.

O papel da orientação acadêmica no desempenho dos orientados, para a área da matemática,pode ser verificada analisando a fecundidade dos matemáticos estudados1. Segundo Malmgren et al.[2010], a fecundidade dos matemáticos se mantem estável ao longo dos últimos 60 anos e o desem-penho dos orientados é impactado pelas características do orientador, no que se refere à orientaçãoacadêmica. As análises apresentadas nesse trabalho foram referentes a um subconjunto de 7.259matemáticos, com titulação ocorrida entre 1900 e 1960, e suas respectivas contagens de descenden-tes diretos (fecundidade). O referido estudo apresenta resultados interessantes, utilizando análisesestatísticas descritivas, para a compreensão, em escala temporal, do desenvolvimento do grupoconsiderado e correlações existentes entre fecundidade e outras medidas de desempenho acadêmico.

A representação dos matemáticos e seus relacionamentos como vértices e arestas, respectiva-mente, pode ser feita sob abordagens diferentes [Narayan, 2011]. Os relacionamentos podem ser re-presentados como arestas direcionadas e não-direcionadas, sendo que para cada uma das modelagenssão obtidas possibilidades de análise distintas. Há, também, a possibilidade da utilização de relaci-onamentos não explícitos. Um relacionamento deste tipo ocorre, por exemplo, quando considera-seum conjunto de vértices que são derivados de um único vértice. Este tipo de ligação é denominadarelacionamento entre “irmãos”. Veja no trabalho de [Narayan, 2011] um melhor aprofundamento derepresentação de relacionamento entre pessoas.

O trabalho descrito anteriormente considerou um conjunto de 137.138 matemáticos e seus rela-cionamentos, obtidos na plataforma do MGP, com o objetivo de identificar o impacto do relaciona-mento de orientação e entender a formação da comunidade científica dos matemáticos.

1No contexto desta dissertação de mestrado, a métrica que demonstra este resultado é a largura, definida noCapítulo 3.

Page 83: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

6.2 RELACIONAMENTOS DE ORIENTAÇÃO – OUTRAS BASES DE DADOS 59

A modelagem de dados pode mudar de acordo com a intenção do estudo. Myers et al. [2011]utilizou os vértices de uma rede para representar as instituições norte-americanas cadastradas noprojeto e as orientações ocorridas entre matemáticos de diferentes instituições foram representa-das por arestas. A rede resultante foi utilizada para determinar o prestígio matemático de cadainstituição estudada.

Os resultados possíveis, a partir da análise de dados genealógicos estruturados em forma de grafode genelogia, incluem a caracterização de indivíduos específicos ou de comunidades específicas. A ca-racterização de Johann Bernoulli e sua descendência foi objeto de estudo em Rossi & Mena-Chalco[2014a]. Bernoulli foi um nome importante para a área da matemática que ajudou a eleva-lá aonível de ciência. Neste estudo, seu grafo genealógico, composto de 81.768 vértices e 88.955 arestasdirecionadas, foi caracterizado por meio de métricas topológicas em grafos, que permitiram a dife-renciação entre os indivíduos na árvore e sua classificação pela redução de dimensões dos resultadosdas métricas.

Finalmente, um registro histórico a respeito de um conjunto de matemáticos selecionados daplataforma do MGP foi publicado por Chang [2011] no livro “Academic Genealogy of Mathemati-cians”. Esta obra apresenta os mais importantes matemáticos agrupados por meio de suas escolas(países) e seus relacionamentos de orientação acadêmica.

6.2 Relacionamentos de orientação – outras bases de dados

A utilização de grafos de genealogia não se limita à análise da comunidade acadêmico-científicados matemáticos. Este tipo de abordagem é utilizada para estudos dos mais diversos grupos, princi-palmente em comunidades acadêmicas. A seguir apresenta-se uma descrição de trabalhos correlatosa esta dissertação com a utilização de dados provenientes de outras áreas do conhecimento.

Os acadêmicos da área da neurociência foram documentados por meio de seus relacionamentosde orientação acadêmica. O projeto Neurotree [David & Hayden, 2012], busca a compreensão dacomunidade acadêmica dos neurocientistas através do estudo de sua genealogia. Uma dificuldadecomum a este projeto e ao dos matemáticos é a obtenção de informações sobre os orientadores e suasrelações de orientação. O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtençãodas informações da área e, pela primeira vez em projetos deste tipo, na interpretação de grafos degenealogia acadêmica obtidos. A utilização de métricas de avaliação de grafos apresentou resultadosinteressantes na caracterização da área da Neurociência. Este projeto conta com, aproximadamente,40.000 pesquisadores e 60.000 relacionamentos cadastrados. Outras comunidades acadêmicas nomundo que consideram a genealogia como ferramenta para a documentação e/ou caracterizaçãode seus membros são: a Química Orgânica [Andraos, 2005], a Fisiologia [Bennett & Lowe, 2005,Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros.

Iniciativas similares, com o objetivo de captar e estruturar dados genealógicos utilizando plata-formasWeb são observadas para a comunidade científica dos Físicos (http://academictree.org/physics)e, de forma mais específica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes

Page 84: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

60 TRABALHOS CORRELATOS 6.3

projetos, ainda não bem adotados pelas suas comunidades, são pautados na obtenção e documen-tação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, esses registroscontribuem para a documentação histórica destas comunidades e resulta em campo fértil para es-tudos futuros.

Documentar a história e compreender a expansão de grupos com interesses comuns, destacandoprincipalmente as comunidades acadêmicas, passa obrigatoriamente pela utilização da genealogia e,consequentemente, pela construção de grafos genealógicos. A utilização da genealogia foi o caminhopara o estudo de um seleto grupo de meteorologistas tropicais, apresentado em Hart & Cossuth[2013]. Os resultados deste estudo motivaram, devido às características de interdisciplinaridade dosindivíduos pertencentes ao grafo, a ampliação da busca por pessoas fora dos limites da área.

O desenvolvimento de métodos para caracterizar grafos genealógicos é parte importante dotrabalho de gerar conhecimento por meio destas estruturas. Estudos neste sentido, como o deGriffiths [1987], demonstram a viabilidade da caracterização de grafos de genealogia por meio demétricas específicas, como por exemplo: determinar o número de árvores de genealogia com umdado grau ou com uma determinada sequência.

A escolha da modelagem dos dados está diretamente relacionada com os objetivos pretendidos.Os relacionamentos entre irmãos ou redes de parentesco (kinship networks) resultam em grafos degenealogia de composição mista. As arestas direcionadas (que indicam relacionamento top-downcomumente usadas para interligar pais e filhos), as arestas não-direcionadas (que indicam relacio-namento, como por exemplo casamento, onde não existe uma orientação de origem e destino) sãomenos frequentes neste tipo de abordagem. Essa forma de modelar árvores, ou estruturas mais sofis-ticadas, é descrita no estudo apresentado por Hamberger et al. [2011] e demonstra as possibilidadesde avaliação com diferentes estruturas.

6.3 Outros tipos de relacionamentos – no contexto brasileiro

A comunidade acadêmico-científica apresenta outros tipos de relacionamentos, além da orien-tação acadêmica, que podem ser utilizados na estruturação de redes. As coautorias em publicaçõessão um tipo de relacionamento muito utilizado com o objetivo de caracterizar grupos específicosinter-relacionados por meio da colaboração em publicações.

A caracterização dos programas de pós-graduação de Ciência da Computação no Brasil foi objetode estudo de Digiampietri et al. [2014], que utilizaram os relacionamentos de coautoria em publi-cações científicas da área. Este estudo demonstrou, entre outros resultados, que há uma correlaçãoentre a produtividade dos programas e sua inserção na rede de co-autoria.

A Plataforma Lattes é uma importante fonte de dados acadêmicos e foi objeto de estudo em[Mena-Chalco et al., 2014]. Esta base de dados conta com mais de 4 milhões de registros2 identi-ficados e caracterizados, por meio de métricas topológicas, utilizando uma rede de co-autoria empublicações.

2Dados referentes à Maio de 2015.

Page 85: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

6.3 OUTROS TIPOS DE RELACIONAMENTOS – NO CONTEXTO BRASILEIRO 61

A análise de redes de co-autoria em publicações é um tema importante para a extração de conhe-cimento e requer o estudo e desenvolvimento de novos métodos especificos [Perez-Cervantes et al.,2013] que possam contribuir nesta tarefa. Devido à magnitude e complexidade das redes, novos mé-todos de caracterização apresentam-se como ferramenta fundamental para a correta interpretaçãodestas estruturas.

Atualmente, como parte do projeto do grupo de pesquisa na UFABC estão sendo consideradostodos os registros da Plataforma Lattes, assim como mais de 600 mil registros do Banco de Teses eDissertações da CAPES.

Page 86: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

62 TRABALHOS CORRELATOS 6.3

Page 87: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Capítulo 7

Conclusões

7.1 Considerações finais

Qualificar os acadêmicos em função do desempenho percebido em suas atividades de orientaçãoe estudar sua contribuição no desenvolvimento da comunidade acadêmica é tão importante quantomedir o impacto e a relevância de suas publicações científicas. Nesta dissertação foi apresentado umestudo baseado em métricas topológicas para a caracterização de grafos de genealogia acadêmica.A identificação dos acadêmicos mais proeminentes e a obtenção de características de formação dacomunidade acadêmica dos matemáticos, que é objeto de estudo desta dissertação, são os principaisresultados obtidos.

A importância do desenvolvimento e adaptação de métricas topológicas em conjunto com a pos-sibilidade de prospecção, seleção e estruturação automáticas de dados genealógicos, se apresentamcomo contribuições de destaque deste trabalho, que poderão auxiliar na busca de novas formas deestudar o desenvolvimento acadêmico-científico e seu efeito, por meio do reconhecimento de padrõesde orientação acadêmica que influênciem positivamente na formação de novos orientadores.

Acreditamos que, a documentação perene de dados genealógicos e as informações que eles propor-cionam, é tema atraente e de grande interesse por parte dos diversos atores envolvidos no contextoacadêmico-científico.

7.2 Sugestões de pesquisas futuras

A abordagem de extração de conhecimento, apresentada nesta dissertação, em dados de ge-nealogia acadêmica pode ser classificada em duas vertentes. A primeira está relacionada com odesenvolvimento do método, de forma a proporcionar resultados mais assertivos na caracterizaçãode grafos de genealogia. Uma analogia que ilustra esta vertente é o desenvolvimento do “termômetro”que produzirá medições de temperatura mais assertivas.

A segunda vertente é a implementação do método desenvolvido em diferentes conjuntos de dadosestruturados em grafos de genealogia, de forma a extrair conhecimento relevante a respeito destas

63

Page 88: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

64 CONCLUSÕES

estruturas. Para este caso, o objetivo é a utilização do “termômetro” existente para a medição detemperatura em diferentes contextos.

Como sugestões de pesquisas futuras, apresenta-se, a seguir, os objetivos classificados nas duasvertentes descritas.

1. Desenvolvimento do método

1a. O estudo e desenvolvimento de novas métricas, com forte intuição semântica, podemmelhorar os resultados de trabalhos com grafos de genealogia. A utilização de métri-cas derivadas, onde seus resultados são obtidos por meio da implementação conjunta deoutras métricas que definam atributos simples, e.g. a utilização das métricas: profun-didade, maior largura e fecundidade ponderada em conjunto podem resultar em umanova métrica composta que classificaria um grafo de genealogia segundo sua amplitude,abrangência e densidade, simultâneamente.

1b. A identificação de padrões locais nas conexões do grafo (por exemplo, a identificaçãode motifs em redes) pode gerar um maior conhecimento a respeito do processo de de-senvolvimento de comunidades acadêmicas. Acreditamos que, como pesquisa futura, odesenvolvimento e implementação de ferramentas computacionais que permitam a rea-lização automática destas identificações elevará a qualidade dos resultados e análises degrafos de genealogia acadêmica.

1c. O aprofundamento das análises referentes à identificação do tamanho ideal de janela paraa correta comparação entre vértices de diferentes “gerações” apresenta-se como passofundamental para a melhoria do método.

2. Aplicação do método

2a. A aplicação das métricas topológicas em conjuntos de dados mais heterogêneos (e.g. con-junto dos currículos da plataforma Lattes, conjunto de teses e dissertações) permitirá,além da caracterização do conjunto, realizar estudos sobre a interdiciplinaridade entrediversas áreas do conhecimento. A utilização de outros tipos de relacionamento (e.g.iniciação científica, mestrado, doutorado e pós-doutorado) produzirão um conjunto dedados propício para a identificação da evolução acadêmica de forma segmentada, faci-litando, dessa forma, conclusões mais específicas de acordo com as particularidades decada tipo de relação.

2b. Ampliar a utilização de atributos (i.e., características próprias de cada indivíduo), tantodos vértices quanto das arestas, enriquecem os resultados. Acreditamos que, a consi-deração do período de orientação produzirá análises temporais sob a perspectiva dodesenvolvimento e formação do grupo que é objeto de estudo.

Page 89: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Apêndice A

Caracterização da base de dados

65

Page 90: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

66 APÊNDICE A

Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte I).

PAÍS INSTITUIÇÃOPOS. NOME PHDs %. POS. NOME PHDs %

1o University of California, Berkeley 3616 4,445%2o Massachusetts Institute of Technology 3202 3,936%

1o United 81353 45,53% 3o Stanford University 2893 3,556%States 4o University of Illinois at Urbana-Champaign 2377 2,922%

5o University of Wisconsin-Madison 2135 2,624%1o Georg-August-Universitat Gottingen 1064 4,843%2o Rheinische Friedrich-Wilhelms-Universitat Bonn 914 4,161%

2o Germany 21968 12,29% 3o Ludwig-Maximilians-Universitat Munchen 862 3,924%4o Technische Universitat Munchen 813 3,701%5o Universitat Leipzig 745 3,391%1o University of Cambridge 1975 20,783%2o University of Oxford 1152 12,122%

3o United 9503 5,32% 3o University of London 893 9,397%Kingdom 4o University of Warwick 634 6,672%

5o Imperial College 435 4,578%1o Universite Paris VI - Pierre et Marie Curie 736 11,302%2o Universite Paris-Sud XI - Orsay 654 10,043%

4o France 6512 3,64% 3o Universite Denis Diderot - Paris VII 401 6,158%4o Universite Bordeaux 1 318 4,883%5o Universite de Paris 255 3,916%1o University of Toronto 935 17,034%2o University of Waterloo 745 13,573%

5o Canada 5489 3,07% 3o University of British Columbia 508 9,255%4o McGill University 340 6,194%5o Universite de Montreal 331 6,030%1o Universiteit van Amsterdam 1042 19,893%2o Universiteit Utrecht 1018 19,435%

6o Netherlands 5238 2,93% 3o Universiteit Leiden 710 13,555%4o Rijksuniversiteit Groningen 564 10,767%5o Technische Universiteit Delft 526 10,042%1o Moscow State University 1604 35,900%2o St. Petersburg State University 492 11,012%

7o Russia 4468 2,50% 3o Voronezh State University 485 10,855%4o Steklov Institute of Mathematics 234 5,237%5o Novosibirsk State University 164 3,671%1o Eidgenossische Technische Hochschule Zurich 1576 55,259%2o Ecole Polytechnique Federale de Lausanne 401 14,060%

8o Switzerland 2852 1,60% 3o Universitat Zurich 301 10,554%4o Universite de Geneve 152 5,330%5o Universitat Bern 129 4,523%1o Universitat Politecnica de Catalunycap 240 8,814%2o Universidad de Barcelona 199 7,308%

9o Spain 2723 1,52% 3o University Complutense de Madrid 195 7,161%4o Universidad Complutense de Madrid 189 6,941%5o Universidad de Granada 187 6,867%1o Monash University 336 18,605%2o Australian National University 324 17,940%

10o Australia 1806 1,01% 3o University of Adelaide 188 10,410%4o University of Sydney 162 8,970%5o University of Melbourne 117 6,478%

Page 91: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CARACTERIZAÇÃO DA BASE DE DADOS 67

Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte II).

PAÍS INSTITUIÇÃOPOS. NOME PHDs %. POS. NOME PHDs %

1o Uniwersytet Jagiellonski 380 21,827%2o Uniwersytet Warszawski 231 13,268%

11o Poland 1741 0,97% 3o Uniwersytet Lodzki 151 8,673%4o Uniwersytet im. Adama Mickiewicza Poznan 113 6,491%5o Uniwersytet Wroclawski 106 6,088%1o Universidade de Sao Paulo 428 26,502%2o Instituto de Matematica Pura e Aplicada 303 18,762%

12o Brazil 1615 0,90% 3o Universidade Estadual de Campinas 292 18,080%4o Universidade Federal do Rio de Janeiro 140 8,669%5o Pontificia Universidade Catolica do Rio de Janeiro 95 5,882%1o Scuola Internazionale Superiore di Studi Avanzati 183 11,495%2o Universita di Pisa 163 10,239%

13o Italy 1592 0,89% 3o Universita di Roma La Sapienza 162 10,176%4o Universita di Padova 106 6,658%5o Scuola Normale Superiore di Pisa 95 5,967%1o Indian Institute of Technology, Kanpur 126 8,046%2o Indian Statistical Institute, Calcutta 116 7,407%

14o India 1566 0,88% 3o University of Pune 82 5,236%4o Indian Institute of Technology 80 5,109%5o University of Mumbai 63 4,023%1o Katholieke Universiteit Leuven 498 33,626%2o Universite Libre de Bruxelles 313 21,134%

15o Belgium 1481 0,83% 3o Universite Catholique de Louvain 244 16,475%4o Universiteit Gent 104 7,022%5o Universiteit Antwerpen 97 6,550%1o Technion-Israel Institute of Technology 402 27,459%2o Hebrew University 316 21,585%

16o Israel 1464 0,82% 3o Tel Aviv University 291 19,877%4o Weizmann Institute of Science 284 19,399%5o Bar-Ilan University 83 5,669%1o Kungliga Tekniska Hogskolan 298 20,523%2o Uppsala Universitet 289 19,904%

17o Sweden 1452 0,81% 3o Lund University 208 14,325%4o Stockholm University 176 12,121%5o Chalmers Tekniska Hogskola 125 8,609%1o Universitat Wien 462 33,797%2o Technische Universitat Wien 289 21,141%

18o Austria 1367 0,76% 3o Johannes Kepler Universitat Linz 182 13,314%4o Technische Universitat Graz 130 9,510%5o Universitat Innsbruck 129 9,437%1o Institute of Mathematics, Kiev 245 22,313%2o Kiev State University 172 15,665%

19o Ukraine 1098 0,61% 3o Kharkiv State University 168 15,301%4o Ivan Franko National University of Lviv 130 11,840%5o Institute of Mathematics, Ukrainian Acad. of Science 67 6,102%1o Chinese Academy of Sciences 99 11,250%2o Peking University 67 7,614%

20o China 880 0,49% 3o Tsinghua University 51 5,795%4o Lanzhou University 45 5,114%5o Shanghai University 43 4,886%

Page 92: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

68 APÊNDICE A

Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos perten-centes à sua linhagem (parte I).

POS. ESCOLA LINHAGEM ORIGENS MÉDIA % DA/ORIGEM BASE

1o France 123125 205 600,61 69,02%2o UnitedKingdom 119161 1059 112,52 67,28%3o Germany 117800 2840 41,48 67,51%4o Poland 112680 30 3756,00 63,07%5o CzechRepublic 92700 25 3708,00 51,89%6o Belgium 92148 22 4188,55 51,58%7o Italy 13437 36 373,25 7,54%8o UnitedStates 10591 3992 2,65 8,16%9o Austria 6209 104 59,70 3,53%10o Hungary 4920 29 169,66 2,77%11o Switzerland 3324 153 21,73 1,95%12o Sweden 3011 47 64,06 1,71%13o Norway 1550 12 129,17 0,87%14o Netherlands 1034 69 14,99 0,62%15o Russia 850 64 13,28 0,51%16o Spain 558 41 13,61 0,34%17o India 548 49 11,18 0,33%18o Canada 499 193 2,59 0,39%19o Japan 461 33 13,97 0,28%20o Ukraine 423 18 23,50 0,25%21o Serbia 387 25 15,48 0,23%22o Australia 334 286 1,17 0,35%23o Denmark 194 40 4,85 0,13%24o China 111 38 2,92 0,08%25o Argentina 103 20 5,15 0,07%26o Ireland 68 7 9,71 0,04%27o Portugal 49 6 8,17 0,03%28o Azerbaijan 48 2 24,00 0,03%29o Bulgaria 45 4 11,25 0,03%30o Slovakia 41 12 3,42 0,03%31o Estonia 38 5 7,60 0,02%32o Mexico 31 3 10,33 0,02%33o Romania 31 43 0,72 0,04%34o Israel 25 14 1,79 0,02%35o Finland 17 20 0,85 0,02%36o Bangladesh 11 2 5,50 0,01%

Page 93: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CARACTERIZAÇÃO DA BASE DE DADOS 69

Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos perten-centes à sua linhagem (parte II).

POS. ESCOLA LINHAGEM ORIGENS MÉDIA % DA/ORIGEM BASE

37o Georgia 11 1 11,00 0,01%38o SouthAfrica 8 9 0,89 0,01%39o NewZealand 7 7 1,00 0,01%40o Lithuania 5 1 5,00 0,00%41o Catalonia 4 2 2,00 0,00%42o Egypt 3 2 1,50 0,00%43o Singapore 3 2 1,50 0,00%44o Moldova 2 2 1,00 0,00%45o Philippines 2 4 0,50 0,00%46o Algeria 1 3 0,33 0,00%47o Belarus 1 1 1,00 0,00%48o Benin 1 8 0,13 0,01%49o Brazil 1 14 0,07 0,01%50o Latvia 1 3 0,33 0,00%51o Pakistan 1 1 1,00 0,00%52o Taiwan 1 5 0,20 0,00%53o Uzbekistan 1 1 1,00 0,00%54o Armenia 0 1 0,00 0,00%55o Cameroon 0 5 0,00 0,00%56o Chile 0 1 0,00 0,00%57o Cuba 0 1 0,00 0,00%58o Greece 0 4 0,00 0,00%59o HongKong 0 1 0,00 0,00%60o Iran 0 12 0,00 0,01%61o Kenya 0 4 0,00 0,00%62o Korea 0 1 0,00 0,00%63o Malaysia 0 1 0,00 0,00%64o Nigeria 0 2 0,00 0,00%65o Slovenia 0 1 0,00 0,00%66o SouthKorea 0 3 0,00 0,00%67o Thailand 0 1 0,00 0,00%68o Turkey 0 20 0,00 0,01%69o Uganda 0 2 0,00 0,00%70o Venezuela 0 2 0,00 0,00%71o Vietnam 0 1 0,00 0,00%

Page 94: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

70 APÊNDICE A

Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o MathematicsSubject Classification (parte I).

CÓDIGO QTDE PORCENTAGEM DESCRIÇÃO00 99649 55,76% General68 13732 7,68% Computer science62 7057 3,95% Statistics65 3584 2,01% Numerical analysis60 3389 1,90% Probability theory and stochastic processes35 3038 1,70% Partial differential equations90 2661 1,49% Operations research, mathematical programming11 2289 1,28% Number theory94 2279 1,28% Information and communication, circuits46 2230 1,25% Functional analysis05 2072 1,16% Combinatorics20 1959 1,10% Group theory and generalizations03 1870 1,05% Mathematical logic and foundations76 1845 1,03% Fluid mechanics81 1821 1,02% Quantum theory53 1735 0,97% Differential geometry92 1734 0,97% Biology and other natural sciences14 1716 0,96% Algebraic geometry93 1603 0,90% Systems theory; control97 1411 0,79% Mathematics education37 1323 0,74% Dynamical systems and ergodic theory34 1229 0,69% Ordinary differential equations85 1162 0,65% Astronomy and astrophysics91 1059 0,59% Game theory, economics, social and behavioral sciences74 864 0,48% Mechanics of deformable solids16 832 0,47% Associative rings and algebras47 832 0,47% Operator theory83 799 0,45% Relativity and gravitational theory82 759 0,42% Statistical mechanics, structure of matter51 757 0,42% Geometry55 717 0,40% Algebraic topology30 712 0,40% Functions of a complex variable

Page 95: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CARACTERIZAÇÃO DA BASE DE DADOS 71

Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o MathematicsSubject Classification (parte II).

CÓDIGO QTDE PORCENTAGEM DESCRIÇÃO54 645 0,36% General topology57 615 0,34% Manifolds and cell complexes78 557 0,31% Optics, electromagnetic theory41 553 0,31% Approximations and expansions49 551 0,31% Calculus of variations and optimal control; optimization70 524 0,29% Mechanics of particles and systems13 518 0,29% Commutative rings and algebras42 460 0,26% Fourier analysis52 458 0,26% Convex and discrete geometry32 429 0,24% Several complex variables and analytic spaces17 389 0,22% Nonassociative rings and algebras58 366 0,20% Global analysis, analysis on manifolds18 361 0,20% Category theory; homological algebra15 355 0,20% Linear and multilinear algebra; matrix theory22 354 0,20% Topological groups, Lie groups01 287 0,16% History and biography86 279 0,16% Geophysics26 272 0,15% Real functions06 243 0,14% Order, lattices, ordered algebraic structures08 236 0,13% General algebraic systems43 184 0,10% Abstract harmonic analysis28 181 0,10% Measure and integration80 173 0,10% Classical thermodynamics, heat transfer33 162 0,09% Special functions12 141 0,08% Field theory and polynomials40 138 0,08% Sequences, series, summability39 132 0,07% Difference and functional equations19 125 0,07% K-theory45 120 0,07% Integral equations31 113 0,06% Potential theory44 58 0,03% Integral transforms, operational calculus

Page 96: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

72 APÊNDICE A

Page 97: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Apêndice B

Classificação por janelas

73

Page 98: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

74 APÊNDICE B

Tabela B.1: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 1.

Registro Nome Ano de titulação País de titulação Orientados diretos93643 C.-C. Jay Kuo 1987 UnitedStates 12011498 Roger Temam 1967 France 11269895 Andrew Whinston 1962 UnitedStates 9751373 Leonard Ornstein 1908 Netherlands 9551374 Ludwig Prandtl 1899 Germany 8821566 Willi Jager 1966 Germany 9176955 Yurii Mitropolsky 0 Ukraine 877298 David Hilbert 1885 Germany 7564567 Ronold King 1932 UnitedStates 1007401 C. Felix Klein 1868 Germany 6310480 Andrei Kolmogorov 1925 Russia 8245228 Selim Krein 1942 unknow 818415 David Moursund 1963 UnitedStates 8265093 Alexander Mikhalev 1967 Russia 85148660 Arnold Zellner 1957 UnitedStates 8112042 Wilhelm Magnus 1931 Germany 7496080 Charles Ehresmann 1934 France 7879876 Bruce Vogeli 1960 UnitedStates 77104644 Richard Eden 1951 UnitedKingdom 8085043 Egon Krause 1966 UnitedStates 7671057 Edward McCluskey, Jr. 1956 UnitedStates 7158777 Pekka Neittaanmaki 1978 Finland 8163602 Robert Newcomb 1960 UnitedStates 709112 Neil Davidson 1970 UnitedStates 737952 Hubert Wall 1927 UnitedStates 6664272 Jean-Claude Nedelec 1970 France 7118355 Beno Eckmann 1942 Switzerland 7230979 Terence Speed 1968 Australia 6940628 Wayne Fuller 1959 UnitedStates 677404 C. L. Ferdinand Lindemann 1873 Germany 4893649 Anatoliy Samoilenko 1963 Ukraine 6818758 Shing-Tung Yau 1971 UnitedStates 6697284 Bart De Moor 1988 Belgium 7718331 Ernst Kummer 1831 Germany 5570804 David Cox 1949 UnitedKingdom 6221648 Eduard Stiefel 1935 Switzerland 634209 David Blackwell 1941 UnitedStates 6537407 Azriel Rosenfeld 1960 UnitedStates 5814701 George Bachman 1956 UnitedStates 6315860 John Tukey 1939 UnitedStates 5618746 Roger Brockett 1964 UnitedStates 6013411 Joseph Keller 1948 UnitedStates 5913300 Arthur Bryson, Jr. 1951 UnitedStates 5921344 Heinz-Gerd Hegering 1971 Germany 6594950 David Bogy 1966 UnitedStates 6261476 Peter Phillips 1974 UnitedKingdom 59103443 Donald Marcotte 1969 UnitedStates 61129705 Jack Wolf 1960 UnitedStates 5920846 Gunter Schwarze 1963 Germany 6213415 Peter Lax 1949 UnitedStates 55

Page 99: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CLASSIFICAÇÃO POR JANELAS 75

Tabela B.2: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 5.

Registro Nome Ano de titulação País de titulação Orientados diretos7298 David Hilbert 1885 Germany 757404 C. L. Ferdinand Lindemann 1873 Germany 487401 C. Felix Klein 1868 Germany 63806 E. H. Moore 1885 UnitedStates 31

7361 Erhard Schmidt 1905 Germany 3218331 Ernst Kummer 1831 Germany 55805 Oswald Veblen 1903 UnitedStates 16

7486 Karl Weierstrass 1841 Germany 417461 Solomon Lefschetz 1911 UnitedStates 267865 H. A. Newton 1850 UnitedStates 45879 George Birkhoff 1907 UnitedStates 4634254 Gaston Darboux 1866 France 64642 Ferdinand Frobenius 1870 Germany 177378 Richard Courant 1910 Germany 367487 Hermann Schwarz 1864 Germany 1910479 Nikolai Luzin 1915 Russia 1717409 Heinz Hopf 1925 Germany 507451 William Story 1875 Germany 2011370 Lazarus Fuchs 1858 Germany 2819524 Ludwig Bieberbach 1910 Germany 2534266 C. Emile Picard 1877 France 1524109 Dimitri Egorov 1901 Russia 127862 Edmund Landau 1899 Germany 317488 Leopold Fejer 1902 Hungary 2031357 Arnold Sommerfeld 1891 Germany 3512545 Waclaw Sierpinski 1906 Poland 925484 Heinrich Scherk 1823 Germany 218571 Edmund Whittaker 1895 UnitedKingdom 87402 Julius Plucker 1823 Germany 119964 Rudolf Lipschitz 1853 Germany 18011 Alonzo Church 1927 UnitedStates 3429458 Christoph Gudermann 1823 Germany 210480 Andrei Kolmogorov 1925 Russia 8226995 Michel Chasles 1814 France 234233 Laurent Schwartz 1943 France 1612543 Andrei Markov 1884 Russia 651374 Ludwig Prandtl 1899 Germany 88286 R. L. Moore 1905 UnitedStates 50

39071 Emile Borel 1893 France 67379 Erich Hecke 1910 Germany 1412544 Georgy Voronoy 1896 Russia 217865 Simeon Poisson 1800 France 373816 Georges Valiron 1914 France 736703 Jacques-Louis Lions 1954 France 4430176 Karl Pearson 1879 UnitedKingdom 417946 Gustav Dirichlet 1827 Germany 618589 Wilhelm Scheibner 1848 Germany 328038 Salomon Bochner 1921 Germany 3812546 Stanislaw Zaremba 1889 France 1017806 G. H. Hardy 0 UnitedKingdom 24

Page 100: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

76 APÊNDICE B

Tabela B.3: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 10.

Registro Nome Ano de titulação País de titulação Orientados diretos17865 Simeon Poisson 1800 France 37401 C. Felix Klein 1868 Germany 6317864 Joseph Lagrange 0 Italy 366476 Abraham Kastner 1739 Germany 1018231 Carl Gauss 1799 Germany 1018230 Johann Pfaff 1786 Germany 517946 Gustav Dirichlet 1827 Germany 67404 C. L. Ferdinand Lindemann 1873 Germany 4819964 Rudolf Lipschitz 1853 Germany 17402 Julius Plucker 1823 Germany 1

108295 Pierre-Simon Laplace 0 unknow 147064 Martin Ohm 1811 Germany 1147025 Karl von Langsdorf 1781 Germany 317981 Jean-Baptiste Fourier 0 France 229642 Christian Gerling 1812 Germany 157670 Christian Hausen 1713 Germany 326995 Michel Chasles 1814 France 238586 Leonhard Euler 1726 Switzerland 625484 Heinrich Scherk 1823 Germany 265161 Georg Lichtenberg 1765 Germany 47298 David Hilbert 1885 Germany 7557667 Bernhard Thibaut 1796 Germany 318331 Ernst Kummer 1831 Germany 5529458 Christoph Gudermann 1823 Germany 218603 Friedrich Bessel 1810 Germany 27486 Karl Weierstrass 1841 Germany 41

108266 Jean d’Alembert 0 unknow 1806 E. H. Moore 1885 UnitedStates 31

146036 Giovanni Battista Beccaria 0 unknow 17865 H. A. Newton 1850 UnitedStates 465162 Heinrich Brandes 1800 Germany 134254 Gaston Darboux 1866 France 6127710 Johann Bode 0 Germany 153410 Johann Bernoulli 1690 Switzerland 4128986 Johann Planer 1686 Germany 215635 Carl Jacobi 1825 Germany 67361 Erhard Schmidt 1905 Germany 32805 Oswald Veblen 1903 UnitedStates 16

12541 Nikolai Brashman 1834 Russia 257659 Johann Mayer 1773 Germany 212542 Pafnuty Chebyshev 1849 Russia 642016 William Hopkins 1830 UnitedKingdom 641423 Enno Dirksen 1820 Germany 117461 Solomon Lefschetz 1911 UnitedStates 265879 George Birkhoff 1907 UnitedStates 4672669 Johann Wichmannshausen 1685 Germany 134266 C. Emile Picard 1877 France 157487 Hermann Schwarz 1864 Germany 19

127668 Johann Busch 1752 Germany 17451 William Story 1875 Germany 20

Page 101: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CLASSIFICAÇÃO POR JANELAS 77

Tabela B.4: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 15.

Registro Nome Ano de titulação País de titulação Orientados diretos57670 Christian Hausen 1713 Germany 366476 Abraham Kastner 1739 Germany 1017865 Simeon Poisson 1800 France 317864 Joseph Lagrange 0 Italy 3128986 Johann Planer 1686 Germany 238586 Leonhard Euler 1726 Switzerland 653410 Johann Bernoulli 1690 Switzerland 418230 Johann Pfaff 1786 Germany 521235 Otto Mencke 1665 Germany 254440 Jacob Bernoulli 1676 Switzerland 3137705 Jakob Thomasius 1643 Germany 37401 C. Felix Klein 1868 Germany 63

108295 Pierre-Simon Laplace 0 unknow 118231 Carl Gauss 1799 Germany 10108266 Jean d’Alembert 0 unknow 160782 Johann Segner 1726 Germany 472669 Johann Wichmannshausen 1685 Germany 1146036 Giovanni Battista Beccaria 0 unknow 1127962 Michael Walther, Jr. 1661 Germany 2143011 Nicolas Malebranche 1672 unknow 276481 Elias Camerarius, Sr. 1663 Germany 2127710 Johann Bode 0 Germany 1128938 Rudolf Camerarius 1684 Germany 1127668 Johann Busch 1752 Germany 1129628 Nikolaus Eglinger 1660 Switzerland 1128046 Johann Pasch 1683 Germany 1125886 Georg Hamberger 1721 Germany 27404 C. L. Ferdinand Lindemann 1873 Germany 4860985 Gottfried Leibniz 1666 Germany 217946 Gustav Dirichlet 1827 Germany 6129708 Johann Bauhin 1649 Switzerland 147025 Karl von Langsdorf 1781 Germany 319964 Rudolf Lipschitz 1853 Germany 165161 Georg Lichtenberg 1765 Germany 47402 Julius Plucker 1823 Germany 117981 Jean-Baptiste Fourier 0 France 2143084 Peter Werenfels 1649 Switzerland 147064 Martin Ohm 1811 Germany 1126995 Michel Chasles 1814 France 229642 Christian Gerling 1812 Germany 17298 David Hilbert 1885 Germany 75

143630 Friedrich Leibniz 1622 Germany 1125971 Simon Hilscher 1704 Germany 157667 Bernhard Thibaut 1796 Germany 3124000 Rudolf Krause 1671 Netherlands 2123974 Georg Metzger 1644 Switzerland-Germany 2125125 Emmanuel Stupanus 1613 Switzerland 418331 Ernst Kummer 1831 Germany 55143083 Theodor Zwinger, Jr. 1630 Switzerland 125484 Heinrich Scherk 1823 Germany 2

Page 102: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

78 APÊNDICE B

Tabela B.5: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 20.

Registro Nome Ano de titulação País de titulação Orientados diretos137705 Jakob Thomasius 1643 Germany 357670 Christian Hausen 1713 Germany 366476 Abraham Kastner 1739 Germany 1017865 Simeon Poisson 1800 France 317864 Joseph Lagrange 0 Italy 3128986 Johann Planer 1686 Germany 2143630 Friedrich Leibniz 1622 Germany 121235 Otto Mencke 1665 Germany 27401 C. Felix Klein 1868 Germany 6318230 Johann Pfaff 1786 Germany 5127962 Michael Walther, Jr. 1661 Germany 238586 Leonhard Euler 1726 Switzerland 653410 Johann Bernoulli 1690 Switzerland 454440 Jacob Bernoulli 1676 Switzerland 3125125 Emmanuel Stupanus 1613 Switzerland 460985 Gottfried Leibniz 1666 Germany 276481 Elias Camerarius, Sr. 1663 Germany 2125148 Theodor Zwinger 1553 France 3143011 Nicolas Malebranche 1672 unknow 2125434 Marin Mersenne 1611 France 3127724 Christoph Notnagel 1630 Germany 2108295 Pierre-Simon Laplace 0 unknow 118231 Carl Gauss 1799 Germany 10125450 Frans van Schooten, Jr. 1635 Netherlands 560984 Erhard Weigel 1650 Germany 10125408 Jacobus Golius 1612 Netherlands 360782 Johann Segner 1726 Germany 4108266 Jean d’Alembert 0 unknow 1101860 Franciscus Sylvius 1634 Netherlands-Switzerl 1172669 Johann Wichmannshausen 1685 Germany 1130248 Petrus Ryff 1584 Switzerland 1125886 Georg Hamberger 1721 Germany 2146036 Giovanni Battista Beccaria 0 unknow 1128938 Rudolf Camerarius 1684 Germany 1124000 Rudolf Krause 1671 Netherlands 2125488 Georg Wedel 1667 Netherlands-Germany 2125154 Werner Rolfinck 1625 Germany-Italy 3123974 Georg Metzger 1644 Switzerland-Germany 2127790 Moritz Steinmetz 1550 Germany 2128046 Johann Pasch 1683 Germany 17404 C. L. Ferdinand Lindemann 1873 Germany 48

125006 Adriaan van den Spieghel 1603 Belgium-Italy 3129628 Nikolaus Eglinger 1660 Switzerland 1127710 Johann Bode 0 Germany 1129708 Johann Bauhin 1649 Switzerland 1125561 Christiaan Huygens 1647 Netherlands-France 1143859 Bartholomaus Schwendendorffer 1656 Germany 1127956 Johann Quenstedt 1643 Germany 1128743 Johann Macasius 1638 Germany 1127923 Aegidius Strauch 1651 Germany 1

Page 103: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CLASSIFICAÇÃO POR JANELAS 79

Tabela B.6: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 25.

Registro Nome Ano de titulação País de titulação Orientados diretos57670 Christian Hausen 1713 Germany 3137705 Jakob Thomasius 1643 Germany 3125148 Theodor Zwinger 1553 France 317865 Simeon Poisson 1800 France 366476 Abraham Kastner 1739 Germany 10125047 Petrus Ramus 1536 France 317864 Joseph Lagrange 0 Italy 37401 C. Felix Klein 1868 Germany 63

125665 Johannes Sturmius 1527 Belgium 4128986 Johann Planer 1686 Germany 2131517 Guillaume Bude 1486 France 2125181 Rudolph Snellius 1572 Germany 4143630 Friedrich Leibniz 1622 Germany 118230 Johann Pfaff 1786 Germany 521235 Otto Mencke 1665 Germany 2127962 Michael Walther, Jr. 1661 Germany 238586 Leonhard Euler 1726 Switzerland 6125125 Emmanuel Stupanus 1613 Switzerland 453410 Johann Bernoulli 1690 Switzerland 454440 Jacob Bernoulli 1676 Switzerland 3125109 Hieronymus Fabricius 1559 Italy 5131443 Georgius Hermonymus 0 unknow 2130248 Petrus Ryff 1584 Switzerland 1125434 Marin Mersenne 1611 France 3131546 Jacques Toussain 1521 France 2119159 Johannes von Andernach 1527 Belgium 476481 Elias Camerarius, Sr. 1663 Germany 2152903 Pietro Pomponazzi 1487 Italy 260985 Gottfried Leibniz 1666 Germany 2125006 Adriaan van den Spieghel 1603 Belgium-Italy 3131606 Adrien Turnebe 1532 France 218231 Carl Gauss 1799 Germany 10136726 Pietro Roccabonella 0 Italy 2152905 Vittore Trincavelli 0 Italy 2127790 Moritz Steinmetz 1550 Germany 2108295 Pierre-Simon Laplace 0 unknow 1125408 Jacobus Golius 1612 Netherlands 3143011 Nicolas Malebranche 1672 unknow 2125232 Ludolph van Ceulen 0 unknow 2127606 Ambrosius Rhodius 1600 Germany 3152906 Bassiano Landi 1542 Italy 1127724 Christoph Notnagel 1630 Germany 2126827 Georg Joachim Rheticus 1535 Germany 4125450 Frans van Schooten, Jr. 1635 Netherlands 5108266 Jean d’Alembert 0 unknow 160984 Erhard Weigel 1650 Germany 1060782 Johann Segner 1726 Germany 4114992 Gilbert Jacchaeus 1601 UnitedKingdom-German 3127848 Jacobus Martini 1596 Germany 4101860 Franciscus Sylvius 1634 Netherlands-Switzerl 11

Page 104: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

80 APÊNDICE B

Tabela B.7: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 30.

Registro Nome Ano de titulação País de titulação Orientados diretos57670 Christian Hausen 1713 Germany 3137705 Jakob Thomasius 1643 Germany 317865 Simeon Poisson 1800 France 366476 Abraham Kastner 1739 Germany 10125148 Theodor Zwinger 1553 France 37401 C. Felix Klein 1868 Germany 6317864 Joseph Lagrange 0 Italy 3131517 Guillaume Bude 1486 France 2125047 Petrus Ramus 1536 France 3131443 Georgius Hermonymus 0 unknow 2125888 Jan Standonck 1474 France 4127181 Girolamo Aleandro 1499 Italy 2125422 Jacobus Sylvius 1530 France 3119159 Johannes von Andernach 1527 Belgium 4128986 Johann Planer 1686 Germany 2125665 Johannes Sturmius 1527 Belgium 4125938 Desiderius Erasmus 1497 France 2126659 Ulrich Zasius 1501 Germany 2131444 Johannes Argyropoulos 1444 Italy 4126736 Erasmus Reinhold 1535 Germany 7131535 Angelo Poliziano 1477 Italy 2125181 Rudolph Snellius 1572 Germany 418230 Johann Pfaff 1786 Germany 5143630 Friedrich Leibniz 1622 Germany 1131575 Georgios Gemistos 1380 unknow 221235 Otto Mencke 1665 Germany 238586 Leonhard Euler 1726 Switzerland 6127962 Michael Walther, Jr. 1661 Germany 2125125 Emmanuel Stupanus 1613 Switzerland 453410 Johann Bernoulli 1690 Switzerland 454440 Jacob Bernoulli 1676 Switzerland 3125109 Hieronymus Fabricius 1559 Italy 5152904 Giovanni Battista della Monte 0 Italy 2131546 Jacques Toussain 1521 France 2130248 Petrus Ryff 1584 Switzerland 1125434 Marin Mersenne 1611 France 3128012 Rudolf Agricola 1478 Italy 276481 Elias Camerarius, Sr. 1663 Germany 218231 Carl Gauss 1799 Germany 1060985 Gottfried Leibniz 1666 Germany 2127092 Valentin Thau 1555 Germany 2108295 Pierre-Simon Laplace 0 unknow 1127011 Johannes Hommel 1543 Germany 2125006 Adriaan van den Spieghel 1603 Belgium-Italy 3131606 Adrien Turnebe 1532 France 2127166 Niccolo Leoniceno 1446 Italy 2152905 Vittore Trincavelli 0 Italy 2119097 Gemma Frisius 1529 Belgium 4125760 Johann Reuchlin 1477 France-Switzerland 2126827 Georg Joachim Rheticus 1535 Germany 4

Page 105: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

CLASSIFICAÇÃO POR JANELAS 81

Tabela B.8: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentesprincipais com janela de tamanho 41.

Registro Nome Ano de titulação País de titulação Orientados diretos57670 Christian Hausen 1713 Germany 317865 Simeon Poisson 1800 France 3137705 Jakob Thomasius 1643 Germany 366476 Abraham Kastner 1739 Germany 10125148 Theodor Zwinger 1553 France 37401 C. Felix Klein 1868 Germany 6317864 Joseph Lagrange 0 Italy 3131517 Guillaume Bude 1486 France 2131443 Georgius Hermonymus 0 unknow 2125047 Petrus Ramus 1536 France 3131575 Georgios Gemistos 1380 unknow 2131535 Angelo Poliziano 1477 Italy 2125888 Jan Standonck 1474 France 4128012 Rudolf Agricola 1478 Italy 2127181 Girolamo Aleandro 1499 Italy 2126659 Ulrich Zasius 1501 Germany 2125938 Desiderius Erasmus 1497 France 2131444 Johannes Argyropoulos 1444 Italy 4125422 Jacobus Sylvius 1530 France 3119159 Johannes von Andernach 1527 Belgium 4128986 Johann Planer 1686 Germany 2125665 Johannes Sturmius 1527 Belgium 4126736 Erasmus Reinhold 1535 Germany 718230 Johann Pfaff 1786 Germany 5125181 Rudolph Snellius 1572 Germany 4143630 Friedrich Leibniz 1622 Germany 121235 Otto Mencke 1665 Germany 238586 Leonhard Euler 1726 Switzerland 6127962 Michael Walther, Jr. 1661 Germany 253410 Johann Bernoulli 1690 Switzerland 4125125 Emmanuel Stupanus 1613 Switzerland 454440 Jacob Bernoulli 1676 Switzerland 3125109 Hieronymus Fabricius 1559 Italy 5152904 Giovanni Battista della Monte 0 Italy 2131546 Jacques Toussain 1521 France 2130248 Petrus Ryff 1584 Switzerland 1125434 Marin Mersenne 1611 France 376481 Elias Camerarius, Sr. 1663 Germany 218231 Carl Gauss 1799 Germany 10108295 Pierre-Simon Laplace 0 unknow 160985 Gottfried Leibniz 1666 Germany 2127107 Johannes Stoffler 1476 Germany 2127092 Valentin Thau 1555 Germany 2127011 Johannes Hommel 1543 Germany 2125006 Adriaan van den Spieghel 1603 Belgium-Italy 3131606 Adrien Turnebe 1532 France 2126956 Philipp Melanchthon 1511 Germany 3127166 Niccolo Leoniceno 1446 Italy 2152905 Vittore Trincavelli 0 Italy 2119097 Gemma Frisius 1529 Belgium 4

Page 106: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

82 APÊNDICE B

Page 107: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Apêndice C

Publicações realizadas no período domestrado

C.1 BRASNAM – III BrazilianWorkshop on Social Network Analy-sis and Mining (2014)

83

Page 108: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Caracterizacao de arvores de genealogia academica por meiode metricas em grafos

Luciano Rossi1, Jesus P. Mena-Chalco1

1Centro de Matematica, Computacao e Cognicao – Universidade Federal do ABC{luciano.rossi,jesus.mena}@ufabc.edu.br

Abstract. Documenting individuals and their relationships using the genealogyaims to obtain knowledge about the origin, evolution and characteristics of in-terrelated groups. This approach allows to understand the formation and futuretrends of groups. In this context, the characterization of the academic genea-logy trees by topological metrics allows to categorize individuals screened bytheir academic lineage and enables to obtain important new knowledge for un-derstanding the scientific scenario about an area. In this work, we present nineadapted and developed topological metrics to characterize academic genealogytrees. In order to show the feasibility of our characterization method by makinguse of topological metrics, we present an experiment focusing on the analysis ofthe genealogy of Johann Bernoulli (1667-1748), consisting of 81,768 mathema-ticians and 88,955 relationships of academic advising.

Resumo. Documentar indivıduos e seus relacionamentos utilizando a genealo-gia visa a obtencao de conhecimento sobre a origem, evolucao e disseminacaode grupos inter-relacionados. Essa tarefa de documentacao auxilia o entendi-mento da formacao e tendencias futuras de grupos de pessoas. Nesse contexto,a caracterizacao de arvores de genealogia academica, por meio de metricas to-pologicas, permite categorizar indivıduos atraves de sua linhagem academica epossibilita a obtencao de novos conhecimentos importantes para a compreensaodo cenario cientıfico de uma area. Neste trabalho apresentamos nove metricasadaptadas e desenvolvidas para caracterizar arvores de genealogia academica.A fim de demonstrar a viabilidade do nosso metodo de caracterizacao por meioda utilizacao de metricas topologicas, apresentamos testes preliminares volta-dos para a analise da genealogia de Johann Bernoulli (1667-1748), compostode 81.768 matematicos e 88.955 relacoes de orientacao academica.

1. IntroducaoA genealogia e uma ciencia auxiliar da historia que estuda a origem, evolucao edisseminacao de grupos familiares (Malmgren et al., 2010). O objeto de pesquisa dagenealogia sao os ascendentes e descendentes de um indivıduo. O processo de pesquisaenvolvido na genealogia abrange a identificacao de parentesco entre indivıduos atraves deregistros historicos como certidoes de nascimento, casamento, obito, registro de propri-edades e outros documentos que possam comprovar uma ligacao entre indivıduos. Umaarvore genealogica e um grafo conexo acıclico que e comumente utilizado para documen-tar e facilitar o entendimento a respeitos de estudos de cunho genealogico (Hambergeret al., 2011). Neste tipo de grafo, cada vertice representa um indivıduo na arvore e cadaaresta indica a existencia de algum tipo de relacao entre os vertices. Neste contexto,

Page 109: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

uma arvore de genealogia academica e uma estrutura em que cada vertice e um orien-tador academico e as arestas (direcionadas) representam as relacoes de orientacao. Umconjunto de arvores pode ser denominado floresta.

A utilizacao da genealogia (Derrida et al., 1999) como ferramenta para documen-tar e obter novos conhecimentos sobre grupos inter-relacionados e cada vez mais fre-quente em contextos academico-cientıficos (Malmgren et al., 2010; Chang, 2011; Hart &Cossuth, 2013; Mena-Chalco & Cesar-Jr., 2013). A estruturacao de arvores de genealo-gia academica, por meio de relacoes de orientacao, pode ser de grande utilidade para oregistro historico de grupos atuantes em especıficas areas do conhecimento, onde os in-divıduos de interesse (orientadores e orientados) sao representados por vertices na arvoree os seus relacionamentos de orientacao (e.g., orientacoes de doutorado ou supervisaode pos-doutorado) sao representados por arestas. A obtencao da floresta de genealogiapossibilita, tambem, a caracterizacao da area do conhecimento em questao por meio demetricas que permitem, atraves de analises estatısticas, data mining e tecnicas de reco-nhecimento de padroes, extrair conhecimento relevante para a area que e objeto de estudo.

A importancia deste tipo de analise se revela por meio da possibilidade de avaliar oimpacto das orientacoes academicas no desenvolvimento cientıfico de especıficas areas doconhecimento e na identificacao dos principais atores, ou grupos de maior relevancia, quese destacaram por suas contribuicoes na proliferacao do conhecimento atraves deste tipode relacao. A proposta deste trabalho e caracterizar arvores de genealogia por meio dodesenvolvimento, adaptacao e aplicacao de metricas topologicas que permitam diferenciaros vertices das arvores, identificar grupos semelhantes e, de forma geral, promover ummaior entendimento sobre este tipo de estrutura.

Este estudo esta estruturado em cinco secoes, alem desta introducao. Na secao 2,apresentamos estudos que possuem temas correlatos ao aqui descrito. Na secao 3, apre-sentamos as metricas consideradas para a caracterizacao das arvores de genealogia. Aestrategia utilizada para a obtencao dos dados e os resultados obtidos neste estudo saodescritos nas secoes 4 e 5, respectivamente. Finalmente, na secao 6 apresentamos ospontos de relevancia obtidos com este estudo bem como possıveis trabalhos futuros.

2. Trabalhos correlatosA analise de redes sociais e uma abordagem que origina-se em outras areas do conheci-mento (sociologia, psicologia social e antropologia) (Matheus et al., 2006) e apresentagrande crescimento nos ultimos anos devido ao (i) aumento da quantidade de dados dis-ponıveis para analise, (ii) desenvolvimento das areas de informatica e processamento dedados e (iii) a ampliacao dos assuntos de interesse e areas do conhecimento que utilizameste tipo de analise. A utilizacao destas analises pode ser de grande valor para a obtencaode conhecimento sobre diversos grupos sociais e envolve quatro componentes principais:gerenciamento e estruturacao de dados, descoberta de conhecimento, aprendizagem demaquina e tecnicas de visualizacao (Freitas et al., 2008).

A representacao de indivıduos e seus relacionamentos na forma de redesapresenta-se como forma eficaz para extrair conhecimento em contextos, por vezes, dedifıcil interpretacao. Caracterizar a ciencia, como por exemplo a area da Ciencia daInformacao, e a contribuicao que a analise de redes sociais proporciona para a sua corretainterpretacao e ainda um desafio. Nesse contexto, utilizar arvores de genealogia como

Page 110: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

ferramenta para o estudo e descoberta de conhecimento sobre um grupo de indivıduos euma estrategia eficiente de ampla aplicacao. Um desafio importante, neste projeto, recaisobre a forma pela qual pode-se extrair conhecimento relevante a respeito de tais estrutu-ras. Um estudo, nao muito recente, a respeito das propriedades estatısticas das arvores degenealogia foi conduzido por Derrida et al. (1999) onde se busca, a partir da reconstrucaoda genealogia de um indivıduo pertencente a um pequeno grupo, medir a distribuicao deseus ancestrais que aparecem mais de uma vez na arvore construıda.

Diferentes estudos foram dedicados a documentacao, analise e classificacao dearvores de genealogia academica atraves de relacionamentos de orientacao. O trabalho ‘ALabor of Love: The Mathematics Genealogy Project’ (Jackson, 2007) descreve o projeto,idealizado e implementado por Harry Coonce, sobre os relacionamentos de orientacaoacademica entre os doutores em matematica, e tem como principal objetivo ‘compilarinformacoes a respeito de todos os matematicos do mundo’ (uma comunidade cientıficaseleta e pequena). O projeto, que em Marco de 2014 disponibiliza, via Web, consulta amais de 178.000 matematicos em diversos perıodos, apresenta resultados historicos muitosignificantes no que tange a documentacao da area da matematica, porem neste projetonao foi contemplada uma analise ampla do conjunto de dados. E importante destacarque o conjunto de dados gerado com o projeto de genealogia matematica (MathematicsGenealogy Project) e uma base ımpar que ainda nao foi explorada completamente.

No estudo sobre o papel das relacoes de orientacao academica no desempenhodos orientados, Malmgren et al. (2010) utilizaram a genealogia dos matematicos comobase, estruturando-os por meio de suas relacoes de orientacao academica. As analisesapresentadas foram referentes a um subconjunto de 7.259 matematicos, com graduacaoocorrida entre 1900 e 1960, e suas respectivas contagens de descendentes (fecundidade).O referido estudo apresenta resultados interessantes, utilizando analises estatısticas, para acompreensao, em escala temporal, do desenvolvimento do grupo pesquisado e correlacoesexistentes entre fecundidade e outras medidas de desempenho academico.

Por outro lado, a identificacao do impacto que uma orientacao academica exercesobre o orientado, a utilizacao dos registros do projeto de genealogia matematica e o en-tendimento de como a comunidade dos matematicos se desenvolveu, sao itens abordadospor Narayan (2011). O conjunto de dados obtido (137.138 matematicos e seus relaciona-mentos) foi modelado em diferentes tipos de grafos considerando os relacionamentos, pri-meiramente, como arestas direcionadas, posteriormente, como arestas nao-direcionadase os relacionamentos entre irmaos (quando dois ou mais indivıduos tiveram o mesmoorientador), de modo a possibilitar a analise dos grafos sob diferentes perspectivas.

A utilizacao de relacionamentos entre irmaos ou redes de parentesco (kinshipnetworks) resulta em arvores de genealogia de composicao mista. As arestas direcio-nadas (que indicam relacionamento top-down e utilizada comumente para interligar paise filhos). As arestas nao-direcionadas (que indicam relacionamento, como por exemplocasamento, onde nao existe uma orientacao de origem e destino) sao menos frequentesneste tipo de abordagem. Essa forma de modelar as arvores e descrita no estudo de Ham-berger et al. (2011) e demonstra as possibilidades de avaliacao com diferentes estruturas.

A importancia deste tipo de estudo tambem pode ser verificada no projeto Neu-rotree (David & Hayden, 2012). Em concordancia com o projeto dos matematicos, a

Page 111: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

area da neurociencia (outra comunidade cientıfica seleta e pequena) tambem busca acompreensao da ciencia atraves do estudo de sua genealogia. Uma dificuldade comumem ambos os projetos e a identificacao dos orientadores e suas relacoes de orientacao.O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtencaodas informacoes da area e, pela primeira vez em projetos deste tipo, na interpretacao dasarvores de genealogia academica constituıdas. A utilizacao de metricas de avaliacao dearvores apresentou resultados interessantes na caracterizacao da area da Neurociencia.Este projeto conta com, aproximadamente, 40.000 pesquisadores e 60.000 relaciona-mentos cadastrados. Iniciativas similares sao observadas para a comunidade cientıficados Fısicos (http://academictree.org/physics) e, de forma mais ampla, para osacademicos titulados com doutorado (http://phdtree.org). Estes projetos sao, inici-almente, pautados na obtencao e documentacao de seus membros, nao oferecendo analisesdestes conjuntos de dados.

Documentar a historia e compreender a expansao de grupos com interesses co-muns, destacando principalmente as comunidades academicas, passa obrigatoriamentepela utilizacao da genealogia e, consequentemente, pela construcao de arvores ge-nealogicas. A utilizacao da genealogia foi o caminho para o estudo de um seleto grupo demeteorologistas tropicais, apresentado por Hart & Cossuth (2013). Os resultados desseestudo motivaram, devido as caracterısticas de interdisciplinaridade dos indivıduos per-tencentes a arvore, a ampliacao da busca por indivıduos fora dos limites da area.

O desenvolvimento de metodos para caracterizar arvores genealogicas e parte im-portante do trabalho de gerar conhecimento por meio destas estruturas. Estudos neste sen-tido, como o de Griffiths (1987), demonstram a viabilidade da caracterizacao de arvoresde genealogia por meio de metricas especıficas. No nosso trabalho, exploramos novemetricas topologicas adaptadas e desenvolvidas para caracterizar arvores de genealogiaacademica.

3. Metricas em grafos para a caracterizacao de arvores de genealogiaAs arvores de genealogia podem ser caracterizadas por meio de metricas de avaliacaode grafos. Estas metricas tem como objetivo caracterizar o indivıduo, ou seja, atribuirum valor numerico que possa ser utilizado para qualificar este indivıduo pela topologiade sua arvore, de forma a descobrir informacoes ou padroes que possam auxiliar a umacompreensao a respeito de sua formacao, capacidade de propagacao e diferenciacao entreas outras arvores da floresta. As metricas consideradas neste estudo sao descritas a seguir.

• Fecundidade1. O objetivo desta metrica e dimensionar a arvore por meiodo numero de vertices que ela apresenta. E uma metrica importante para aclassificacao de um vertice raiz com base na quantidade de descendentes que eleinfluenciou. A fecundidade (f ) e estimada considerando a somatoria do numerode vertices existentes em cada nıvel, mi, da arvore f =

∑mi=1 (ni) onde ni e o

numero de vertices no nıvel mi.• Fecundidade ponderada. Esta metrica tem objetivo similar ao da fecundidade,

sua principal caracterıstica e a atribuicao de um peso maior para os vertices queestao mais proximos do vertice raiz. Os relacionamentos diretos tem maior peso

1As metricas fecundidade e fecundidade ponderada foram adaptadas do trabalho de arvores de genea-logia dos neurocientistas descrito por David & Hayden (2012).

Page 112: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

no calculo do valor da metrica. A fecundidade ponderada (fp) reflete o potencialde um vertice em se relacionar com outros vertices (orientacao academica) e suainfluencia na propagacao de relacionamentos. Neste trabalho, a fp utiliza comofator de ponderacao a distancia existente entre o vertice raiz e seus descendentes,fp =

∑mi=1

(ni

i2

), onde ni e o numero de vertices no nıvel i da arvore. Esta metrica

reduz o impacto da quantidade de vertices pertencentes a linhagem de um verticeraiz a medida que estes se distanciam.• Numero de folhas. Definida como a quantidade de vertices nao fecundos, ou seja,

aqueles que nao tem nenhum filho. O numero de folhas (nf ) totaliza a quantidadede vertices, na arvore, que nao orientaram alunos. Comumente, isso acontecequando um pesquisador nao segue a vida academica ou quando estiver no inıcio davida academica. Por outro lado, a quantidade de folhas existente no ultimo nıvelda arvore, poderia nos indicar que esta estrutura tem potencial de crescimento,visto que estas folhas tendem a se propagar. Ja a quantidade de folhas observadasnos nıveis intermediarios indicariam vertices com potencial esterilidade, pois naoprocriaram em tempo habil.• Profundidade2. O objetivo da metrica profundidade (p) e fornecer o grau de

maturidade da arvore genealogica formada a partir de um vertice raiz. Ela medea quantidade de arestas existentes entre o vertice raiz e um vertice mais distanteque possa ser alcancado. A metrica profundidade (p) pode ser definida por: p =max(d(i, j)), onde d(i, j) corresponde a distancia geodesica entre os vertices i e j.• Largura. A metrica largura tem como objetivo medir a quantidade de relaciona-

mentos diretos que um vertice raiz possui. Representa a quantidade de orientadosexistente no nıvel imediatamente posterior ao nıvel do orientador (vertice raiz)e reflete a produtividade (em termos de orientacao) direta deste. A largura (l) euma medida simples usada para classificar um orientador. Trata-se de uma analisequantitativa importante, porem, pouco diz sobre a qualidade da orientacao.• Maior largura3. A metrica maior largura (ml) tem como objetivo identifi-

car o maior numero de relacionamentos em um mesmo nıvel da arvore ge-nealogica. Este valor demonstra o quao ampla foi a influencia de um vertice raizna propagacao dos relacionamentos em sua arvore.• Distancia media4. A definicao de proximidade entre um vertice raiz e todos os

vertices pertencentes a sua ascendencia e o objetivo da metrica distancia media(dm). Neste contexto, quanto menor for o valor da dm, maior e a proximidadeexistente entre os vertices de uma arvore. A dm e a media dos comprimentos doscaminhos possıveis entre um vertice raiz e os vertices pertencentes a sua linhagem,e e definida por 1

n

∑i 6=j d(i, j), onde d(i, j) e a distancia (quantidade de arestas

existentes) entre os vertices i e j, n e a quantidade de caminhos contabilizados.• Media dos menores caminhos. Esta metrica apresenta um objetivo similar ao

da distancia media, sua principal diferenca esta nos caminhos utilizados para ocalculo. Objetiva-se com esta metrica ponderar o valor obtido. Assim, esta medidarepresenta a distancia media entre os indivıduos pertencentes a arvore. A mediados menores caminhos (mmc) e definida por 1

n(n−1)∑

i 6=j d(i, j), onde d(i, j) e a

2As metricas profundidade, largura e numero de folhas foram adaptadas da Teoria dos Grafos.3A metrica maior largura foi desenvolvida para este trabalho.4As metricas distancia media e media dos menores caminhos foram adaptadas da Teoria dos Grafos.

Page 113: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

distancia, quantidade de arestas existentes, entre os vertices i e j, n e a quantidadede caminhos contabilizados.• Indice H. O ındice H genealogico (h) de um vertice e definido como o maior

numero h de relacoes que este vertice possui com outros vertices que tenham, pelomenos, o mesmo numero h de relacionamentos cada um5. O objetivo desta metricae considerar a quantidade e a qualidade genealogica (no sentido de perpetuidade)dos relacionamentos dos vertices da arvore.

Para exemplificar as metricas, apresentamos na Figura 1 uma arvore de genealogia e osresultados dos calculos das respectivas metricas para os vertices mais representativos daarvore.

Vertice f fp nf p l ml dm mmc hA 28 3,51 15 5 1 9 3,52 0,13 1B 27 6,53 15 4 3 9 2,64 0,10 3C 6 3,61 3 3 3 3 1,43 0,24 1D 3 3,00 3 1 3 3 0,75 0,25 0E 15 5,03 9 3 3 7 2,13 0,14 2

Figura 1. Exemplo de arvore de genealogia com os respectivos resultados dasmetricas calculadas para seus principais vertices.

4. Conjunto de dados utilizadosUtilizamos em nosso estudo o conjunto de indivıduos pertencentes a linhagem de JohannBernoulli, importante matematico de Basel (Basileia) que, juntamente com Newton eLeibniz, e considerado um dos fundadores do calculo. Os dados foram obtidos por meiode consultas recursivas ao website do projeto de genealogia de Matematicos (Mathema-tics Genealogy Project, http://genealogy.math.ndsu.nodak.edu), onde, atravesdo fornecimento de um identificador numerico exclusivo (ID), temos acesso a uma paginahtml com informacoes sobre o matematico em questao. Em cada consulta foram obtidos:(i) os ID’s referentes aos matematicos orientados pelo indivıduo em questao e (ii) seunome completo. As consultas recursivas foram realizadas em fevereiro de 2014 e to-talizaram 81.768 matematicos e 88.955 relacionamentos. E importante ressaltar que osresultados apresentados pelo projeto dos matematicos e de grande relevancia, a motivacaodeste trabalho e baseada na assertividade destes resultados e na possibilidade de, por meio

5 O ındice H, proposta por Hirsch (2005), e uma metrica que combina quantidade (numero depublicacoes) e qualidade (numero de citacoes) da producao academica.

Page 114: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

das metricas topologicas, aprofundar as analises e, consequentemente, o conhecimento arespeito dos indivıduos envolvidos e da estrutura resultante de seus relacionamentos.

O conjunto de dados foi utilizado para povoar um banco de dados em estruturade grafo, por meio da plataforma Neo4j (banco de dados orientado a grafos). A escolhadeste tipo de estrutura se justifica pelo ganho de desempenho que pode ser obtido quandocomparado a outras estruturas relacionais. Cada matematico obtido e representado, nobanco de dados, como um vertice da arvore e para cada relacao de orientacao academicaexistente e adicionado uma aresta (direcionada) ligando o orientador ao orientado.

5. Resultados

A arvore resultante da estruturacao dos descendentes de Johann Bernoulli e seus relaci-onamentos apresenta a profundidade de 20 e a maior largura de 20.242. A fecundidadee fecundidade ponderada do vertice raiz sao 81.767 e 623,63, respectivamente. Ape-sar dos valores expressivos apresentados, Bernoulli orientou somente quatro matematicos(l = 4), destes apenas dois tiveram alunos (h = 2) e 80,69% dos indivıduos pesquisadosnao orientaram alunos (nf = 65.977).

A Figura 2 ilustra a arvore composta pela linhagem de Johann Bernoulli a tıtulode visualizar sua magnitude e estrutura. O vertice existente na parte superior da figurarepresenta a raiz da arvore (Johann Bernoulli) e sua descendencia e apresentada nos 20nıveis inferiores. Vertices e arestas com maior contraste indicam uma sobreposicao desteselementos.

Figura 2. Arvore genealogica de Johann Bernoulli.

Page 115: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

A proposta de caracterizacao de arvores de genealogia, por meio das relacoes deorientacao academica, foi implementada utilizando-se a arvore acima descrita, os resulta-dos observados foram divididos em tres topicos principais: (i) classificar os matematicos(ranking) por meio de seus resultados, (ii) identificar grupos (clusters) que compartilhemcaracterısticas ou atributos semelhantes, e (iii) analise da distribuicao das frequencias ob-servadas para intervalos pre-estabelecidos.

5.1. Classificacao dos matematicos

As medidas utilizadas neste estudo representam diferentes aspectos das arvores anali-sadas. Metricas que utilizam apenas contagens, sem ponderacao, para o calculo de seusvalores sao de representatividade exclusivamente quantitativa e importantes para dimensi-onar a arvore derivada da linhagem de um vertice raiz. Dimensionar uma arvore utilizandoapenas medidas baseadas em contagens, pode produzir classificacoes inconsistentes, vistoque estamos atribuindo um valor numerico individual para um determinado vertice e, estevalor, nao e resultado apenas dos relacionamentos diretos do vertice em questao, mastambem dos relacionamentos de seus descendentes. Para minimizar este tipo de incon-sistencia na classificacao de vertices, medidas como fp e h, que no calculo de seus resul-tados apresentam alguma ponderacao, atribuem um maior grau de classificacao para osrelacionamentos diretos do vertice analisado, refletindo com maior assertividade o desem-penho do proprio indivıduo em questao e, consequentemente, sua qualidade em termosde orientacao academica. Para avaliar a densidade de uma arvore, ou seja, a proximidadeexistente entre os vertices que a compoem, utilizamos as medidas dm e mmc.

A Tabela 1 apresenta os dez matematicos melhores colocados em cada uma dametricas avaliadas. Em concordancia com o objetivo das metricas utilizadas, observamosuma tendencia de um indivıduo que figura nas primeiras posicoes de um ranking de me-dida com base quantitativa (e.g., ranking f - Johann Bernoulli) figurar, tambem, no topode outras medidas de mesma base (e.g., ranking fo - Johann Bernoulli). Por outro lado,as medidas ponderadas ou normalizadas (e.g., fp) apresentam matematicos diferentes nasprimeiras posicoes, sugerindo que o desempenho destes indivıduos foi mais relevante emtermos de contribuicao direta com orientacao academica. Como exemplo da importanciado trabalho realizado pelo matematico, consideremos o primeiro colocado no ranking higual a 12, Heinz Hopf. Isso indica que este matematico orientou, no mınimo, 12 alu-nos que, por sua vez, orientaram, no mınimo, outros 12 alunos cada um. Um desempe-nho impressionante, nao sendo possıvel encontrar outro igual na linhagem de Bernoulli.Os resultados ligados a densidade das arvores (e.g., dm), para este conjunto de dados,apresentou uma alta correlacao com a magnitude de sua arvore, ou seja, a densidade ediretamente proporcional ao tamanho da arvore em questao.

A correta classificacao dos matematicos, identificando os indivıduos mais rele-vantes quanto a realizacao e proliferacao da atividade de orientacao academica, pode serfeita analisando as medidas calculadas de maneira individual. Conforme discutido an-teriormente, cada grupo de metricas de avaliacao reflete uma caracterıstica importante arespeito da arvore de genealogia (i.e., quantidade e qualidade das relacoes e densidade daarvore), porem, considerando o conjunto das metricas pode-se identificar os indivıduosmais prolıficos em forma de grupos (clusters) com caracterısticas similares.

Page 116: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Tabela 1. Ranking dos matematicos pertencentes a arvore genealogica de Ber-noulli para cada metrica calculada.

Fecundidade Fecundidade ponderada Numero de folhasJ. Bernoulli 81767 C. F. Klein 1326,63 J. Bernoulli 65977L. Euler 81578 S. Poisson 1099,42 L. Euler 65843J. Lagrange 78218 D. Hilbert 1093,95 J. Lagrange 63216S. Poisson 78215 C. L. F. Lindemann 1082,23 S. Poisson 63215J. B. Fourier 45929 R.Lipschitz 901,72 J. B. Fourier 37713G. Dirichlet 45927 J. Lagrange 868,36 G. Dirichlet 37712R. Lipschitz 43954 G. Dirichlet 754,42 C. F. Klein 36135C. F. Klein 43953 L. Euler 751,92 R. Lipschitz 36135C. L. F. Lindemann 32069 E. H. Moore 710,70 C. L. F. Lindemann 26415M. Chasles 31734 M.Chasles 633,01 M. Chasles 25302

Profundidade Largura Maior larguraJ. Bernoulli 20 C. C. J. Kuo 120 J. Bernoulli 20242L. Euler 19 R. Temam 111 L. Euler 20226J. Lagrange 18 L. Ornstein 95 J. Lagrange 19361S. Poisson 17 W. Jager 91 S. Poisson 19361J. B. Fourier 17 L. Prandtl 88 C. F. Klein 11878G. Dirichlet 16 A. Kolmogorov 82 R. Lipschitz 11878R. Lipschitz 15 R. Eden 80 G. Dirichlet 11515M. Chasles 15 C. Ehresmann 78 J. B. Fourier 11515J. Hennert 15 B. De Moor 77 C. L. F. Lindemann 9911C. F. Klein 14 E. Krause 76 M. Chasles 8401

Distancia media Media menores caminhos Indice hJ. Bernoulli 11,90 A. V. Perez 0,5 H. Hopf 12L. Euler 10,91 R. Mazet 0,5 E. Schmidt 11J. Lagrange 9,95 R. Oldenburger 0,5 H. Behnke 11S. Konig 9,57 G. Glaeser 0,5 R. Baer 11J. Hennert 9,54 W. Krolikowski 0,5 C. F. Klein 10J. B. Fourier 9,43 A. Chaudoir 0,5 R. L. Moore 10S. Poisson 8,95 F. Pfeiffer 0,5 S. Bochner 10P. Nieuwland 8,70 U. N. de Alba 0,5 H. Kneser 10C. Damen 8,61 J. L. Chaboche 0,5 A. Kolmogorov 10A. Brugmans 8,59 A. Vacroux 0,5 J. L. Lions 10

5.2. Identificacao de grupos similares

A identificacao dos matematicos mais relevantes em cada medida apresentada nao per-mite uma avaliacao global, com a utilizacao das medidas em conjunto. Para realizar essaclassificacao as dimensoes obtidas, ou seja, as nove metricas, foram reduzidas para ape-nas duas dimensoes por meio da analise de componentes principais (PCA). O metodoPCA consiste da utilizacao de combinacoes lineares dos dados originais com o objetivode reduzir suas dimensoes para obter formas representativas destes dados. A PCA e con-siderada uma ‘transformacao linear otima’ e apresenta-se como uma ferramenta muitoutil para os processos ligados a reconhecimento de padroes.

A Figura 3a apresenta o grafico com os matematicos diagramados nas duas di-mensoes ou componentes principais obtidas. Ambas componentes concentram cercade 82% da variancia total. Podemos identificar tres grupos distintos (A, B e C). Ogrupo A reune somente 4 indivıduos com destaque evidente, Simeon Poisson, LeonhardEuler, Johann Bernoulli e Joseph Lagrange nesta ordem. Trata-se de um grupo deelite, matematicos com relevancia historica, que apresentam, em suas biografias, diversascontribuicoes na evolucao da matematica (Chang, 2011).

Page 117: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Figura 3. Analise de componentes principais: (a) conjunto de dados represen-tados nas duas primeiras componentes principais. (b) orientacao das variaveis(metricas) consideradas.

No grupo B, podemos observar a presenca de 7 matematicos importantes (C. FelixKlein, Rudolf Lipschitz, Gustav Dirichlet, Jean-Baptiste Fourier, C. L. Ferdinand Linde-mann, David Hilbert e Michel Chasles) porem com relevancia inferior aos anteriores. Oultimo grupo reune o restante dos indivıduos analisados, podendo ainda serem diferenci-ados entre si.

A Figura 3b apresenta a orientacao obtida para as metricas analisadas. As metricasf , nf e ml sao, praticamente, de mesma orientacao. Ja a metrica fp apresenta umaorientacao diferenciada das anteriores. Medidas com orientacoes muito semelhantes indi-cam que a informacao fornecida por elas tambem e semelhante ou ate redundante. Ha umaforte correlacao, tambem, nas metricas p e dm que apresentam uma tendencia proxima asmetricas l e h, que tambem se correlacionam bem. Por fim, a mmc mostra-se com umaorientacao oposta as ultimas citadas, isso se deve pelas proprias caracterısticas da medida.Aqui e importante notar que, com a utilizacao do metodo PCA, e possıvel diferenciar amaioria dos vertices da arvore genealogica.

5.3. Distribuicao das frequenciasOs resultados das metricas calculadas, para a arvore genealogica de Bernoulli, foramdivididos em dez intervalos, onde cada um deles representa 10% do intervalo completo,e realizado uma contagem para identificar a frequencia de valores obtidos para cada umdeles. A Figura 4 apresenta os graficos dos intervalos e suas respectivas frequencias paraas metricas utilizadas.

Para todos os casos, observamos que os valores de metricas que estao entre os 10%menores resultados, concentram a grande maioria das ocorrencias, confirmando, para oconjunto de dados analisados, o princıpio de Pareto ou Lei da Potencia (Malmgren et al.,2010). Na Figura 4a, observamos que existem poucos matematicos com valores de f com-preendidos na faixa de 90% do intervalo considerado. Este tipo de representacao e devidoa estrutura que as arvores apresentam (a propagacao dos vertices) a medida que descemos

Page 118: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

������������������������

���

����

����

���

���

���

���

���

��

����

���������

��������������������� � ��!���"#

����������

������������������������

���

���

���

��

��

���

��

���

����

���

���������

��������������������� ��������"#

�����������$��������

������������������������

���

���

��

����

����

���

����

���

��

���

���������

��������������������� � ��!���"#

%�������������&��!�"

������������������������

���

���

��

���

���

����

����

���

����

����

���������

������������������

'��&��������

������������������������

��

����

����

����

���

��

����

����

�����

�����

���������

������������������

(��)���

������������������������

���

���

��

���

���

����

����

���

����

����

���������

��������������������� � ��!���"#

���������)���

������������������������

��

���

���

���

��

���

���

����

����

���������

������������������

*�"�+����� ����

������������������������

����

����

����

����

����

����

����

����

����

����

���������

������������������

������ �����"��� ��!�"

������������������������

��

���

���

���

��

���

���

����

����

���������

������������������

,������!

��� ��� ���

��� ��� ���

�� �� ���

Figura 4. Distribuicao das frequencias observadas para cada intervalo de valoresdas metricas. O eixo das frequencias e apresentado em escala logarıtmica.

aos nıveis inferiores da arvore, identificamos um crescimento geometrico, resultando emuma quantidade de vertices maior nos nıveis inferiores e pequenas quantidades no topo daarvore. Podemos verificar que esta mesma configuracao e repetida nos graficos apresen-tados nas Figuras 4c e 4f, estas metricas sao, predominantemente, resultado de contagenssem a aplicacao de nenhum metodo de normalizacao ou ponderacao. Quando utilizamosmetricas que sao ponderadas, as distribuicoes mantem as caracterısticas das estruturasdas arvores, porem, com uma maior uniformidade na distribuicao das frequencias dos in-tervalos. As metricas que apresentam essa uniformidade sao representadas nos graficosdas Figuras 4b, 4d, 4e, 4g e 4i. Finalmente, a metrica mmc, Figura 4h, apresenta umpadrao mais linear, quando comparado as metricas anteriores, com excecao feita aos 10%menores valores que apresentam conformidade com as demais metricas.

6. ConclusoesA caracterizacao de redes sociais, especificamente redes estruturadas em forma de arvoresgenealogicas, e uma importante forma de se obter conhecimento a respeito destas estru-turas. Neste contexto, neste trabalho foi apresentada uma proposta de caracterizacao dearvores de genealogia considerando metricas de avaliacao de grafos. A classificacao dosindivıduos e a identificacao de grupos com caracterısticas comuns foram consideradas epodem contribuir para a compreensao de grupos inter-relacionados, sejam estas relacoesde orientacao academica ou outro tipo de relacionamento.

Foi considerada a arvore de genealogia de J. Bernoulli como estudo de caso. Em-bora a linhagem de Bernoulli seja um conjunto de dados medio e nao considerarmosatributos dos indivıduos (e.g., paıs de origem) nem de seus relacionamentos (e.g., anoda formacao), os resultados aqui apresentados sao relevantes e difıceis de serem obtidosapenas com a utilizacao de abordagens convencionais. Estes resultados correspondem ainformacoes que ate agora nao foram tratadas por outras pesquisas.

Page 119: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

O projeto e aplicacao de novas metricas, a consideracao de atributos para osvertices e as arestas e o aprofundamento das analises sobre as estruturas obtidas podemenriquecer as analises e a descoberta de conhecimento. Nosso trabalho considera comodirecionamentos futuros (i) aplicacao do metodo em conjuntos de dados heterogeneos ede grande magnitude (e.g., CVs extraıdos da Plataforma Lattes), (ii) utilizacao de dife-rentes atributos associados aos vertices e arestas, e (iii) identificacao de subgrafos maisrepresentativos nas arvores de genealogia (e.g., motifs (Milo et al., 2002)).

AgradecimentosOs autores agradecem a Fundacao UFABC e a CAPES pelo apoio financeiro concedidopara a realizacao deste trabalho. Os autores agradecem tambem aos pareceristas anonimospelas sugestoes e comentarios que contribuıram com o trabalho.

Referencias BibliograficasS. CHANG (2011). Academic Genealogy of Mathematicians. World Scientific.S. V. DAVID & B. Y. HAYDEN (2012). Neurotree: A Collaborative, Graphical Database

of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608.B. DERRIDA, S. C. MANRUBIA & D. H. ZANETTE (1999). Statistical Properties of

Genealogical Trees. Physicca Review Letters. 82, 1987–1990.C. M. D. S. FREITAS, L. P. NEDEL, R. GALANTE, L. C. LAMB, A. S. SPRITZER,

S. FUJII, J. P. M. DE OLIVEIRA, R. M. ARAUJO & M. M. MORO (2008). Extracaode conhecimento e analise visual de redes sociais. SEMISH-SBC 106–120.

R. C. GRIFFITHS (1987). Counting genealogical trees. Journal of mathematical biology25(4), 423–431.

K. HAMBERGER, M. HOUSEMAN & R.W. DOUGLAS (2011). Kinship network analysis.The Sage Handbook of Social Network Analysis 533–549.

R.E. HART & J.H. COSSUTH (2013). A Family Tree of Tropical Meteorology’s Acade-mic Community and its Proposed Expansion. Bulletin of the American MeteorologicalSociety 94(12).

J. HIRSCH (2005). An index to quantify an individual’s scientific research output. Pro-ceedings of the National academy of Sciences of the United States of America 102(46),16 569–16 572.

A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices of theAMS 54(8), 1002–1003.

R.D. MALMGREN, J.M. OTTINO & L.A.N. AMARAL (2010). The role of mentorshipin protege performance. Nature 465(7298), 622–626.

R. F. MATHEUS, F. S. PARREIRAS & T. A. S. PARREIRAS (2006). Analise de redessociais como metodologia de apoio para a discussao da interdisciplinaridade na cienciada informacao. Ciencia da Informacao 35(1), 72–93.

J.P. MENA-CHALCO & R.M. CESAR-JR. (2013). Bibliometria e Cientometria: reflexoesteoricas e interfaces, chapter Prospeccao de dados academicos de currıculos Lattesatraves de scriptLattes, 109–128. Sao Carlos: Pedro & Joao Editores.

R. MILO, S. SHEN-ORR, S. ITZKOVITZ, N. KASHTAN, D. CHKLOVSKII & U. ALON(2002). Network motifs: simple building blocks of complex networks. Science298(5594), 824–827.

P. NARAYAN (2011). Mathematics Genealogy Networks. Master’s thesis, University ofOxford, United Kingdom.

Page 120: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

96 APÊNDICE C

C.2 SPGABC – Simpósio de Pesquisa do Grande ABC (2014)

Page 121: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Aos ombros de gigantes: um estudo de genealogia acadêmica dos matemáticos no Brasil

L. Rossi & J. P. Mena-ChalcoUFABC, Centro de Matemática, Computação e Cognição

e-mail: {luciano.rossi, jesus.mena}@ufabc.edu.br

Palavras-chave: árvores de genealogia, orientação acadêmica, genealogia dos matemáticos, teoria dos grafos.

1. Introdução

A busca da humanidade por suas origens é temarecorrente nos estudos contemporâneos de cunhogenealógico. A genealogia é uma ciência auxiliar dahistória que estuda a origem, evolução e disseminaçãode grupos interconectados por algum tipo de relacio-namento. Neste contexto, a genealogia acadêmica bus-ca, por meio do estudo de acadêmicos e seus relaciona-mentos de orientação, a documentação e a caracteriza-ção de comunidades acadêmico-científicas [2]. A comu-nidade acadêmica dos doutores em matemática,titulados no Brasil, é objeto de estudo neste trabalho.Por meio da estruturação deste seleto grupo em árvoresde genealogia foram analisadas questões referentes aoseu processo de formação, relevância e influência.

2. Objetivos

O objetivo deste estudo de caso é caracterizar a co-munidade acadêmica dos doutores em matemática titu-lados no Brasil, em particular:

• Identificação das escolas/países mais influentesna formação da comunidade de matemáticos noBrasil;

• Verificação da representatividade deste grupoem relação à comunidade internacional;

• Classificação, através de métricas em grafos,dos matemáticos com base em seus relacio-namentos de orientação;

• Identificação das instituições acadêmicas brasi-leiras mais representativas.

É importante destacar que este trabalho possibilita adocumentação (registro histórico perene atualmente des-conhecido) e um maior entendimento sobre a formaçãoda comunidade dos matemáticos.

3. Material e método

A base de dados utilizada neste estudo consiste dosregistros disponíveis no “Mathematics GenealogyProject – (MGP)”. O MGP tem por objetivo manterregistros de todos os doutores em matemática do mundoatravés de uma plataforma WEB. Por meio de processoscomputacionais, foram obtidos, em Abril de 2014, maisde 178.000 matemáticos e 187.000 relacionamentos deorientação acadêmica entre eles.

Para este trabalho foi utilizado um subconjunto com-posto de todos os matemáticos com titulação em insti-tuições brasileiras (1.615 matemáticos). A estruturaçãodeste subgrupo de interesse foi realizada por meio deseus relacionamentos de orientação acadêmica, resultan-do em uma floresta (conjunto de árvores) de genealogia.

Parte das análises estatísticas foram conduzidasconsiderando atributos disponíveis no MGP (i.e. país eano de titulação) com o objetivo de descrever os dadosobtidos. Para a classificação dos matemáticos foi utili-zado seu respectivo número de descendentes (fecundi-dade), ou seja, todos os vértices possíveis de seremalcançados a partir do vértice analisado (raiz).

4. Resultados

O grupo dos doutores em matemática, titulados noBrasil, corresponde a 0,90% da comunidade inter-nacional (registrada na plataforma MGP) e, em valoresabsolutos, ocupa a 12ª posição em número de matemá-ticos titulados. A Tabela I apresenta as dez instituiçõescom maior número de doutores formados .

Pos Instituição Cont %1º Univ. de São Paulo 428 26,502º Inst. Matemática Pura e Aplicada 303 18,763º Univ. Estadual de Campinas 292 18,084º Univ. Fed. do Rio de Janeiro 140 8,675º Pont. Univ. Católica do Rio Janeiro 95 5,886º Univ. Fed. de Pernambuco 67 4,157º Univ. de Brasília 65 4,028º Univ. Fed. do Rio Grande do Sul 45 2,799º Univ. Fed. de São Carlos 26 1,61

10º Univ. Fed. do Ceará 23 1,42Tabela I. Instituições com maior formação de matemáticos noBrasil. O percentual refere-se ao total de 1.615 matemáticos.

A floresta de genealogia matemática brasileirarepresenta uma comunidade jovem, quando comparadaàs escolas tradicionais como a francesa e a alemã, queinfluenciaram a formação de toda a comunidade inter-nacional e suas origens datam do século XIV. Alémdestas escolas, o Brasil apresenta, também, influênciaem sua formação das escolas britânica, belga epolonesa, conforme ilustrado na Fig. 1.

A escola brasileira, ainda que jovem e com aparentenão influência no cenário internacional, apresenta umaimportante evolução em número de matemáticostitulados.

Page 122: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Fig. 1. Influência das principais escolas matemáticas nacomposição da comunidade internacional.

Os anos 2000 apresentaram um taxa de crescimentosde 118% comparando com a década anterior, cujocrescimento foi por volta de 159%, em referência aosanos 1980. Os dados obtidos para os anos 2010 mostramque foram titulados 286 matemáticos até o presentemomento, considerando que trata-se de um períodoainda incompleto (falta de registro), há uma tendênciade manutenção do crescimento observado. A Fig. 2apresenta as curvas de evolução (anual e acumulada) donúmero de matemáticos titulados no Brasil.

Fig. 2. Número de registros observados entre 1950 até 2014.

A diferenciação dos matemáticos analisados, nesteestudo de caso, foi realizada por meio da obtenção donúmero total de alunos, em todos os níveis, que oindivíduo possui (linhagem). As orientações considera-das não são limitadas somente ao grupo em questão,mas representam os relacionamentos dos matemáticosbrasileiros com toda a comunidade internacional, con-sequentemente a classificação (ranking baseado apenasna fecundidade [1]), apresentada na Tabela II, considerao desempenho dos matemáticos de forma global, i.e.,considerando a comunidade mundial dos matemáticos.

A Universidade de São Paulo (USP) e o Instituto deMatemática Pura e Aplicada (IMPA) são as instituiçõescom maior destaque, tanto em números absolutos detitulados quanto em matemáticos com importantedesempenho em orientação acadêmica. Um destaquebrasileiro em orientação acadêmica é o matemáticoMarcelo Viana do IMPA, que orientou 30 alunos no pe-ríodo de 1995 a 2014, e sua linhagem total (descendên-cia) é de 49 matemáticos (dados de Abril de 2014).

Outro caso interessante é o de Paulo Ribenboim, forma-do na USP, representado na Fig. 3 pelo ponto coloridono canto inferior esquerdo da floresta. Trata-se de ummatemático que não recebeu nem exerceu orientaçãoacadêmica com indivíduos titulados no Brasil. Sualinhagem é formada por 48 descendentes canadenses.

Pos Matemático Form. Atual1º Marcelo Viana IMPA IMPA2º Paulo Ribenboim USP Queen's Univ.3º Gilberto Loibel USP USP4º Luis Medeiros IMPA UFRJ5º Edison Farah USP USP6º Manuel M. Miranda UFRJ UFRJ7º José Martinez UFRJ UNICAMP8º Luiz Favaro USP USP9º Newton Da Costa UFP USP

10º Maria Ruas USP USPTabela II. Matemáticos mais relevantes e suas respectivas ins-tituições, segundo a topologia de suas árvores de genealogia.

Fig. 3. Floresta de genealogia dos matemáticos do Brasil.

5. Conclusões

A importância da orientação acadêmica para aampliação de comunidades científicas é inegável econtribui diretamente no crescimento dos indivíduos eseus respectivos grupos. Neste trabalho descrevemos acomunidade de matemáticos que se formaram eminstituições brasileiras. Esta informação é um insumomuito importante para a documentação da história e aanálise da trajetória da formação, relevância e influênciade uma seleta área acadêmica do Brasil constituída aosombros de gigantes.

Referências

[1] L. Rossi & J. P. Mena-Chalco (2014). Caracterizaçãode árvores de genealogia acadêmica por meio demétricas em grafos. BraSNAM, 1–12. Brasília, DF.[2] R.D.Malmgren, J.M.Ottino & L.A.N.Amaral (2010).The role of mentorship in protégé performance. Nature465(7298), 622–626.

Page 123: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

BRASNAM – IV BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (2015) 99

C.3 BRASNAM – IV BrazilianWorkshop on Social Network Analy-sis and Mining (2015)

Page 124: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Indice-h genealogico expandido:Uma medida de impacto em grafos de orientacao academica

Luciano Rossi1, Jesus P. Mena-Chalco1

1Centro de Matematica, Computacao e Cognicao – Universidade Federal do ABC{luciano.rossi,jesus.mena}@ufabc.edu.br

Abstract. Academic Genealogy is defined as the study of intellectual legacyperpetrated through the relationship between advisor and advisee. The set ofthese relationships over several generations is commonly represented by a so-cial structure as a graph. In this paper, we present the definition of a new to-pological metric, called “extended genealogical h-index”, which can be usedto evaluate the impact of an academic through their genealogical relationships.This metric is based on the h-index and expand its concept to measure the impactof an academic over different genealogical generations. For exemplification ofour proposed concept, we present a case study considering a genealogy graphcomposed by more than 178,000 mathematicians registered in the MathematicsGenealogy Project.

Resumo. A genealogia academica e definida como o estudo da heranca inte-lectual perpetrada por meio do relacionamento entre orientador e orientado.O conjunto deste tipo de relacionamentos, ao longo de varias geracoes, e co-mumente abstraıda por uma estrutura social que e representada por um grafo.Neste trabalho, apresentamos a definicao de uma nova metrica, denominada“ındice-h genealogico expandido”, que pode ser usada para avaliar o impactode um academico por meio de seus relacionamentos de orientacao e tendo suaabrangencia limitada somente pela topologia do grafo. Esta metrica baseia-seno ındice-h bibliometrico e expande seu conceito para mensurar o impacto deum academico ao longo de diferentes geracoes. Para exemplificacao da novametrica, apresentamos um estudo de caso considerando um grafo de genealogiacomposto por mais de 178 mil doutores em matematica registrados no Mathe-matics Genealogy Project.

1. IntroducaoA genealogia academica e definida como um estudo quantitativo da heranca intelectualperpetrada por meio de relacionamentos de orientacao entre estudantes e seus orientadoresao longo de diferentes geracoes (Sugimoto, 2014). Os relacionamentos de orientacaoacademica promovem a propagacao de conhecimento cientıfico por meio da interacaoentre orientador, com diferentes desempenhos em orientacao, e seus orientados, que saoinfluenciados pelas caracterısticas de seus orientadores (Malmgren et al., 2010). Nestecontexto, a genealogia academica fornece meios para mensurar e analisar estas interacoesde forma quantitativa.

Diferentes estudos foram publicados sobre genealogia academica com o objetivode caracterizar areas do conhecimento especıficas, como a Neurociencia (David & Hay-den, 2012), a Quımica Organica (Andraos, 2005), a Matematica (Chang, 2011; Malm-gren et al., 2010), a Fisiologia (Bennett & Lowe, 2005; Jackson, 2011), a Metereologia

Page 125: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

(Hart & Cossuth, 2013), entre outros. Ha ainda, iniciativas para a captacao e estruturacaode dados genealogicos utilizando plataformas Web. O Mathematics Genealogy Pro-ject (http://genealogy.math.ndsu.nodak.edu) e o projeto Neurotree (http://neurotree.org/neurotree) sao pautados na obtencao de dados genealogicos dasrespectivas areas e na interpretacao das estruturas genealogicas obtidas, a comunidadecientıfica dos Fısicos (http://academictree.org/physics) e, de forma mais es-pecıfica, para os academicos titulados com doutorado (http://phdtree.org). Estesprojetos sao, inicialmente, orientados para a obtencao e documentacao de seus membros,nao oferecendo analises dos conjuntos de dados. Porem, estes registros contribuem paraa documentacao historica das comunidades academicas e resulta em campo fertil para es-tudos futuros relacionados a influencia ou impacto que tiveram academicos desde o pontode vista da formacao de recursos humanos.

Segundo Sugimoto (2014), os estudos de genealogia academica sao principal-mente utilizados no ambiente academico por pesquisadores interessados em tracarem suasproprias raızes. Entretanto, estes estudos sao pouco explorados por aqueles que estudama ciencia a partir de perspectivas historicas, filosoficas, sociologicas e cientıficas. A realimportancia da genealogia academica deve-se ao fato de oferecer insumos quantitativose qualitativos para mensurar as interacoes, em diferentes dimensoes, dos orientadores eseus orientados/supervisados. Adicionalmente, este tipo de estudos permite analisar aciencia desde um ponto de vista de transferencia de conhecimento cientıfico entre dife-rentes geracoes, assim como, seu impacto ou influencia desta transferencia.

Como apresentado no trabalho de Rossi & Mena-Chalco (2014), as estruturas degenealogia academica podem ser analisadas por meio de metricas topologicas, que re-presentam diferentes atributos destas estruturas e fornecem informacoes relevantes a res-peito da formacao da comunidade academica bem como a identificacao dos principais in-divıduos que contribuıram para o desenvolvimento da area por meio dos relacionamentosde orientacao. Dentre as diversas metricas utilizadas para a caracterizacao de estruturasde genealogia, o ındice-h genealogico e uma medida com forte intuicao semantica quefornece informacoes sobre a abrangencia dos relacionamentos de orientacao.

Este trabalho apresenta uma nova metrica topologica denominada ındice-h ge-nealogico expandido, que pode ser considerado para identificar o impacto ou influenciade academicos em suas respectivas comunidades, considerando a amplitude de seus re-lacionamentos de orientacao (numero de orientados diretos) e expandindo a abrangencia(ordem) da metrica a todas as geracoes possıveis de serem identificadas (i.e., produtivi-dade dos descendentes em termos de orientacao). No nosso entendimento, esta aborda-gem e original e formaliza a adaptacao do ındice-h, originalmente concebida na area deBibliometria para avaliacao de citacoes bibliograficas, para analisar relacoes de orientacaoacademica. Esta medida abre uma nova perspectiva para estudar, de forma quantitativa, ograu de impacto ou influencia de academicos priorizando a formacao de recursos huma-nos ao inves de considerar somente sua relevancia na producao de ciencia em termos deartigos academicos ou participacao em grandes projetos de pesquisa.

2. Grafos de genealogia academica

A utilizacao de representacoes graficas para estruturar os indivıduos que tem algum tipode conexao facilita o estudo genealogico. A estrutura geralmente utilizada e denominada

Page 126: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

arvore de genealogia1. Neste trabalho e utilizado o termo grafo de genealogia academicapara nomear as estruturas de genealogia, sendo categorizado como grafo dirigido acıclicoconexo.

Formalmente, um grafo dirigido ~G e um par (V,E), onde V e um conjunto finitode vertices e E, as arestas, e uma relacao binaria ordenada em V . Para este trabalho,os academicos e seus relacionamentos de orientacao sao estruturados na forma de grafode genealogia academica. Os vertices (V ) representam os indivıduos (academicos) e asarestas direcionadas (E) representam seus relacionamentos de supervisao ou orientacao.

Neste trabalho, dado um academico deseja-se analisar toda sua descendencia. As-sim, um conceito que naturalmente aparece e o do caminho existente entre o academicoe toda sua descendencia. Formalmente, um caminho de comprimento k (C(k)) de umvertice origem u a um vertice destino u′ em um grafo dirigido ~G e uma sequencia(v0, v1, v2, . . . , vk) de vertices tais que u = v0, u′ = vk e (vi−1, vi) para i = 1, 2, 3, . . . , k.Em um grafo dirigido, um caminho (v0, v1, v2, . . . , vk) forma um ciclo se v0 = vk e ocaminho contem no mınimo uma aresta. Um grafo que nao possui ciclos e acıclico. Adi-cionalmente, um grafo dirigido ~G e conexo se existe, no mınimo, um caminho ligandotodos os vertices deste grafo.

3. Indice-h genealogico expandidoNa area de Bibliometria/Cientometria, o ındice-h e uma medida de desempenho pro-posta por Hirsch (2005) que classifica pesquisadores em funcao do numero de suaspublicacoes e citacoes correspondentes. Apesar de existirem diferentes questionamentosquanto a eficiencia do ındice-h (Yong, 2014), esta medida e amplamente utilizada no meioacademico devido a sua caracterıstica de combinar quantidade (numero de publicacoes) equalidade relativa (numero de citacoes) da producao academica. Intuitivamente, o ındice-h e definido como o maior numero h de publicacoes que possuem, no mınimo, o mesmonumero h de citacoes cada uma.

A adaptacao do ındice-h, com o objetivo de caracterizar grafos de genealogiaacademica foi inicialmente desenvolvido por Rossi & Mena-Chalco (2014), entretantonao foi formalizada sua definicao. Este ındice-h genealogioco permite o estudo deacademicos orientadores em funcao do seu desempenho em formacao de recursos hu-manos.

No contexto dos grafos de genealogia academica, a descendencia de um vertice ecomumente chamada de territorio do vertice e e definida por:

T (v) = {u ∈ V : ∃(v, u)− caminho em G}. (1)

Por outro lado, dado um grafo de genealogia ~G e um vertice de interesse v ∈ V , adescendencia direta do vertice v em ~G pode ser definida por:

D(v) = {u ∈ V : (v, u) ∈ E}, (2)

e a largura, l(v), e dada por:l(v) = |D(v)|. (3)

1A rigor, as estruturas construıdas a partir de dados de genealogia academica nao podem ser categoriza-das como arvores, pois pode existir mais de um caminho entre dois vertices no grafo.

Page 127: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Figura 1. Grafos de genealogia que representam suas diferentes topologias emfuncao do ındice-h genealogico.

Esta medida representa o numero de vertices adjacentes (vizinhos) a um vertice de inte-resse2.

O ındice-h genealogico, de ordem 1, de um vertice e definido como o maiornumero h de conexoes existentes entre ele e seus vertices adjacentes (orientados dire-tos) que possuem, pelo menos, o mesmo numero h de conexoes cada um, ou seja, dadoum grafo de genealogia ~G, um vertice de interesse v ∈ V e k-fertil se l(v) ≥ k. Assim, adescendencia direta k-fertil de um vertice u ∈ V e o conjunto:

D(k)(u) = {v ∈ D(u) : l(v) ≥ k}, (4)

e a largura k-fertil de u e:l(k)(u) = |D(k)(u)|. (5)

Neste contexto, o ındice-h genealogico, de ordem 1, de um vertice u e definido por:

h(u) = max{k ∈ N : l(u), l(k)(u) ≥ k}. (6)

Contextualizando o valor do ındice-h genealogico para a caracterizacao de grafosde genealogia academica, pode-se dizer que um vertice de interesse v ∈ ~G para o qualobserva-se h(v) = x, com x = (1, 2, 3, . . . , n), os grafos de genealogia, obtidos a partirdo vertice v, possuem, no mınimo, um sub-grafo unario completo (para x = 1), um sub-grafo binario completo (para x = 2), um sub-grafo ternario completo (para x = 3) e assimsucessivamente, todos com 2 nıveis de profundidade, conforme representado nas Figuras1(a), 1(b) e 1(c), respectivamente.

Intuitivamente, o ındice-h genealogico define uma progressao geometrica de razaoq = h(v) com 3 termos, onde o primeiro termo representa o vertice de interesse, osdemais indicam o numero de vertices encontrados em cada nıvel. O ındice-h genealogicocaptura o impacto que um vertice de interesse v exerce sobre o grafo de genealogia ~Gcom abrangencia de ate dois nıveis. Dessa forma, o total de vertices pertencentes ao sub-grafo n-ario completo e

∑2i=0[h(v)]

i, onde d e um fator de expansao da metrica e indicao numero de nıveis (d+ 1) considerados.

Claramente, o valor obtido para h(v) representa uma cota inferior, visto que existe,no mınimo, um sub-grafo n-ario completo e nao existe um sub-grafo (n+1)-ario completopara abrangencia ate o segundo nıvel do grafo, considerando o territorio de v.

2A largura e uma medida usada para classificar um vertice com base em sua capacidade de conexao.

Page 128: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

E importante notar que, a co-orientacao e uma atividade comum no contextoacademico (um aluno pode ser orientado por mais do que um academico). Assim, para oscasos onde se observa um vertice com grau de entrada3 maior que 1, segundo a metricaapresentada, este vertice sera considerado (contabilizado) para todos os adjacentes nonıvel anterior.

O ındice-h genealogico apresenta-se como uma medida interessante para aidentificacao do impacto de um orientador sobre a comunidade academica, em termosde relacionamentos de orientacao, porem ha uma limitacao na ordem desta metrica, fi-cando a analise restrita aos dois primeiros nıveis do seu territorio no grafo de genealogiaacademica.

Para aumentar a abrangencia na analise, se faz necessario recalcular a medidasubstituindo o parametro de entrada largura pelos valores de ındice-h obtidos. Trata-sede um processamento recursivo. Para um vertice v suponha h(v) = 2, conforme discu-tido anteriormente, o grafo proveniente de v possui, no mınimo, um sub-grafo binariocompleto de dois nıveis. Caso pelo menos dois dos vertices adjacentes a v apresentem omesmo valor (i.e., h = 2) podemos concluir que existe, no mınimo, um sub-grafo binariocompleto com tres nıveis de profundidade a partir do vertice v.

Dado um grafo de genealogia ~G(V,E) e um vertice de interesse v ∈ V , o conjuntoA dos ındices-h dos vertices u adjacentes a v com h(u) ≥ k e:

A(k)(v) = {h(u) : (v, u) ∈ E, h(u) ≥ k}. (7)

Com essa definicao, o numero de vertices adjacentes a v com ındice-h maior ou igual a ke |A(k)(v)|.

O ındice-h genealogico pode ser definido de forma recursiva para considerar maisdo que dois nıveis, i.e., para analisar o impacto de um academico, considerando diferentesordens:

h(d)(v) = max{k ∈ N : h(d−1)(v), |A(k)(v)| ≥ k}. (8)

onde d e a ordem a ser considerada na analise, para d ≥ 1. No caso d = 0, considera-se h(0) = l, i.e. o numero de descendentes diretos. Note que a definicao do ındice-hgenealogico apresentada na Equacao 6 corresponde a ordem 1 (i.e., h(1)).

O ındice-h genealogico expandido pode ser utilizado para analises de impactocom ordem limitada somente pela topologia do grafo de genealogia, ou seja, e possıvel seaprofundar no calculo da metrica ate o ultimo nıvel do grafo.

Para ilustrar a proposta, na Figura 2 apresentamos tres resultados do calculo doındice-h expandido para um mesmo grafo de genealogia de profundidade igual a quatro.O calculo da metrica foi realizado considerando o limite topologico do grafo.

No primeiro grafo, os vertices estao rotulados com os respectivos ındices-h deordem 1. O vertice da raiz do grafo (vertice de interesse) apresenta h(1) = 4, conformediscutido anteriormente o territorio deste vertice contem no mınimo um sub-grafo qua-ternario completo com 2 nıveis de abrangencia a partir do vertice de interesse (destacadona figura). No contexto deste trabalho, um grafo quaternario completo e aquele em que

3O grau de entrada e o numero de arestas que incidem no vertice de interesse.

Page 129: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Índice hÍndice h(1)

Índice h(2)Índice h(2)

Índice hÍndice h(3)

Figura 2. Exemplos de grafos de genealogia com seus vertices rotulados comos ındices-h: h(1), h(2) e h(3). Os sub-grafos n-arios completos, identificados asordens 1, 2 e 3, sao destacadas na cor vermelha.

seus vertices possuem grau de saıda4 igual a 4, exceto os vertices pertencentes ao ultimonıvel considerado.

O segundo grafo tem seus vertices rotulados com o ındice-h de ordem 2 e, parao vertice de interesse, seu valor e h(2) = 2. Isto significa que no territorio a par-tir do vertice de interesse, existe, pelo menos, um sub-grafo binario completo com 3nıveis de abrangencia. E importante notar que pode-se encontrar outro exemplo de sub-grafo binario completo valido no grafo em questao, porem nao existe um outro sub-grafoternario para este caso. Isto se deve ao fato de que h(d) e uma cota de limite inferior.

Para o terceiro grafo disponıvel na Figura 2, os ındices-h apresentados nos verticesreferem-se a ordem 3, que para o vertice de interesse tem valor h(3) = 2, o que sugere, nomınimo, um sub-grafo binario completo com 4 nıveis de abrangencia contido no grafoem questao. E importante frisar que, a recursao pode ser aplicada ate que o ultimo nıveldo grafo seja igual a d+ 1.

Algoritmo para o calculo do ındice-h genealogico expandido

Como apresentado na Equacao 8, o ındice-h de ordem d pode ser implementado com umaabordagem recursiva. O pseudocodigo apresentado a seguir foi projetado para calculardo ındice-h genealogico expandido (IHE). O procedimento IHE recebe como entrada tresparametros: o grafo de genealogia ~G(V,E), um vertice de interesse (v) e a ordem (d).

4O grau de saıda e o numero de arestas que incidem do (saem) vertice de interesse.

Page 130: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

IHE(~G, v, d)

1 for i← 0 to d2 IH(~G, v, i)3 for each u ∈ ~G.adj[v]

4 IHE(~G, u, i)5 return v.hd

IH(~G, v, i)

1 if i = 02 v.hi ← |~G.adj[v]|3 for each u ∈ ~G.adj[v]

4 u.hi ← |~G.adj[u]|5 c← 06 while v.hi > 0 and v.hi > c7 for each u ∈ ~G.adj[v]8 if v.hi 6 u.hi

9 c← c+ 110 v.hi ← v.hi − 111 v.hi+1 ← v.hi

No procedimento IHE, o laco da linha 1 e executado d vezes. Para cada execucaoo vertice de interesse v e considerado como parametro de entrada para o procedimentoIH, juntamente com o grafo ~G e a ordem i que sera calculada (linha 2). O procedimentoe repetido recursivamente para cada vertice adjacente de v.

No procedimento IH verifica-se se o calculo e referente a h(0) (linha 1) e, casoverdadeiro, e utilizado como elemento de comparacao a largura do vertice de interesse ede seus adjacentes (linhas 2 – 4).

Um laco (linha 6), em IH, sera executado enquanto o valor do atributo em questaodo vertice de interesse for maior que zero e maior que a contagem dos seus verticesadjacentes O laco aninhado (linha 7) e utilizado para comparar os atributos do verticede interesse com todos os seus adjacentes, contabilizando o numero de adjacentes quepossuem seus atributos maior ou igual ao valor do atributo dos adjacentes (linhas 8 – 9).Caso o atributo do vertice de interesse seja menor ou igual ao total da contagem, o valordeste atributo e assumido para h(i+1) (linha 11). Caso contrario, o atributo e decrementadoem uma unidade.

4. Conjunto de dados utilizado

A aplicabilidade do ındice-h genealogico expandido foi testada utilizando-se o con-junto dos doutores em matematica e seus relacionamentos de orientacao academica. Es-tes dados sao livremente disponibilizados pelo projeto de genealogia dos matematicos(Mathematic Genealogy Project – MGP, disponıvel em: http://genealogy.math.ndsu.nodak.edu/).

O MGP foi idealizado por Harry Coonce, um professor na North Dakota StateUniversity, no inıcio da decada de 1990 (Jackson, 2007). O projeto tem como obje-tivo compilar informacoes sobre todos os matematicos do mundo, por meio do registro

Page 131: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

historico, via Web, dos indıviduos que obtiveram o tıtulo de doutor em matematica (outıtulo semelhante) e seus respectivos alunos/doutores com formacao concluıda.

O site do MGP e apresentado como ferramenta para a captacao e documentacaode novos registros genealogicos deste seleto grupo de academicos. As informacoes quesao possıveis de se obter, atraves do site do projeto, sao listadas a seguir:

• O nome completo do matematico;• A instituicao e o paıs onde foi obtida a titulacao;• O ano no qual o grau foi obtido;• O tıtulo da tese;• O numero de classificacao da area de atuacao (Mathematics Subject Classifica-

tion5);• Seu(s) orientador(es) e orientado(s);• A quantidade total de descendentes.

Os registros do MGP sao identificados por meio de um numero exclusivo (id) paracada matematico. Os dados, que sao objeto de estudo neste trabalho, foram obtidos pormeio de consultas recursivas ao site do MGP (web crawling).

Em Abril de 2014 foram obtidos 178.698 registros de matematicos e identificados187.199 relacionamentos de orientacao academica. Estes indivıduos estao distribuıdos em185 paıses ou combinacao destes (isso ocorre devido a declaracao de dois paıses comolocal de titulacao) e 2.671 instituicoes ou combinacoes destas.

O grafo de genealogia, resultante da representacao dos matematicos como verticese seus relacionamentos de orientacao academica como arestas direcionadas, possui 10.048componentes conexas. A maior componente conexa contem aproximadamente 88,72%dos vertices totais (158.548 vertices), por outro lado, a segunda componente conexa, emrelacao ao numero de vertices, apresenta apenas 0,08% dos vertices totais (141 vertices).As ultimas 7.542 componentes conexas referem-se a vertices isolados, ou seja, nao pos-suem ascendentes ou descendentes. Ao todo, em media cada vertice do grafo possue2,094 vizinhos.

5. Estudo de casoO ındice-h genealogico expandido foi aplicado ao conjunto de dados extraıdo do MGP.A classificacao dos vertices do conjunto de dados foi realizada considerando as duasdimensoes do h(d). A primeira dimensao e o resultado da metrica que apresenta h(d) = n,para n = (0, 1, 2, 3, . . . ). Esta dimensao representa a amplitude do grafo n-ario completo,ou seja, o numero de descendentes diretos para cada vertice do grafo, exceto os verticesdo ultimo nıvel.

A segunda dimensao considerada representa a ordem d, indicando os d+ 1 nıveisou geracoes a partir do vertice de interesse. O calculo do ındice-h foi realizado ate aordem 10 (11 nıveis), este limite foi escolhido pois, a partir da ordem 6 (d = 6) observa-se apenas grafos unarios completos (caminhos), ou seja, o maximo resultado obtido parad > 6 e h(d) = 1. Vale ressaltar que, o maior caminho existente neste conjunto de dadose de 41.

5Classificador alfanumerico formulado pela American Mathematical Society utilizado para categorizartemas da matematica, disponıvel em: http://www.ams.org/msc/msc2010.html

Page 132: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Tabela 1. Indices-h obtidos para o conjunto de dados dos matematicos do MGP.Cada celula contem os resultados considerando h(d) = x, para x = 0, . . . , 12,e ordens d = 1, . . . , 10. As celulas em cinza correspondem a existencia deacademicos com estas caracterısticas no conjunto de dados.

x h(1) h(2) h(3) h(4) h(5) h(6) h(7) h(8) h(9) h(10)

0 162.647 171.072 174.519 176.157 176.991 177.454 177.727 177.896 178.023 178.1111 1 1 1 1 1 1 1 1 1

1 11.371 6.676 3.987 2.506 1.700 1.244 971 802 675 5873 4 5 6 7 8 9 10 11 12

2 2.753 767 176 35 77 15 31 63 127 255 511 1.023 2.047 4.095

3 1.013 149 1613 40 121 364 1.093 3.280 9.841 29.524 88.573 265.720

4 463 2821 85 341 1.365 5.461 21.845 87.381 349.525 1, 4×106 5, 6×106

5 238 531 156 781 3.906 19.531 97.656 488.281 2, 4×106 1, 2×107 6, 1×107

6 94 143 259 1.555 9.331 55.987 335.923 2, 0×106 1, 2×107 7, 3×107 4, 4×108

7 4557 400 2.801 19.608 137.257 960.800 6, 7×106 4, 7×107 3, 3×108 2, 3×109

8 3173 585 4.681 37.449 299.593 2, 4×106 1, 9×107 1, 5×108 1, 2×109 9, 8×109

9 2691 820 7.381 66.430 597.871 5, 4×106 4, 8×107 4, 4×108 3, 9×109 3, 5×1010

10 11111 1.111 11.111 111.111 1, 1×106 1, 1×107 1, 1×108 1, 1×109 1, 1×1010 1, 1×1011

11 5133 1.464 16.105 177.156 1, 9×106 2, 1×107 2, 4×108 2, 6×109 2, 9×1010 3, 1×1011

12 1157 1.885 22.621 271.453 3, 2×106 3, 9×107 4, 7×108 5, 6×109 6, 8×1010 8, 1×1011

Na Tabela 1 e apresentada a classificacao dos grafos de genealogia dos ma-tematicos em funcao de h(d). As linhas estao associadas aos valores do h(d). Ja as co-lunas estao associadas a ordem d. Para cada celula, linha x, coluna d, e apresentado,na parte superior, o numero total de academicos com h(d) = x. Ja na parte inferior dacelula e apresentado, o numero total de descendentes que um academico teria se h(d) = x.Por exemplo, h(5) = 2 indica um grafo binario completo com 6 nıveis de profundidade,este tipo de sub-arvore contem 127 vertices e existem, no conjunto de dados do MGP, 7academicos com estas caracterısticas.

A identificacao dos academicos mais representativos em funcao de sua capaci-dade de propagacao pode ser feita buscando-se os maiores ordens d e, simultaneamente,os maiores valores de x. Para este conjunto de dados, um sub-grafo de genealogia repre-sentativo e originado a partir do vertice que representa o matematico alemao Heinz Hopf(seus valores sao destacados em negrito na tabela), que tem h(2) = 6 e e o unico sub-grafocom estas dimensoes, sendo que ha 259 vertices neste sub-grafo hexanario completo.

Na Figura 3 ilustra-se o sub-grafo de genealogia, originado a partir de Heinz Hopf,identificado pelo maior ındice-h genealogico expandido para a ordem 2. Pode-se verificarque existem seis descendentes diretos de Hopf onde cada um deles possuem, tambem, seis

Page 133: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Figura 3. Grafo de genealogia de Heinz Hopf, identificado pelo ındice-h ge-nealogico expandido com 3 geracoes de abrangencia (ordem 2) e h(2) = 6. Paracada matematico destacado e apresentado seu nome, o ano de titulacao, o paısde origem e seu respectivo vetor de ındices-h para as 10 primeiras geracoes.

descendentes com o mesmo grau de produtividade em termos de orientacao academica.Trata-se de indivıduos com desempenho similar em orientacao academica, considerandoa descendencia direta de cada um.

A relevancia da atividade de orientacao academica de Heinz Hopf pode ser veri-ficada por meio do seu vetor de ındices-h para outras ordens h(d) = [12, 6, 3, 2, 1, 1, 1],para d variando de 1 a 7. E importante notar que a comparacao entre diferentes indivıduose efetiva somente quando se utiliza a mesma ordem d para comparacao ou o vetor com-pleto aplicando algum metodo de classificacao estatıstica. Apesar de Hopf ser o unicomatematico com h(1) = 12 e h(2) = 6 existem 16 indivıduos com h(3) = 3. Para h(4) = 2sao 35 no total.

A fim de estudarmos o grupo dos matematicos sob a perspectiva do ındice-h edo numero de geracoes posteriores ao matematico em questao (profundidade – maiorcaminho existente entre o vertice de interesse e outro sem descendente), na Figura 4(a),apresentamos as distribuicoes correspondentes ındice-h de ordem 1. Para os resultados deh(1) variando de 1 a 12, observa-se que as medianas tendem a ser uniformes, indicandoque o numero de geracoes posteriores para a maior parte dos matematicos que apresentamvalores de h(1) no intervalo especificado e em torno de 29. A dispersao nas distribuicoesdiminui a medida que os resultados de h(1) aumentam.

Um grupo de matematicos com especial desempenho pode ser encontrado pormeio da identificacao dos outlier’s. Considerando que o numero de geracoes posterioresindica o quao remoto e o matematico, pode-se utilizar este parametro como complementopara identificacao de desempenho. Analisando, por exemplo, a distribuicao do numerode geracoes posteriores dos matematicos com h(1) = 10 identifica-se um unico indivıduo

Page 134: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

●●●●●●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●●●●●

●●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●●●●

●●●

●●

●●

●●●●●

●●

●●●

●●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

1 2 3 4 5 6 7 8 9 10 11 12

010

2030

40

h−index(1)

prof

undi

dade

●●

●●●●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●

●●●●

●●●●●●●

●●●●●●●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●●●●

●●●●

●●●

●●●●

●●

●●

●●●

●●●

●●

●●●●

●●

●●

●●●●

●●

●●

●●●●●

●●●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●●●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●●●●

●●●

●●

●●●

●●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●●●●

●●

●●●

●●

●●●

●●

●●●●●●

●●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●

●●●

●●

●●●●●●

●●●●

●●●

●●●●●

●●●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●●

●●

●●●

●●

●●

●●●

1 2 3 4 5 6 7 8 9 10 11 12

020

4060

8010

0

h−index(1)

grau

de

saíd

a(a) (b)

Figura 4. Distribuicao dos ındices-h sob a perspectiva: (a) da profundidade dosvertices (numero de geracoes posteriores), (b) do grau de saıda dos vertices(numero de orientados diretos).

(outlier) com este resultado apresentando somente 7 geracoes posteriores, enquanto seuspares apresentam de 24 a 31 geracoes, sendo potencialmente indivıduos mais antigos.

Por outro lado, na Figura 4(b) apresentamos as distribuicoes dos valores de graude entrada para os matematicos com o mesmo resultado de h(1). Existe um comporta-mento crescente, do grau de entrada, para os valores de 1 a 7. Este comportamento naoe observado para valores maiores a 8. E importante destacar que, um comportamentosemelhante e obtido para os ındices-h com maiores ordens, i.e., para d = 2, 3, 4, 5, 6.

6. Conclusoes e direcionamentos futurosA genealogia academica apresenta-se como uma importante opcao a analise depublicacoes e citacoes, que atualmente e responsavel por tudo que se sabe sobre o sur-gimento e desenvolvimento das disciplinas, a difusao do conhecimento e a evolucao daciencia. O ındice-h genealogico expandido, apresentado neste trabalho, utiliza o numerode orientacoes para classificar um indivıduo e possibilita uma expansao do numero denıveis (geracoes) considerados. O desenvolvimento de metricas topologicas, como oındice-h genealogico expandido, e sua aplicacao em grafos de genealogia academica podeser considerado como um meio efetivo de se mensurar e analisar a influencia de orienta-dores academicos em suas respectivas comunidades ao longo de diferentes geracoes.

A estruturacao de conjuntos de dados genealogicos mais heterogeneos, como oscurrıculos disponıveis na Plataforma Lattes (Mena-Chalco et al., 2014), em grafos de ge-nealogia e a utilizacao de metricas topologicas para sua caracterizacao, pode resultar emimportantes informacoes a respeito da formacao, expansao e abrangencia da comunidadeacademico-cientıfica do Brasil. Alem de possibilitar analises sobre a interdisciplinaridadeentre academicos em grafos de genealogia. Neste contexto, como trabalhos futuros pre-tendemos analisar os registros curriculares do banco de dados da plataforma Lattes e fazerseu mapeamento com o intuito de estudar a interdisciplinaridade na formacao de recursos

Page 135: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

humanos (Rafols & Meyer, 2010).

Finalmente, e importante frisar que, este trabalho esta alinhado com a epistemo-logia da analise de grande volume de dados (Big Data), sob a forma de ciencia orientadaa dados, e a questoes referentes a possibilidade de descoberta, ou avaliacao, de teoriascientıficas universais, ferramentas instrumentistas, ou inferencias indutivas como relatadopor Fricke (2014).

AgradecimentosOs autores agradecem ao CNPq e a CAPES pelo apoio financeiro concedido para arealizacao deste trabalho.

Referencias BibliograficasJ. ANDRAOS (2005). Scientific genealogies of physical and mechanistic organic che-

mists. Canadian journal of chemistry 83(9), 1400–1414.A. F. BENNETT & C. LOWE (2005). The academic genealogy of George A. Bartholo-

mew. Integrative and comparative biology 45(2), 231–233.S. CHANG (2011). Academic Genealogy of Mathematicians. World Scientific.S. V. DAVID & B. Y. HAYDEN (2012). Neurotree: A Collaborative, Graphical Data-

base of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608.M. FRICKE (2014). Big data and its epistemology. Journal of the Association for

Information Science and Technology .R. E. HART & J. H. COSSUTH (2013). A Family Tree of Tropical Meteorology’s

Academic Community and its Proposed Expansion. Bulletin of the American Mete-orological Society 94(12), 1837–1848.

J. HIRSCH (2005). An index to quantify an individual’s scientific research output.Proceedings of the National academy of Sciences of the United States of America102(46), 16 569–16 572.

A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices ofthe AMS 54(8), 1002–1003.

D. C. JACKSON (2011). Academic genealogy and direct calorimetry: a personalaccount. Advances in physiology education 35(2), 120–127.

R.D. MALMGREN, J.M. OTTINO & L.A.N. AMARAL (2010). The role of mentorshipin protege performance. Nature 465(7298), 622–626.

J. P. MENA-CHALCO, L. A. DIGIAMPIETRI, F. M. LOPES & R. M. CESAR-JR. (2014).Brazilian bibliometric coauthorship networks. Journal of the Association for Infor-mation Science and Technology 65(7), 1424–1445.

I. RAFOLS & M. MEYER (2010). Diversity and network coherence as indicators ofinterdisciplinarity: case studies in bionanoscience. Scientometrics 82(2), 263–287.

L. ROSSI & J. P. MENA-CHALCO (2014). Caracterizacao de arvores de genealo-gia academica por meio de metricas em grafos. In Brazilian Workshop on SocialNetwork Analysis and Mining (BraSNAM), 1–12. Brasılia, DF, Brazil.

C. R. SUGIMOTO (2014). Academic Genealogy. In Beyond bibliometrics: Harnessingmultidimensional indicators of scholarly impact, B. CRONIN & C. R. SUGIMOTO,editors, 365–382. MIT Press, 1st edition.

A. YONG (2014). Critique of Hirsch’s Citation Index: A Combinatorial Fermi Pro-blem. Notices of the American Mathematical Society 61(9), 1040–1050.

Page 136: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

112 APÊNDICE C

C.4 CMAC – Congresso de Matemática Aplicada e Computacional(2015)

Page 137: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Proceeding Series of the Brazilian Society of Computational and AppliedMathematics

O grafo de genealogia dos matematicos:

coleta de dados e principais caracterısticas

Luciano Rossi, Jesus Pascual Mena-Chalco1

Centro de Matematica, Computacao e Cognicao, UFABC, Santo Andre, SP

Resumo. O estudo da genealogia academica dos matematicos apresenta-se como umaimportante ferramenta para a obtencao de informacoes sobre a origem, o desenvolvimentoe a identificacao dos principais atores nesta seleta comunidade cientıfico-academica. Estetrabalho apresenta as principais caracterısticas do conjunto de dados obtidos no MathematicsGenealogy Project estruturados em forma de grafo de genealogia.

Palavras-chave. Genealogia academica, grafo de genealogia, genealogia dos matematicos.

1 Introducao

Este resumo apresenta uma descricao dos dados disponıveis no Mathematic GenealogyProject – MGP2, o objetivo do projeto e obter informacoes sobre todos os matematicos domundo, por meio do registro historico, via Web, dos indıviduos que obtiveram o tıtulo dedoutor em matematica e seus respectivos alunos/doutores com formacao concluıda [1]. EmAbril de 2014 foram obtidos 178.698 matematicos e 187.199 relacionamentos de orientacaoacademica, estes indivıduos estao distribuıdos em 185 paıses e 2.671 instituicoes3. Oprimeiro registro data de 1363, na Franca, e segue ate os dias atuais, conforme ilustradona Figura 1, onde e apresentada a evolucao do numero de Doutores em Matematica nosrespectivos anos de obtencao do tıtulo e em funcao de seus respectivos paıses de titulacao.

Figura 1: Distribuicao dos matematicos ao longo dos anos e nos principais paıses.

2 Formacao da comunidade cientıfica dos matematicos

Os dados do MGP foram estruturados em forma de grafo de genealogia academica,onde os vertices e arestas direcionadas representam os matematicos e seus relacionamen-tos de orientacao, respectivamente, de forma a possibilitar o estudo da formacao desta

1{luciano.rossi, jesus.mena}@ufabc.edu.br2Disponıvel em: http://genealogy.math.ndsu.nodak.edu/3Veja os dados completos em: https://sites.google.com/site/lucianorossihomepage/

Page 138: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

2

comunidade [2]. A identificacao dos vertices origem (matematicos primordiais) e seus res-pectivos paıses de titulacao, permite a analise da influencia que estes paıses exerceramna formacao desta comunidade. Na Figura 2 apresenta-se os 5 paıses com maior numerode matematicos titulados em suas instituicoes. As linhas vermelha e azul representama influencia do paıs na formacao da comunidade cientıfica e a influencia da comunidadecientıfica na formacao deste mesmo paıs, respectivamente. A representacao considera so-mente os 20 paıses ordenados em funcao do numero de matematicos que possuem. Os EUAsao o maior paıs em numero de matematicos, concentrando 45,53% do total e a Franca eo mais influente, onde 69,02% dos matematicos possuem, no mınimo, um ancestral destepaıs. O Brasil apresenta uma situacao semelhante a dos EUA. Em numero de titulacoesocorridas em instituicoes brasileiras o Brasil e o 12o colocado nao apresentando influenciarepresentativa em nenhum outro paıs [3].

Figura 2: Analise de influencia para os 5 paıses mais representativos.

3 Topologia do grafo

O grafo de genealogia dos matematicos possue 10.048 componentes conexas. A maiorcomponente conexa interliga 88,72% dos vertices totais, sendo que a segunda componenteconexa reune somente 0,08%. Ha 7.542 componentes que possuem um unico vertice isoladoe a vizinhanca media dos vertices do grafo e de 2,094, onde a moda dos graus de entradae saıda sao 1 e 0, respectivamente. O tamanho do maior caminho no grafo de genealogiae 41 com moda igual 20.

Agradecimentos

Os autores agradecem ao CNPq e a CAPES pelo apoio financeiro concedido para arealizacao deste trabalho.

Referencias

[1] R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship inprotege performance. Nature 465(7298), 622–626.

[2] L. Rossi & J. P. Mena-Chalco (2014a). Caracterizacao de arvores de genealogiaacademica por meio de metricas em grafos. In Brazilian Workshop on Social NetworkAnalysis and Mining (BraSNAM), 1–12. Brasılia, DF, Brazil.

[3] L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealo-gia academica dos matematicos no Brasil. In Simposio de Pesquisa do Grande ABC(SPGABC), 1–2. Sao Bernardo do Campo, SP, Brazil.

Page 139: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

Referências Bibliográficas

J. Andraos (2005). Scientific genealogies of physical and mechanistic organic chemists.Canadian journal of chemistry 83(9), 1400–1414. 2, 59

Ziv Bar-Yossef & Li-Tal Mashiach (2008). Local approximation of pagerank and re-verse pagerank. In Proceedings of the 17th ACM conference on Information and knowledgemanagement, 279–288. ACM. 16, 27

A. F. Bennett & C. Lowe (2005). The academic genealogy of George A. Bartholomew.Integrative and comparative biology 45(2), 231–233. 2, 59

J. A. Bondy & U. S. R. Murty (1976). Graph theory with applications, volume 290. Mac-millan London. 27

S. Chang (2011). Academic Genealogy of Mathematicians. World Scientific. 2, 34, 59

J. Cohen (1992). Statistical power analysis. Current directions in psychological science 1(3),98–101. 44

S. V. David & B. Y. Hayden (2012). Neurotree: A Collaborative, Graphical Database ofthe Academic Genealogy of Neuroscience. PloS one 7(10), e46 608. 2, 27, 43, 59

L. A. Digiampietri, J. P. Mena-Chalco, P. O. S. Vaz de Melo, A. P. R. Malheiro,D. N. O. Meira, L. F. Franco & L. B. Oliveira (2014). BraX-Ray: An X-Ray of theBrazilian Computer Science Graduate Programs. PLoS ONE 9(4), e94 541. 60

Chris HQ Ding, Xiaofeng He, Hongyuan Zha, Ming Gu & Horst D Simon (2001). Amin-max cut algorithm for graph partitioning and data clustering. In Data Mining,2001. ICDM 2001, Proceedings IEEE International Conference on, 107–114. IEEE. 17

C. M. D. S. Freitas, L. P. Nedel, R. Galante, L. C. Lamb, A. S. Spritzer, S. Fujii,J. P. M. de Oliveira, R. M. Araujo & M. M. Moro (2008). Extração de conhecimentoe análise visual de redes sociais. SEMISH-SBC 106–120. 57

R. C. Griffiths (1987). Counting genealogical trees. Journal of mathematical biology 25(4),423–431. 60

115

Page 140: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

116 REFERÊNCIAS BIBLIOGRÁFICAS

K. Hamberger, M. Houseman & R.W. Douglas (2011). Kinship network analysis. TheSage Handbook of Social Network Analysis 533–549. 60

R. E. Hart & J. H. Cossuth (2013). A Family Tree of Tropical Meteorology’s AcademicCommunity and its Proposed Expansion. Bulletin of the American Meteorological Society94(12), 1837–1848. 2, 59, 60

A. J. G. Hey, S. Tansley, K. M. Tolle et al. (2009). The fourth paradigm: data-intensivescientific discovery . 1, 6

J. Hirsch (2005). An index to quantify an individual’s scientific research output. Procee-dings of the National academy of Sciences of the United States of America 102(46), 16 569–16 572.14, 27

R. Hoffmann (1999). Componentes principais e análise fatorial. Série didática (90). 49

A. Jackson (2007). A labor of love: the mathematics genealogy project. Notices of theAMS 54(8), 1002–1003. 29, 58

D. C. Jackson (2011). Academic genealogy and direct calorimetry: a personal account.Advances in physiology education 35(2), 120–127. 2, 59

J. E. Jackson (2005). A user’s guide to principal components, volume 587. John Wiley &Sons. 49

R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship in protégéperformance. Nature 465(7298), 622–626. 2, 18, 58

K. Marton, K. Nagy & A. Suciu (2013). Collaborative genealogy tree in the cloud. InRoedunet International Conference (RoEduNet), 2013 11th, 1–5. IEEE. 6

R. F. Matheus, F. S. Parreiras & T. A. S. Parreiras (2006). Análise de redes sociaiscomo metodologia de apoio para a discussão da interdisciplinaridade na ciência dainformação. Ciência da Informação 35(1), 72–93. 57

J. P. Mena-Chalco, L. A. Digiampietri, F. M. Lopes & R. M. Cesar-Jr. (2014). Brazilianbibliometric co-authorship networks. Journal of the Association for Information Science andTechnology 65(7), 1424–1445. 60

F. Fava de Moraes (2000). Universidade, inovação e impacto socioeconômico. São Pauloem Perspectiva 14(3), 8–11. 1

S. A. Myers, P. J. Mucha & M. A. Porter (2011). Mathematical genealogy and depart-ment prestige. Chaos-Woodbury 21(4), 041 104. 59

Page 141: CursodePós-GraduaçãoemCiênciadaComputaçãoprofessor.ufabc.edu.br/~jesus.mena/misc/modelos-teses-dissertaco… · CursodePós-GraduaçãoemCiênciadaComputação Dissertação

REFERÊNCIAS BIBLIOGRÁFICAS 117

P. Narayan (2011). Mathematics Genealogy Networks. Master’s thesis, University of Oxford,United Kingdom. 32, 58

J. M. M. Neto & G. C. Moita (1998). Uma introdução à análise exploratória de dadosmultivariados. Química Nova 21(4), 467–469. 18, 49

M. E. J. Newman (2002). Assortative mixing in networks. Physical review letters 89(20),208 701. 32

L Page, S Brin, R Motwani & T Winograd (1999). The PageRank Citation Ranking:Bringing Order to the Web. Technical Report 1999-66, Stanford InfoLab. URL http://ilpubs.stanford.edu:8090/422/. 21, 27

E. Perez-Cervantes, J. P. Mena-Chalco, M. C. F. de Oliveira & R. M. Cesar-Jr. (2013).Using Link Prediction to Estimate the Collaborative Influence of Researchers. InIEEE 9th International Conference on e-Science 2013, 1–8. Beijing, China. 61

L. V. R. Pinheiro & J. M. M. Loureiro (1995). Traçados e limites da ciência da infor-mação. Ciência da informação 24(1). 1

I. Robinson, J. Webber & E. Eifrem (2013). Graph Databases. O’Reilly Media. ISBN9781449356248. 8

L. Rossi & J. P. Mena-Chalco (2014a). Caracterização de árvores de genealogia acadê-mica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysisand Mining (BraSNAM), 1–12. Brasília, DF, Brazil. 18, 46, 59

L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealogiaacadêmica dos matemáticos no Brasil. In Simpósio de Pesquisa do Grande ABC (SPGABC),1–2. São Bernardo do Campo, SP, Brazil. 8

C. R. Sugimoto (2014). Academic Genealogy. In Beyond bibliometrics: Harnessing multidi-mensional indicators of scholarly impact, B. Cronin & C. R. Sugimoto, editors, 365–382. MITPress, 1st edition. 2, 57

J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang & Z. Su (2008). Arnetminer: extraction andmining of academic social networks. In Proceedings of the 14th ACM SIGKDD internationalconference on Knowledge discovery and data mining, 990–998. ACM. 1