Extração de dados da Plataforma Lattes: análise da rede de colaboração científica dos...

Post on 05-Jun-2015

152 views 2 download

description

Coletar informações científicas dos professores do Programa de Pós Graduação do Departamento de Ciência da Computação – PPGC na Plataforma Lattes, gerando uma rede de relacionamento para análise de interatividade.

Transcript of Extração de dados da Plataforma Lattes: análise da rede de colaboração científica dos...

Extração de dados da Plataforma Lattes: análise da rede de colaboração científica dos professores do

PPGCC – UFLA

Miguel Thiago Alvarenga Thiago Bellotti Furtado

Programa de Pós-Graduação em Ciência da Computação – PPGCC Estudos Avançados em Mineração WEB e Aplicações - PCC519

1 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com 11 de setembro de 2014

1. Contexto

2. Objetivo

3. Ferramentas

4. Análises das redes

5. Referencial Teórico

Sumário

2 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Contexto

3 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• “Rede é uma abstração que permite codificar algum tipo de relacionamento entre pares de objetos” (Figueiredo, 2013).

• Vários tipos de formações de redes

• Como entender seu comportamento?

• Entender sua topologia.

• Influências nos processos e funcionalidades

• Modelos Matemáticos • Capturar aspectos topológicos

Objetivo

4 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Coletar informações científicas dos professores do Programa de Pós Graduação do Departamento de Ciência da Computação – PPGC na Plataforma Lattes, gerando uma rede de relacionamento para análise de interatividade.

Ferramentas

5 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

2 ferramentas foram utilizadas:

• ScriptLattes: • Linguagem Python (Open Source); • Coletar dados automatizada no Lattes; • Grafos, Representação Espacial e Gráficos; • Saída em HTML para análise dos resultados; • Arquivos de configuração (.conf e .list); • Base de dados em .gdf e .txt; • http://scriptlattes.sourceforge.net/; • Versão 8.09 (não gera xml).

Ferramentas

6 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• Gephi: • Versão 0.8.2; • Linguagem Java; • Análise de Redes; • Funções para analisar a topologia da rede; • https://gephi.github.io/

Ferramentas

7 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• ScriptLattes:

Arquivo .list

Id Lattes Nome Autor (vértices)

1 - Configurar o arquivo .list informando os dados do autor

Ferramentas

8 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• ScriptLattes:

Arquivo .config

2 - Configurar o arquivo .config informando os dados a serem coletados

Ferramentas

9 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• ScriptLattes:

2 - Execução

$ cd <nome_diretorio_scriptLattes> $ ./scriptLattes.py ./exemplo/teste-03.config

- Index.html - Teste-03.gdf - .css - .txt

Ferramentas

10 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• ScriptLattes: 3 - Resultados

Ferramentas

11 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

• Gephi: • Dados coletados pelo ScriptLattes importados no Gephi

Análise da Rede

12 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Distribuição de Grau: 0.899 • Conexões entre os nós da rede

Análise da Rede

13 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Caminhos e Distância: Sequência de vértice sem repetição onde exista uma aresta Quão separados estão os dois nós mais distantes

Análise da Rede

14 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Colaboração Produção Bibliográfica

Análise da Rede

15 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Artigo em Periódico Livros

Análise da Rede

16 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Trabalho em congresso Capítulo de Livro

Análise da Rede

17 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Excentricidade Centralidade

Análise da Rede

18 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Centralidade de intermediação: Frequência que um nó aparece em caminhos mais curtos entre nós

da rede.

Análise da Rede

19 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Centralidade de proximidade: Distância média de um determinado nó inicial para todos os demais

nós da rede.

Análise da Rede

20 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Excentricidade: Distância de um determinado nó inicial até o nó mais distante dele

na rede.

Análise da Rede

21 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Coeficiente de Clusterização: 0,000 (triangulação = 0) Indica como os nós estão inseridos em sua vizinhança Qual a chance de dois vértices que se conectam estarem

conectado a outro

Análise da Rede

22 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Densidade da rede: 0,11 Mede quanto que uma rede está próxima de ser completa.

Análise da Rede

23 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

HITS: Calcula dois valores distintos para cada nó: Authirity e Hub; Authirity: mede o quanto são valiosas as informações armazenada

naquele nó; Hub: mede a qualidade das conexões deste nó.

Análise da Rede

24 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

PageRank: Classifica as “páginas” dos nós de acordo com a frequência com

que um usuário, seguindo ligações de maneira não aleatória, chega à “página” do nó.

Referências Bibliográficas

25 11 de setembro de 2014 miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

Mena-Chalco, J. P; Cesar Junior, R. M. ScriptLattes: an open-source knowledge extraction system from the Lattes platform. Journal of the Brazilian Computer Society, 15(4), 31-39. Recuperado em 10 de setembro de 2014, de http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0104-65002009000400004&lng=pt&tlng=en. 10.1007/BF03194511.

ScriptLattes: uma ferramenta para extração e visualização de conhecimento a partir de Currículo Lattes. Disponível em <http://scriptlattes.sourceforge.net/>

Gephi: makes graphs handy. Disponível em <https://gephi.github.io/users/download/>

Figueiredo, D. R. Introdução a Redes Complexas. Em: de Souza, A.F., Jr. Meira, W. (editores), Atualizações em Informática 2011, PUC-Rio, Cap. 7, pp 303--358, 2011

26 11 de setembro de 2014

Dúvidas?

Obrigado!

miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

27 11 de setembro de 2014

Obrigado!

miguelthiago.ufla@gmail.com – thiagobellotti@gmail.com

1. Dados de 2010 a 2014 2. Gerar 3 redes:

1. Somente professores DCC 2. Todos professores Mestrado 3. Todos professores DCC

3. Gerar rede UFOP do mestrado