Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área...

29
UNIVERSIDADE FUMEC FACULDADE DE CIÊNCIAS EMPRESARIAIS - FACE MESTRADO EM SISTEMAS DE INFORMAÇÃO E GESTÃO DO CONHECIMENTO PREDIÇÃO DE LINKS BASEADO NOS CURRÍCULOS DA PLATAFORMA LATTES COM FOCO NAS ÁREAS DE PESQUISA Área de Concentração Gestão de Sistemas de Informação e do Conhecimento Linha de pesquisa Sistemas e Tecnologia da Informação RODRIGO CACIQUE SALLES Belo Horizonte 2016

Transcript of Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área...

Page 1: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

UNIVERSIDADE FUMEC

FACULDADE DE CIÊNCIAS EMPRESARIAIS - FACE

MESTRADO EM SISTEMAS DE INFORMAÇÃO E GESTÃO DO

CONHECIMENTO

PREDIÇÃO DE LINKS BASEADO NOS CURRÍCULOS DA

PLATAFORMA LATTES COM FOCO NAS ÁREAS DE

PESQUISA

Área de Concentração

Gestão de Sistemas de Informação e do Conhecimento

Linha de pesquisa

Sistemas e Tecnologia da Informação

RODRIGO CACIQUE SALLES

Belo Horizonte

2016

Page 2: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

RODRIGO CACIQUE SALLES

PREDIÇÃO DE LINKS BASEADO NOS CURRÍCULOS DA

PLATAFORMA LATTES COM FOCO NAS ÁREAS DE

PESQUISA

Projeto de dissertação apresentado ao curso de

Sistemas de Informação e Gestão do

Conhecimento do programa de Pós-Graduação

da Universidade FUMEC, realizada como

parte dos requisitos necessários para a

obtenção do título de Mestre em Sistemas de

Informação e Gestão do Conhecimento.

Área de concentração: Gestão de Sistemas de

Informação e do Conhecimento.

Linha de pesquisa: Sistemas e Tecnologia da

Informação

Orientador: Prof. Dr. Orlando Abreu Gomes

Belo Horizonte

2016

Page 3: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

RESUMO

Redes sociais (RS) tem sido o foco de muitos estudos com o objetivo de analisar as interações

entre pessoas ou organizações, com a grande expansão destas redes, torna-se muito

importante que elas sejam analisadas sob diversos aspectos.

Este trabalho propõe a predição de links baseado nas áreas de atuação de parte dos

pesquisadores na rede de coautoria (RC) da plataforma Lattes (PLT), um site sobre a

comunidade científica abrangendo todas as áreas do conhecimento, onde os pesquisadores

relatam seu progresso científico, expondo sua caminhada acadêmica. A análise proposta

inicialmente investiga a estrutura da rede atual, e propõe uma lista de links futuros (pares de

pesquisadores candidatos a colaborarem no futuro) com base na área de atuação.

Considerando para determinação de novos links entre dois pesquisadores, a adoção não

somente dos atributos de nós, mas também a combinação de outros atributos observados tais

como: títulos, resumos dos trabalhos publicados, área de atuação, palavras-chave, áreas de

conhecimento, participações em projetos e linha de pesquisa de cada pesquisador.

Esta análise fornecerá estatísticas que poderão ajudar as instituições de ensino superior

público e privado bem como os órgãos governamentais de apoio a pesquisa como, por

exemplo: Capes, CNPq, MEC, impactando na forma como distribuem seus investimentos em

pesquisas.

Palavras-chave: Predição de links, análise de redes sociais, redes de coautoria, plataforma

Lattes.

Page 4: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

ABSTRACT

Social networks (RS) has been the focus of many studies in order to analyze the interactions

between people or organizations with the great expansion of these networks, it is very

important that they be analyzed in several ways.

This paper proposes a prediction based links in part of areas of expertise of researchers in co-

authorship network (RC) of Lattes platform (PLT), a website for the scientific community

covering all areas of knowledge where researchers report their scientific progress and

exposing their academic journey. The analysis proposed initially investigates the structure of

the current network, and proposes a list of future links (pairs of candidates researchers to

collaborate in the future) based on the research area. Whereas for the determination of new

links between two researchers, adopting not only the attributes of us, but also the combination

of other observed attributes such as titles, abstracts of published papers, practice area,

keywords, areas of knowledge, participation projects and each researcher research line.

This analysis will provide statistics that will help the public and private higher education

institutions and government agencies to support research such as: Capes, CNPq, MEC,

impacting the way distribute their investments in research.

Keywords: Links prediction, social network analysis, co-authorship networks, Lattes

platform.

Page 5: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

LISTA DE FIGURAS

Figura 1 - Rede de coautorias ................................................................................................... 10

Figura 2 - Tabela de investimentos em bolsas e fomento a pesquisa 1996/2004 ..................... 13

Figura 3 - Cronograma ............................................................................................................. 25

Page 6: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

LISTA DE ABREVIATURAS

RS Redes Sociais

PL Predição de Links

RC Redes de Coautoria

RR Redes de Relacionamentos

PLT Plataforma Lattes

ARS Análise de Redes Sociais

AA Adamic Adar (Algoritmo de Predição)

PA Preferential Attachment (Algoritmo de Predição)

CN Common Neighbors (Algoritmo de Predição)

JC Jaccar’s Coefficient (Algoritmo de Predição)

Page 7: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

LISTA DE SIGLAS

CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

CNPq Conselho Nacional de Desenvolvimento Científico e Tecnológico

MEC Ministério de Educação e Cultura

Page 8: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

SUMÁRIO

1 INTRODUÇÃO ....................................................................................................................... 9

1.1 Problema ......................................................................................................................... 10

1.2 Justificativa ..................................................................................................................... 12

1.3 Objetivos ......................................................................................................................... 14

1.3.1 Objetivo geral ........................................................................................................... 14

1.3.2 Objetivos específicos................................................................................................ 14

1.4 Referência ao curso de mestrado .................................................................................... 15

2 REFERENCIAL TEÓRICO .................................................................................................. 17

2.1 Critérios de seleção ......................................................................................................... 17

2.1.1 Critérios de inclusão ................................................................................................. 17

2.1.2 Critérios de exclusão ................................................................................................ 17

2.1.3 Base de dados de recuperação .................................................................................. 18

2.1.4 Rastreamento dos artigos ......................................................................................... 18

2.2 Redes sociais ................................................................................................................... 18

2.3 Redes de coautoria .......................................................................................................... 19

2.4 Plataforma Lattes ............................................................................................................ 20

2.5 Predição de links ............................................................................................................. 20

2.5.1 Algoritmos ................................................................................................................ 21

3 METODOLOGIA DE PESQUISA ....................................................................................... 22

3.1 Quanto ao objetivo .......................................................................................................... 22

3.2 Quanto aos procedimentos técnicos ................................................................................ 22

3.3 Quanto à natureza ........................................................................................................... 22

3.4 Quanto aos procedimentos técnicos ................................................................................ 22

4 CRONOGRAMA .................................................................................................................. 25

5 BIBLIOGRAFIA ................................................................................................................... 26

Page 9: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

9

1. O termo link será adotado neste trabalho representando ligações/elos/relações entre nós, tais como: autores de

redes de coautoria, usuários de redes sociais, e também por ser um termo amplamente utilizado no referencial

teórico, mesmo nas publicações em Português.

1 INTRODUÇÃO

Redes sociais tem sido o foco de muitos estudos com o objetivo de analisar as interações entre

pessoas ou organizações, esta revolução tecnológica tem provocado uma mudança

astronômica no modo de vida das pessoas, na forma como vivemos, como nos relacionamos

entre si e com o meio, como consumimos e produzimos informações, e com a grande

expansão destas redes, torna-se muito importante que elas sejam analisadas sob diversos

aspectos. Segundo (LIBEN-NOWELL e KLEINBERG, 2007) as redes sociais são altamente

dinâmicas, e suas alterações são realizadas rapidamente a partir da ocorrência de novas

interações na estrutura social. Sendo assim, conhecer os mecanismos que norteiam a evolução

dessas redes, que mesmo sendo alvo de vários estudos científicos, ainda possuem a

necessidade de uma solução mais adequada, se tornando uma importante questão de pesquisa

a ser investigada. (GROSSMAN, 2002; NEWMAN, 2003).

Como exemplo de rede social, podemos destacar a rede de coautoria, na qual os usuários

(pesquisadores, professores e alunos) são autores de trabalhos publicados (representados pelos

nós na Figura 1), e considerados atores, e as relações existentes entre eles (representadas pelas

linhas roxas na Figura 1) são representadas pelas publicações realizadas (BRANDÃO;

PARREIRAS; SILVA, 2007).

A predição de links em uma rede de coautoria, como o próprio nome destaca, é a antecipação

de futuras conexões entre dois pesquisadores (Quais pesquisadores poderão realizar um

trabalho em conjunto no futuro?) conforme linhas amarelas na Figura 1, mesmo que eles, nem

ao menos se conheçam no momento atual. Estas redes podem conter milhões de

pesquisadores cadastrados, gerando uma enorme quantidade de dados que podem ser

manipulados para se realizar as previsões de novas conexões.

De acordo com (PALOV e RYUTARO, 2007), as colaborações de coautoria entre os

pesquisadores, na maioria das vezes, ocasionam bons resultados, motivo pelo qual, são

sempre bem vistas e estimuladas. Porém, com a grande quantidade de pesquisadores e a

grande variedade de disciplinas, se torna difícil para o pesquisador saber com qual

pesquisador poderá obter uma parceria proveitosa e que lhe acrescentará conhecimento para

Page 10: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

10

realização de um bom trabalho, motivo pelo qual, não raramente, podemos perceber trabalhos

com resultados pouco interessantes e esbarramos em grupos de pesquisadores mal

organizados.

Este trabalho está propondo a realização da predição de links com base nas áreas de atuação

dos pesquisadores, com a combinação de vários atributos, com o objetivo de melhorar o grau

de assertividade em boas sugestões para futuras colaborações, podendo gerar excelentes

equipes de pesquisa.

Figura 1 - Rede de coautorias

Fonte – Autor – Rede de coautorias, linhas roxas representam os links existentes e linhas amarelas

representam links futuros que podem vir a acontecer

1.1 Problema

Uma Rede Social (RS) é um conjunto de indivíduos ou organizações que possuem algum tipo

de relação, por exemplo, amizade, comercial ou coautoria. Pesquisas em Análise de Redes

Sociais (ARS) mostram padrões e princípios, que são aplicados a ligações de todos os tipos,

incluindo as citadas acima. Alguns desses padrões mostram que as redes sociais de cada

indivíduo são homogêneas considerando características sócio-demográficas, comportamentais

e intrapessoais. Enfim, padrões, princípios e modelos definidos pela ARS podem auxiliar a

Page 11: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

11

explorar e predizer comportamentos. Nesse contexto, métodos com as mais diversas

finalidades têm sido propostos para analisar diferentes aspectos de uma rede social. Entre

esses, a predição de links, que é uma das áreas da mineração de links, com o objetivo de

predizer o surgimento de relacionamentos futuros entre os nós em uma rede, onde seus nós

representam as pessoas ou entidades incorporadas em um contexto. Segundo (CUKIERSKI;

HAMNER; YANG, 2011;HASAN; ZAKI, 2011; KUO et al.; DIAMPIETRI et al., 2013)este

problema da predição de links é extremamente complexo, e alguns fatores que tornam esta

tarefa complexa são: a identificação de conjuntos de atributos relevantes (relacionados, por

exemplo, ao perfil ou currículo das pessoas) que serão utilizados, e que estes conjuntos de

atributos podem ter milhares de combinações possíveis; a necessidade de especificação ou

seleção de métricas estruturais de redes sociais a serem utilizadas; somando ainda a grande

dificuldade da utilização de estratégias para combinar estes atributos e métricas de forma a

possibilitar a predição; contando também que existe a possibilidade de que os nós não irão se

relacionar (fato do conjunto de dados ser tipicamente desbalanceado e esparso).

Segundo (DIAMPIETRI et al., 2015):

“...é particularmente importante para o problema de predição de relacionamentos, pois em

redes sociais a existência ou não de relacionamentos tipicamente produz um conjunto de

dados bastante desbalanceado. Isto é, dado um par arbitrário de pessoas é muito mais

provável que estas pessoas não irão se relacionar do que o contrário.”

Segundo (SILVA, 2011) o principal objetivo da predição de links é determinar a existência

futura de um link entre duas entidades (nós) usando seus atributos e os de outros links.

Segundo (DIGIAMPIETRI, 2014):

“Predizer relacionamentos é uma tarefa complexa, pois é necessário identificar os

atributos que serão utilizados na predição (que podem ser características de cada

indivíduo ou medidas extraídas da rede a que fazem parte) e definir a estratégia para

combinar os atributos.Adicionalmente, analisar cada par de indivíduos dentro de uma rede

para avaliar se existirá ou não um relacionamento entre eles pode ser uma tarefa

computacionalmente inviável, sendo necessário definir para quais pares de indivíduos

serão realizados todos os cálculos utilizados para a predição.”

Segundo (DIAMPIETRI et al., 2013) diversos outros estudos como (BARTAL et al., 2009),

(HOSEINI et al. 2012), (SUN et al. 2011), (SUN et al. 2012), e (NARAYANAN et al. 2011)

Page 12: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

12

estão propondo técnicas para a predição de links com o uso de diferentes atributos de entrada

e algoritmos de predição.Porém estes e outros estudos na sua grande maioria consistem na

análise da predição de links entre duas entidades (nós). Por isso este estudo está propondo

responder à seguinte pergunta: Qual será o nível de acerto para a predição de links baseado

nas áreas de atuação dos pesquisadores?

1.2 Justificativa

Apesar da grande quantidade e relevância das informações existentes na plataforma Lattes, há

diversas características que devem ser levadas em consideração para sua utilização

(CAÑIBANO e BOZEMAN, 2009). Entre estas características destaca-se o fato de que

muitos campos de preenchimento são abertos e preenchidos manualmente, pelos próprios

pesquisadores, podendo ocorrer erros de digitação e/ou padronização e sem a devida

validação e/ou confirmação da veracidade dos dados; outra característica destacada é que a

periodicidade de inserção e/ou atualização de dados fica estritamente por conta dos próprios

pesquisadores, tendo também o fato de que muitos campos são opcionais, podendo limitar ou

inviabilizar alguns tipos de análise (MARQUES, 2010). Além das características citadas

acima, outra e talvez a que mais dificulte os estudos da plataforma Lattes é sobre o acesso a

sua base de dados, que apesar de ser uma base aberta para ser acessada livremente por

pesquisadores e instituições individualmente, a disponibilização da massa de dados em nível

macro é bastante dificultada pelo CNPq dependendo de uma solicitação a diretoria do órgão e

que nem sempre este acesso é garantido.

Silva e Smit consideram necessário “inserir mecanismos de controle na forma de

preenchimento da plataforma Lattes, pois o aumento da comunidade científica brasileira e o

respectivo crescimento da produção desta comunidade evidenciam um aumento proporcional

de inconsistências.” (SILVA e SMIT, 2009). Ficando assim comprometida a recuperação da

informação, o que pode limitar o uso desta fonte curricular tão abrangente para uma análise

mais profunda da produção científica nacional. Porém a plataforma Lattes não é o objetivo

principal deste trabalho, podendo ser objeto de estudo posterior.

De acordo com as pesquisas realizadas nas bases digitais de trabalhos acadêmicos e de

pesquisa científica (ACM Digital Library, Computers and Applied Sciences Complete

(EBSCO), IEEE Xplore, SciELO.org, ScienceDirect, Google Academic, Portal de Periódicos

Page 13: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

13

CAPES/MEC), utilizando as palavras-chave desta pesquisa: Predição de links, análise de

redes sociais, redes de coautoria, plataforma Lattes, com retorno de 731 trabalhos, sendo que

destes, 192 são sobre o atributo “predição de links” e destes, somente 4 artigos realizaram

pesquisa sobre a predição de links utilizando o parâmetro de comunidades.

De acordo com o site do CNPq com registros disponíveis em: <http://cnpq.br/series-

historicas/>, o total dos investimentos realizados em bolsas de estudo e fomento a pesquisa

passou de R$ 500.000,00 no ano de 1996 para R$ 2.900.000,00 no ano de 2014, conforme

figura 4.

Figura 2 - Tabela de investimentos em bolsas e fomento a pesquisa 1996/2004

Fonte: CNPq/AEi. <http://cnpq.br/series-historicas/>

Este estudo auxiliará na avaliação e predição de futuras colaborações de acordo com as áreas

de pesquisa, indicando se pesquisadores de uma área poderão/deverão colaborar na produção

de um artigo, podendo assim otimizar a produção destes pesquisadores por meio da indicação

de pesquisadores cujas parcerias são mais promissoras.

Cada vez mais os dados referentes à produção científica estão disponíveis em bases de dados

na internet, no Brasil existe a base de dados da plataforma Lattes com um cadastro nacional

de currículos de pesquisadores, onde se pode ter acesso a publicações científicas, informações

Page 14: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

14

sobre projetos de pesquisa, participações em bancas, eventos, orientações, e currículos dos

pesquisadores, dentre outras informações.

Diante do exposto esta pesquisa pretende tornar-se relevante, tendo em vista, a evidente

necessidade das instituições de ensino superior público e privado, bem como dos órgãos

governamentais de apoio à pesquisa como: Capes, CNPq, MEC, de cada vez mais, saber

como e onde, investir e fomentar projetos de pesquisa, qualificação e especialização dos

pesquisadores. Hoje os investimentos não são baseados em métodos quantitativos ou

computacionais de avaliação, mas de forma intuitiva ou política, não contemplando possíveis

áreas de pesquisa, podendo ocorrer altos investimentos em áreas que estão fadadas a acabar

ou baixos investimentos em áreas promissoras.

1.3 Objetivos

1.3.1 Objetivo geral

O presente trabalho propõe analisar o desempenho de um algoritmo de predição de links tendo

como objetivo predizer o surgimento de relacionamentos futuros entre os pesquisadores (pares

de pesquisadores candidatos a colaborarem no futuro) com base na área de atuação.

Considerando para determinação de novos links entre dois pesquisadores, a adoção não

somente dos atributos de nós (predição de links individualizada) que apresenta um baixo

desempenho, mas também a combinação de outros atributos observados tais como: títulos,

resumos dos trabalhos publicados, área de atuação, palavras-chave, áreas de conhecimento,

participações em projetos e linha de pesquisa de cada pesquisador da rede de coautoria da

plataforma Lattes, para determinar o crescimento em áreas de atuação destes pesquisadores de

acordo com a quantidade de futurascolaborações.

1.3.2 Objetivos específicos

Para que o objetivo principal deste trabalho seja alcançado, será necessário alcançar alguns

objetivos específicos que foram definidos em:

Page 15: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

15

a) Executar a separação, estruturação e classificação de forma padronizada das áreas de

atuação dos pesquisadores que formam os conjuntos de dados utilizados nos experimentos

deste projeto;

b)Estruturar de forma padronizada, diferentes conjuntos de dados com os pesquisadores que

serão utilizados nos experimentos deste projeto;

c) Realizar combinações de atributos e métricas para executar o algoritmo de predição de

links baseado nas áreas de atuação dos pesquisadores;

d) Executar o algoritmo de predição de links escolhido para realizar o experimento baseado

nos títulos, resumos, área de atuação, palavras-chave, áreas de conhecimento, participações

em projetos e linha de pesquisa dos pesquisadores.

1.4 Referência ao curso de mestrado

O Programa de Pós-Graduação em Sistemas de Informação e Gestão do Conhecimento da

Universidade FUMEC – PPGSIGC pretende articular e aplicar conhecimento profissional no

abrangente campo de Sistemas de Informação. Sua missão é a produção de atividades

técnicas, de ensino e pesquisa, enfatizando a busca, o desenvolvimento e a integração do

conhecimento e das atividades que dele se originam com vistas à formação de docentes e

pesquisadores.Contribuindo na difusão de pesquisas acadêmicas de forma interdisciplinar.

(Universidade FUMEC – PPGSIGC, 2016). Acessado em 05/10/2016

<http://ppg.fumec.br/sigc/>.

A linha de pesquisa Sistemas e Tecnologia de Informação é a aplicação do conhecimento

técnico/científico para fins de disseminação e recuperação de informações por meios

computacionais. A trilha de Sistemas de Recuperação da Informação trata do estudo de

modelos de recuperação da informação com foco na implementação de projetos de mineração

de dados. Como o termo indica, mineração de dados refere-se à mineração ou descoberta de

novas informações em termos de padrões ou regras em base de grandes quantidades de dados.

Page 16: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

16

A pesquisa pretende realizar aplicações práticas como a adaptação ou construção de

ferramentas de mineração de texto existentes para usar na recuperação da informação.

Criando uma base de dados com os currículos dos pesquisadores da plataforma Lattes e

efetuando processamento com algoritmo de predição de links nesta base de dados para fazer a

predição de futuras coautorias baseadas na área de atuação dos pesquisadores. Portanto, pode-

se afirmar que esta dissertação enquadra nos parâmetros exigidos pela instituição.

1.5 Estruturado documento

Para facilitar o entendimento e acompanhamento do texto, esse trabalho está configurado em

cinco capítulos, da seguinte forma:

Primeiro capítulo: Apresenta a introdução que oferece uma visão geral sobre o trabalho, bem

como o problema de pesquisa, o objetivo geral e os objetivos específicos, a justificativa da

importância do projeto, a aderência da pesquisa ao programa de mestrado profissional da

Universidade FUMEC e a forma como este projeto está estruturado.

Segundo capítulo: Composto pelos conceitos necessários para a compreensão do estudo.

Nesse capítulo são apresentados os trabalhos relacionados à pesquisa, conceituando com as

obras mais relevantes sobre os atributos de interesse: Predição de links, análise de redes

sociais, redes de coautoria, plataforma Lattes.

Terceiro capítulo: São apresentados os procedimentos metodológicos utilizados para o

desenvolvimento da pesquisa. Nesse capítulo são abordadas a caracterização da pesquisa, os

métodos e técnicas utilizados para coleta, amostra e análise dos dados.

Quarto capítulo: Apresenta o cronograma para execução do projeto.

Quinto capítulo: São apresentadas as referências utilizadas no projeto de pesquisa.

Page 17: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

17

2 REFERENCIAL TEÓRICO

A pesquisa bibliográfica valeu-se da utilização do processo de revisão da literatura

desenvolvido por Kitchenham (2004), que consiste em determinar repositórios de artigos

científicos e executar a busca com um único atributo por vez, em todos os repositórios

escolhidos.

2.1 Critérios de seleção

Foram definidos os seguintes critérios de seleção para filtrar artigos irrelevantes:

2.1.1 Critérios de inclusão

Publicações entre 2010 e 2016. Com objetivo de extrair os artigos mais recentes;

Resumos que mencionem explicitamente relação entre Predição de links, análise de

redes sociais, redes de coautoria, plataforma Lattes;

Pelo resumo a revisão revele potencial aplicação dos atributos;

Tipo de material: Artigos, livros, teses e dissertação;

Idioma: Qualquer idioma;

Ordenado por: Data de publicação.

2.1.2 Critérios de exclusão

Artigos anteriores a 2010, com exceção de trabalhos de grande relevância;

Publicações que estejam fora do contexto da pesquisa de predição de links;

Artigos que contenham resultados abaixo de 90% de acerto em predição de links;

Artigos em duplicidade.

Page 18: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

18

2.1.3 Base de dados de recuperação

ACM Digital Library;

Computers and Applied Sciences Complete (EBSCO);

IEEE Xplore;

SciELO.org;

ScienceDirect;

Google Academic;

Portal de Periódicos CAPES/MEC.

2.1.4 Rastreamento dos artigos

Na primeira fase foi recuperado um total de 731 artigos conforme os cinco atributos utilizados

na pesquisa. Após a recuperação foram aplicados alguns filtros para remover os artigos

irrelevantes: a) Na segunda fase foram retirados os artigos duplicados, devido às múltiplas

bases de pesquisa e aos artigos que foram retornados em pesquisas realizadas em dois ou mais

atributos, restando 484 artigos; b) Na terceira fase foram retirados os artigos que não

possuíam títulos pertinentes ao objeto da pesquisa, restando 170 artigos; c) Na quarta fase

foram retirados os artigos que não possuíam os resumos não pertinentes ao objeto da pesquisa,

restando 117 artigos.

2.2 Redes sociais

Segundo (LIBEN-NOWELL e KLEINBERG, 2007) as redes sociais são altamente dinâmicas,

e suas alterações são realizadas rapidamente a partir da ocorrência de novas interações na

estrutura social. Sendo assim, conhecer os mecanismos que norteiam a evolução dessas redes,

apesar de ser fundamental, ainda é uma incógnita.Ainda segundo (LIBEN-NOWELL e

KLEINBERG, 2007), as redes sociais são um tipo de rede em que os nós representam pessoas

e os links representam a interação, colaboração ou influência entre as entidades.

Page 19: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

19

Como exemplo de rede social, podemos destacar a rede de coautoria, na qual os usuários

(pesquisadores, professores e alunos) são autores de trabalhos publicados, e considerados

atores, e as relações existentes entre eles são representadas pelas publicações realizadas

(BRANDÃO; PARREIRAS; SILVA, 2007).

Redes sociais possuem características que as diferem de outras redes. Segundo (NEWMAN e

PARK, 2003) existem duas principais diferenças:

Nas redes sociais há uma forte relação entre o grau dos nós adjacentes, enquanto em

outras redes não.

Enquanto nas redes sociais os nós com conexões comuns tendem a se conectar, em

outras redes, na maior parte das vezes os nós possuem um nível de agrupamento

comparado ao de redes aleatórias. Ambas as diferenças seriam explicadas pela mesma

hipótese, o fato de que as redes sociais são caracterizadas por comunidades, enquanto

as outras redes não.

(FARIAS et al., 2010) afirma que a rede social representa um conjunto de participantes

autônomos, unindo ideias e recursos em torno de valores e interesses compartilhados.

2.3 Redes de coautoria

Segundo Newman (2001), nas redes de coautoria os autores de um artigo científico se

conhecem antes de realizarem um trabalho juntos, tornando assim este tipo de rede mais

legítimo do que outras redes sociais onde uma pessoa pode nunca ter visto a outra e

estabelecer uma relação de amizade. E que estas redes também são conhecidas como redes de

colaboração científica, unindo pares de pesquisadores que tiveram alguma coautoria em

produções científicas.

Digiampietri et al. (2012) asseguram que é muito importante estudar estas redes para

esclarecer os conhecimentos relacionados ao comportamento social entre pesquisadores e

grupos acadêmicos.

Page 20: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

20

Segundo (SILVA; BARBOSA; DUARTE, 2012), normalmente artigos científicos são escritos

pormais de um autor. Onde o artigo é o elemento de interligação entre os autores,formando

assim uma rede de coautoria entre eles.

2.4 Plataforma Lattes

Segundo (DE FARIAS et al., 2012) a Plataforma Lattes do Conselho Nacional de

Desenvolvimento Científico e Tecnológico(CNPq) é uma base de dados que contém, entre

outras informações, os currículos da maior parte dos pesquisadores que atuam no Brasil.

Segundo (SILVA e SMIT, 2009) é necessário “inserir mecanismos de controle na forma de

preenchimento da plataforma Lattes, pois o aumento da comunidade científica brasileira e o

respectivo crescimento da produção desta comunidade evidenciam um aumento proporcional

de inconsistências.”

Para (CAÑIBANO e BOZEMAN, 2009), apesar da grande quantidade e relevância das

informações existentes na plataforma Lattes, há diversas características que devem ser levadas

em consideração para sua utilização. Entre estas características destaca-se o fato de que

muitos campos de preenchimento são abertos e preenchidos manualmente, pelos próprios

pesquisadores, podendo ocorrer erros de digitação e/ou padronização e sem a devida

validação e/ou confirmação da veracidade dos dados; outra característica destacada é que a

periodicidade de inserção e/ou atualização de dados fica estritamente por conta dos próprios

pesquisadores, tendo também o fato de que muitos campos são opcionais, podendo limitar ou

inviabilizar alguns tipos de análise (MARQUES, 2010).

Segundo Lane (2010) a base da plataforma Lattes é uma das bases de pesquisadores mais

limpas que existem em todo o mundo.

2.5 Predição de links

Busca estabelecer uma probabilidade de futuros links entre dois nós com base nas

informações dos links e dos nós observados na rede (GETOOR e DIEHL, 2005).

Page 21: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

21

Para (LIBEN-NOWELL e KLEINBERG, 2007) “dada uma rede de algum domínio, deve-se

prever com precisão os links que serão adicionados à rede entre o tempo t e um tempo futuro

t0”.

A predição de links é uma das principais tarefas da Mineração de Links. E tem atraído ampla

atenção das comunidades da Física e da Ciência da Computação por possuir uma grande

aplicação em:

Na recuperação de informação (BUNESCU e MOONEY, 2004);

Na identificação de interações espúrias (KAHANDA e NEVILLE, 2009);

Na avaliação dos mecanismos de evolução das redes (LIBEN-NOWELL e

KLEINBERG, 2007; POTGIETER et al., 2009).

Nas redes sociais acadêmicas, a predição de links é tipicamente utilizada para tentar

identificar potenciais parceiros no desenvolvimento de um projeto e/ou coautores para a

publicação de um artigo(DIGIAMPIETRI et al., 2015).

Dado um conjunto de pesquisadores organizados em uma rede, recomendar pessoas com

quem um pesquisador pode colaborar é uma forma de predizer links (BRANDÃO; MORO,

2012).

2.5.1 Algoritmos

Ainda será selecionado um ou um conjunto de técnicas de predição de links que será/ão

utilizado/s nos experimentos propostos. As técnicas pré-escolhidas se enquadram na categoria

das métricas de topologia, que segundo (WANG et al. 2015), contém a maior parte das

técnicas e também são bastante populares entre os pesquisadores pela simplicidade e eficácia

que apresentam.

Vizinhos comuns (CN)

Anexação preferencial (PA)

Coeficiente de Jaccard (JC)

AdamicAdar (AA)

Page 22: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

22

3 METODOLOGIA DE PESQUISA

3.1 Quanto ao objetivo

Será caracterizada como uma pesquisa exploratória.

Segundo (GIL, 2008),

“Pesquisa Exploratória: proporcionar maior familiaridade com o problema (explicitá-lo).

Pode envolver levantamento bibliográfico, entrevistas com pessoas experientes no problema

pesquisado. Geralmente, assume a forma de pesquisa bibliográfica e estudo de caso.”

3.2 Quanto aos procedimentos técnicos

Será caracterizada como uma pesquisa bibliográfica.

Segundo (GIL, 2008),

“Pesquisa Bibliográfica: é desenvolvida com base em material já elaborado, constituído

principalmente de livros e artigos científicos. Não recomenda-se trabalhos oriundos da

internet.”

3.3 Quanto à natureza

Será caracterizada como uma pesquisa aplicada.

Segundo (GIL, 2008),

“Pesquisa Aplicada: apresenta muitos pontos de contato com a pesquisa pura, pois depende

de suas descobertas e se enriquece com o seu desenvolvimento; todavia, tem como

característica fundamental o interesse na aplicação, utilização e conseqüências práticas dos

conhecimentos. Sua preocupação está menos voltada para o desenvolvimento de teorias de

valor universal que para a aplicação imediata numa realidade circunstancial.”

3.4 Quanto aos procedimentos técnicos

Os procedimentos para se atingir os objetivos são:

Page 23: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

23

1 – O primeiro passo da execução deste projeto foi a pesquisa bibliográfica que buscou os

trabalhos relacionados à:Predição de links, análise de redes sociais, redes de

coautoria,plataforma Lattes. Pretende-se com essa pesquisa enriquecer o embasamento teórico

para executar de forma padronizada a separação e classificação do trabalho.

2 – No segundo passo será realizada a execução ou adaptação do algoritmo de extração de

dados, a criação do banco de dados contendo as informações relevantes para a análise. Faz-se

necessário a mineração e delimitação destes dados, com o objetivo de extrair somente os

dados necessários para aplicação dos algoritmos de predição. Pois a base da "Plataforma

Lattes" é muito extensa.

3 – No terceiro passo será realizada a estruturação, e a separação das massas de dados de

forma padronizada, em diferentes conjuntos com os pesquisadores que serão utilizados nos

experimentos deste projeto.

4 – No quarto passo será realizada as combinações de atributos e métricas para executar o

algoritmo de predição de links baseado nas áreas de atuação dos pesquisadores;

5 – No quinto passo será executado o algoritmo de predição de links escolhido para realizar o

experimento baseado nos títulos, resumos, área de atuação, palavras-chave, áreas de

conhecimento, participações em projetos e linha de pesquisa dos pesquisadores, nas massas de

dados já preparadas no terceiro passo.

6 – E por último, no sexto passo será realizada a análise dos resultados.

A metodologia será dividida em três etapas. A primeira etapa consistirá em uma pesquisa de

natureza aplicada, com o objetivo exploratório para identificar o que já se conhece sobre os

atributos: Predição de links, análise de redes sociais, redes de coautoria,plataforma Lattes.

Pretende-se com essa pesquisa enriquecer o embasamento teórico para executar de forma

padronizada a separação, classificação e análise do trabalho. Já a segunda etapa consistirá na

manipulação, extração e padronização dos conjuntos de dados a serem analisados. A base da

"Plataforma Lattes"é muito extensa e para a realização deste trabalho, faz-se necessário uma

mineração dos dados, com o objetivo de extrair somente os dados necessários para aplicação

Page 24: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

24

dos algoritmos de predição. A terceira etapa consistirá na execução dos algoritmos de

predição, registro e análise dos resultados dos percentuais de acerto das predições de links.

Primeiro, foi necessário a coleta dos arquivos. Em seguida será realizada a extração e

formatação dos dados. O próximo passo será realizar a indexação dos dados resultantes da

etapa anterior. O quarto passo será a utilização das ferramentas de predição de links. O último

passo será a análise dos dados de acordo com cada objetivo específico.

Page 25: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

25

4 CRONOGRAMA

Figura 3 - Cronograma

Fonte: Autor

Page 26: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

26

5 BIBLIOGRAFIA

AL HASAN, Mohammad; ZAKI, Mohammed J.A survey of link prediction in social

networks. In: Social network data analytics. Springer US, 2011. p. 243-275.

A Pavlov M, Ichise R. Finding Experts by Link Prediction in Co-authorship Networks.

Proceedings of the Workshop on Finding Experts on the Web with Semantics FEWS2007 at

ISWC/ASWC2007: 42–55.

BARTAL, Alon; SASSON, Elan; RAVID, Gilad. Predicting links in social networks using

text mining and sna. In: Social Network Analysis and Mining, 2009.

ASONAM'09.International Conference on Advances in.IEEE, 2009. p. 131-136.

BRANDÃO, Michele A.; MORO, Mirella M. Recomendação de colaboração em redes sociais

acadêmicas baseada na afiliação dos pesquisadores.SBBD-Simpósio Brasileiro de Bancos de

Dados, São Paulo, Brasil, 2012.

BRANDÃO, Wladmir Cardoso; PARREIRAS, Fernando Silva; SILVA, Antonio Braz de

Oliveira e. Redes em Ciência da Informação: evidências comportamentais dos pesquisadores

e tendências evolutivas das redes de coautoria.. Informação&Informação, [S.l.], v. 12, n.

1esp, p. 110-124, dez. 2007.

BUNESCU, Razvan; MOONEY, Raymond J. Relational markov networks for collective

information extraction.In: ICML-2004 Workshop on Statistical Relational Learning. 2004.

CAÑIBANO, Carolina; BOZEMAN, Barry.Curriculum vitae method in science policy and

research evaluation: the state-of-the-art. ResearchEvaluation, v. 18, n. 2, p. 86-94, 2009.

CUKIERSKI, William; HAMNER, Benjamin; YANG, Bo. Graph-based features for

supervised link prediction. In: Neural Networks (IJCNN), The 2011 International Joint

Conference on. IEEE, 2011. p. 1237-1244.

Page 27: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

27

DA SILVA, Alzira Karla Araújo; BARBOSA, Ricardo Rodrigues; DUARTE, Emeide

Nóbrega. Rede social de coautoria em Ciencia da Informação: estudo sobre a área temática

de"Organizaçãoe Representação do Conhecimento". Informação & Sociedade, v. 22, n. 2,

2012.

DE FARIAS, Lucas R. et al. Um sistema para análise de redes de pesquisa baseado na

Plataforma Lattes. Anais da VIII Escola Regional de Banco de Dados, Curitiba, PR,

Brasil, 2012.

DIGIAMPIETRI, Luciano Antonioet al. A Link Prediction System in Social Networks.

In: Proceedings of the annual conference on Brazilian Symposium on Information

Systems: Information Systems: A Computer Socio-Technical Perspective-Volume 1.

Brazilian Computer Society, 2015. p. 20.

DIGIAMPIETRI, Luciano A.; MARUYAMA, William T. Predição de novas coautorias na

rede social acadêmica dos programas brasileiros de pós-graduação em ciência da computação.

In: III Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2014).

2014. p. 243-248.

DIGIAMPIETRI, Luciano A.; SANTIAGO, Caio RN; ALVES, Caio M. Predição de

Coautorias em Redes Sociais Acadêmicas: Um Estudo Exploratório em Ciência da

Computação. 2013.

DIGIAMPIETRI, Luciano A. et al. Dinâmica das relações de coautoria nos programas de

pós-graduação em computação no Brasil. In: BRAZILIAN WORKSHOP ON SOCIAL

NETWORK ANALYSIS AND MINING, 1., 2012, Curitiba. Anais... Porto Alegre: SBC,

2012.

FARIAS,Josivania Silva; DE FARIAS, Michelle Nascimento; DE AQUINO GUIMARÃES,

Tomás. Análise sociométrica de uma rede de transferência de conhecimento. Revista de

Administração FACES Journal, v. 9, n. 1, 2010.

GETOOR, Lise; DIEHL, Christopher P. Link mining: a survey. ACM SIGKDD Explorations

Newsletter, v. 7, n. 2, p. 3-12, 2005.

Page 28: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

28

GIL, Antônio Carlos. Métodos e Técnicas de Pesquisa Social. 6ª Ed. São Paulo: Atlas, 2008.

GROSSMAN, J. W. The evolution of the mathematical research collaboration graph.

Congressus Numerantium, v. 158, p. 201_212, 2002.

HOSEINI, Elham; HASHEMI, Sattar; HAMZEH, Ali. Link prediction in social network

using co-clustering based approach. In: Advanced Information Networking and

Applications Workshops (WAINA), 2012 26th International Conference on. IEEE, 2012. p.

795-800.

KAHANDA, Indika; NEVILLE, Jennifer. Using Transactional Information to Predict Link

Strength in Online Social Networks. ICWSM, v. 9, p. 74-81, 2009.

KITCHENHAM, B. Procedures for Performing Systematic Reviews. [S.l.], 2004.

KUO, Tsung-Ting et al.Unsupervised link prediction using aggregative statistics on

heterogeneous social networks. In: Proceedings of the 19th ACM SIGKDD international

conference on Knowledge discovery and data mining. ACM, 2013. p. 775-783.

LANE, Julia. Let's make science metrics more scientific. Nature, [S. l.], v. 464, n. 7288, p.

488-489, Mar. 2010.

LIBEN-NOWELL, D.; KLEINBERG, J.The link-prediction problem for social

networks.Journal of the American Society for Information Science and Technology, v. 58,

n. 7, p. 1019-1031, maio 2007.

MARQUES, Katia Cunha. A PLATAFORMA LATTES E A ORGANIZAÇÃO DA

INFORMAÇÃO. Gestão&Planejamento-G&P, v. 11, n. 2, 2011.

NARAYANAN, Arvind; SHI, Elaine; RUBINSTEIN, Benjamin IP.Link prediction by de-

anonymization: How we won the kaggle social network challenge. In: Neural Networks

(IJCNN), The 2011 International Joint Conference on. IEEE, 2011. p. 1825-1834.

Page 29: Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área de concentração: ... (PLT), um site sobre a comunidade científica abrangendo

29

NEWMAN, Mark EJ. Clustering and preferential attachment in growing networks. Physical

review E, v. 64, n. 2, p. 025102, 2001.

NEWMAN, Mark EJ. The structure and function of complex networks. SIAM Review, v. 45,

p. 167_256, 2003.

NEWMAN, Mark EJ; PARK, Juyong. Why social networks are different from other types of

networks. PhysicalReview E, v. 68, n. 3, p. 036122, 2003.

POTGIETER, Anetet al.Temporality in link prediction: Understanding social

complexity. Emergence: ComplexityandOrganization, v. 11, n. 1, p. 69, 2009.

SILVA, E. A. A. Proposta de um Processo Sistemático Baseado em Métricas Não-

Dicotômicas para Avaliação de Predição de Links em Redes de Coautoria. Tese de

Doutorado em Engenha Elétrica, Escola Politécnica da Universidade de São Paulo, 2011.

SILVA, FábioMascarenhas; SMIT, JohannaWilhelmina. Organização da informação em

sistemas eletrônicos abertos de Informação Científica & Tecnológica: análise da Plataforma

Lattes. Perspectivas em ciência da informação, v. 14, n. 1, p. 77-98, 2009.

SUN, Yizhouet al.Co-author relationship prediction in heterogeneous bibliographic

networks. In: Advances in Social Networks Analysis and Mining (ASONAM), 2011

International Conference on. IEEE, 2011. p. 121-128.

SUN, Yizhouet al.When will it happen?: relationship prediction in heterogeneous

information networks. In: Proceedings of the fifth ACM international conference on Web

search and data mining. ACM, 2012. p. 663-672.

WANG, Peng et al. Link prediction in social networks: the state-of-the-art. Science China

Information Sciences, v. 58, n. 1, p. 1-38, 2015.