Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área...
Transcript of Área de Concentração Gestão de Sistemas de ... · Informação e Gestão do Conhecimento. Área...
UNIVERSIDADE FUMEC
FACULDADE DE CIÊNCIAS EMPRESARIAIS - FACE
MESTRADO EM SISTEMAS DE INFORMAÇÃO E GESTÃO DO
CONHECIMENTO
PREDIÇÃO DE LINKS BASEADO NOS CURRÍCULOS DA
PLATAFORMA LATTES COM FOCO NAS ÁREAS DE
PESQUISA
Área de Concentração
Gestão de Sistemas de Informação e do Conhecimento
Linha de pesquisa
Sistemas e Tecnologia da Informação
RODRIGO CACIQUE SALLES
Belo Horizonte
2016
RODRIGO CACIQUE SALLES
PREDIÇÃO DE LINKS BASEADO NOS CURRÍCULOS DA
PLATAFORMA LATTES COM FOCO NAS ÁREAS DE
PESQUISA
Projeto de dissertação apresentado ao curso de
Sistemas de Informação e Gestão do
Conhecimento do programa de Pós-Graduação
da Universidade FUMEC, realizada como
parte dos requisitos necessários para a
obtenção do título de Mestre em Sistemas de
Informação e Gestão do Conhecimento.
Área de concentração: Gestão de Sistemas de
Informação e do Conhecimento.
Linha de pesquisa: Sistemas e Tecnologia da
Informação
Orientador: Prof. Dr. Orlando Abreu Gomes
Belo Horizonte
2016
RESUMO
Redes sociais (RS) tem sido o foco de muitos estudos com o objetivo de analisar as interações
entre pessoas ou organizações, com a grande expansão destas redes, torna-se muito
importante que elas sejam analisadas sob diversos aspectos.
Este trabalho propõe a predição de links baseado nas áreas de atuação de parte dos
pesquisadores na rede de coautoria (RC) da plataforma Lattes (PLT), um site sobre a
comunidade científica abrangendo todas as áreas do conhecimento, onde os pesquisadores
relatam seu progresso científico, expondo sua caminhada acadêmica. A análise proposta
inicialmente investiga a estrutura da rede atual, e propõe uma lista de links futuros (pares de
pesquisadores candidatos a colaborarem no futuro) com base na área de atuação.
Considerando para determinação de novos links entre dois pesquisadores, a adoção não
somente dos atributos de nós, mas também a combinação de outros atributos observados tais
como: títulos, resumos dos trabalhos publicados, área de atuação, palavras-chave, áreas de
conhecimento, participações em projetos e linha de pesquisa de cada pesquisador.
Esta análise fornecerá estatísticas que poderão ajudar as instituições de ensino superior
público e privado bem como os órgãos governamentais de apoio a pesquisa como, por
exemplo: Capes, CNPq, MEC, impactando na forma como distribuem seus investimentos em
pesquisas.
Palavras-chave: Predição de links, análise de redes sociais, redes de coautoria, plataforma
Lattes.
ABSTRACT
Social networks (RS) has been the focus of many studies in order to analyze the interactions
between people or organizations with the great expansion of these networks, it is very
important that they be analyzed in several ways.
This paper proposes a prediction based links in part of areas of expertise of researchers in co-
authorship network (RC) of Lattes platform (PLT), a website for the scientific community
covering all areas of knowledge where researchers report their scientific progress and
exposing their academic journey. The analysis proposed initially investigates the structure of
the current network, and proposes a list of future links (pairs of candidates researchers to
collaborate in the future) based on the research area. Whereas for the determination of new
links between two researchers, adopting not only the attributes of us, but also the combination
of other observed attributes such as titles, abstracts of published papers, practice area,
keywords, areas of knowledge, participation projects and each researcher research line.
This analysis will provide statistics that will help the public and private higher education
institutions and government agencies to support research such as: Capes, CNPq, MEC,
impacting the way distribute their investments in research.
Keywords: Links prediction, social network analysis, co-authorship networks, Lattes
platform.
LISTA DE FIGURAS
Figura 1 - Rede de coautorias ................................................................................................... 10
Figura 2 - Tabela de investimentos em bolsas e fomento a pesquisa 1996/2004 ..................... 13
Figura 3 - Cronograma ............................................................................................................. 25
LISTA DE ABREVIATURAS
RS Redes Sociais
PL Predição de Links
RC Redes de Coautoria
RR Redes de Relacionamentos
PLT Plataforma Lattes
ARS Análise de Redes Sociais
AA Adamic Adar (Algoritmo de Predição)
PA Preferential Attachment (Algoritmo de Predição)
CN Common Neighbors (Algoritmo de Predição)
JC Jaccar’s Coefficient (Algoritmo de Predição)
LISTA DE SIGLAS
CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
CNPq Conselho Nacional de Desenvolvimento Científico e Tecnológico
MEC Ministério de Educação e Cultura
SUMÁRIO
1 INTRODUÇÃO ....................................................................................................................... 9
1.1 Problema ......................................................................................................................... 10
1.2 Justificativa ..................................................................................................................... 12
1.3 Objetivos ......................................................................................................................... 14
1.3.1 Objetivo geral ........................................................................................................... 14
1.3.2 Objetivos específicos................................................................................................ 14
1.4 Referência ao curso de mestrado .................................................................................... 15
2 REFERENCIAL TEÓRICO .................................................................................................. 17
2.1 Critérios de seleção ......................................................................................................... 17
2.1.1 Critérios de inclusão ................................................................................................. 17
2.1.2 Critérios de exclusão ................................................................................................ 17
2.1.3 Base de dados de recuperação .................................................................................. 18
2.1.4 Rastreamento dos artigos ......................................................................................... 18
2.2 Redes sociais ................................................................................................................... 18
2.3 Redes de coautoria .......................................................................................................... 19
2.4 Plataforma Lattes ............................................................................................................ 20
2.5 Predição de links ............................................................................................................. 20
2.5.1 Algoritmos ................................................................................................................ 21
3 METODOLOGIA DE PESQUISA ....................................................................................... 22
3.1 Quanto ao objetivo .......................................................................................................... 22
3.2 Quanto aos procedimentos técnicos ................................................................................ 22
3.3 Quanto à natureza ........................................................................................................... 22
3.4 Quanto aos procedimentos técnicos ................................................................................ 22
4 CRONOGRAMA .................................................................................................................. 25
5 BIBLIOGRAFIA ................................................................................................................... 26
9
1. O termo link será adotado neste trabalho representando ligações/elos/relações entre nós, tais como: autores de
redes de coautoria, usuários de redes sociais, e também por ser um termo amplamente utilizado no referencial
teórico, mesmo nas publicações em Português.
1 INTRODUÇÃO
Redes sociais tem sido o foco de muitos estudos com o objetivo de analisar as interações entre
pessoas ou organizações, esta revolução tecnológica tem provocado uma mudança
astronômica no modo de vida das pessoas, na forma como vivemos, como nos relacionamos
entre si e com o meio, como consumimos e produzimos informações, e com a grande
expansão destas redes, torna-se muito importante que elas sejam analisadas sob diversos
aspectos. Segundo (LIBEN-NOWELL e KLEINBERG, 2007) as redes sociais são altamente
dinâmicas, e suas alterações são realizadas rapidamente a partir da ocorrência de novas
interações na estrutura social. Sendo assim, conhecer os mecanismos que norteiam a evolução
dessas redes, que mesmo sendo alvo de vários estudos científicos, ainda possuem a
necessidade de uma solução mais adequada, se tornando uma importante questão de pesquisa
a ser investigada. (GROSSMAN, 2002; NEWMAN, 2003).
Como exemplo de rede social, podemos destacar a rede de coautoria, na qual os usuários
(pesquisadores, professores e alunos) são autores de trabalhos publicados (representados pelos
nós na Figura 1), e considerados atores, e as relações existentes entre eles (representadas pelas
linhas roxas na Figura 1) são representadas pelas publicações realizadas (BRANDÃO;
PARREIRAS; SILVA, 2007).
A predição de links em uma rede de coautoria, como o próprio nome destaca, é a antecipação
de futuras conexões entre dois pesquisadores (Quais pesquisadores poderão realizar um
trabalho em conjunto no futuro?) conforme linhas amarelas na Figura 1, mesmo que eles, nem
ao menos se conheçam no momento atual. Estas redes podem conter milhões de
pesquisadores cadastrados, gerando uma enorme quantidade de dados que podem ser
manipulados para se realizar as previsões de novas conexões.
De acordo com (PALOV e RYUTARO, 2007), as colaborações de coautoria entre os
pesquisadores, na maioria das vezes, ocasionam bons resultados, motivo pelo qual, são
sempre bem vistas e estimuladas. Porém, com a grande quantidade de pesquisadores e a
grande variedade de disciplinas, se torna difícil para o pesquisador saber com qual
pesquisador poderá obter uma parceria proveitosa e que lhe acrescentará conhecimento para
10
realização de um bom trabalho, motivo pelo qual, não raramente, podemos perceber trabalhos
com resultados pouco interessantes e esbarramos em grupos de pesquisadores mal
organizados.
Este trabalho está propondo a realização da predição de links com base nas áreas de atuação
dos pesquisadores, com a combinação de vários atributos, com o objetivo de melhorar o grau
de assertividade em boas sugestões para futuras colaborações, podendo gerar excelentes
equipes de pesquisa.
Figura 1 - Rede de coautorias
Fonte – Autor – Rede de coautorias, linhas roxas representam os links existentes e linhas amarelas
representam links futuros que podem vir a acontecer
1.1 Problema
Uma Rede Social (RS) é um conjunto de indivíduos ou organizações que possuem algum tipo
de relação, por exemplo, amizade, comercial ou coautoria. Pesquisas em Análise de Redes
Sociais (ARS) mostram padrões e princípios, que são aplicados a ligações de todos os tipos,
incluindo as citadas acima. Alguns desses padrões mostram que as redes sociais de cada
indivíduo são homogêneas considerando características sócio-demográficas, comportamentais
e intrapessoais. Enfim, padrões, princípios e modelos definidos pela ARS podem auxiliar a
11
explorar e predizer comportamentos. Nesse contexto, métodos com as mais diversas
finalidades têm sido propostos para analisar diferentes aspectos de uma rede social. Entre
esses, a predição de links, que é uma das áreas da mineração de links, com o objetivo de
predizer o surgimento de relacionamentos futuros entre os nós em uma rede, onde seus nós
representam as pessoas ou entidades incorporadas em um contexto. Segundo (CUKIERSKI;
HAMNER; YANG, 2011;HASAN; ZAKI, 2011; KUO et al.; DIAMPIETRI et al., 2013)este
problema da predição de links é extremamente complexo, e alguns fatores que tornam esta
tarefa complexa são: a identificação de conjuntos de atributos relevantes (relacionados, por
exemplo, ao perfil ou currículo das pessoas) que serão utilizados, e que estes conjuntos de
atributos podem ter milhares de combinações possíveis; a necessidade de especificação ou
seleção de métricas estruturais de redes sociais a serem utilizadas; somando ainda a grande
dificuldade da utilização de estratégias para combinar estes atributos e métricas de forma a
possibilitar a predição; contando também que existe a possibilidade de que os nós não irão se
relacionar (fato do conjunto de dados ser tipicamente desbalanceado e esparso).
Segundo (DIAMPIETRI et al., 2015):
“...é particularmente importante para o problema de predição de relacionamentos, pois em
redes sociais a existência ou não de relacionamentos tipicamente produz um conjunto de
dados bastante desbalanceado. Isto é, dado um par arbitrário de pessoas é muito mais
provável que estas pessoas não irão se relacionar do que o contrário.”
Segundo (SILVA, 2011) o principal objetivo da predição de links é determinar a existência
futura de um link entre duas entidades (nós) usando seus atributos e os de outros links.
Segundo (DIGIAMPIETRI, 2014):
“Predizer relacionamentos é uma tarefa complexa, pois é necessário identificar os
atributos que serão utilizados na predição (que podem ser características de cada
indivíduo ou medidas extraídas da rede a que fazem parte) e definir a estratégia para
combinar os atributos.Adicionalmente, analisar cada par de indivíduos dentro de uma rede
para avaliar se existirá ou não um relacionamento entre eles pode ser uma tarefa
computacionalmente inviável, sendo necessário definir para quais pares de indivíduos
serão realizados todos os cálculos utilizados para a predição.”
Segundo (DIAMPIETRI et al., 2013) diversos outros estudos como (BARTAL et al., 2009),
(HOSEINI et al. 2012), (SUN et al. 2011), (SUN et al. 2012), e (NARAYANAN et al. 2011)
12
estão propondo técnicas para a predição de links com o uso de diferentes atributos de entrada
e algoritmos de predição.Porém estes e outros estudos na sua grande maioria consistem na
análise da predição de links entre duas entidades (nós). Por isso este estudo está propondo
responder à seguinte pergunta: Qual será o nível de acerto para a predição de links baseado
nas áreas de atuação dos pesquisadores?
1.2 Justificativa
Apesar da grande quantidade e relevância das informações existentes na plataforma Lattes, há
diversas características que devem ser levadas em consideração para sua utilização
(CAÑIBANO e BOZEMAN, 2009). Entre estas características destaca-se o fato de que
muitos campos de preenchimento são abertos e preenchidos manualmente, pelos próprios
pesquisadores, podendo ocorrer erros de digitação e/ou padronização e sem a devida
validação e/ou confirmação da veracidade dos dados; outra característica destacada é que a
periodicidade de inserção e/ou atualização de dados fica estritamente por conta dos próprios
pesquisadores, tendo também o fato de que muitos campos são opcionais, podendo limitar ou
inviabilizar alguns tipos de análise (MARQUES, 2010). Além das características citadas
acima, outra e talvez a que mais dificulte os estudos da plataforma Lattes é sobre o acesso a
sua base de dados, que apesar de ser uma base aberta para ser acessada livremente por
pesquisadores e instituições individualmente, a disponibilização da massa de dados em nível
macro é bastante dificultada pelo CNPq dependendo de uma solicitação a diretoria do órgão e
que nem sempre este acesso é garantido.
Silva e Smit consideram necessário “inserir mecanismos de controle na forma de
preenchimento da plataforma Lattes, pois o aumento da comunidade científica brasileira e o
respectivo crescimento da produção desta comunidade evidenciam um aumento proporcional
de inconsistências.” (SILVA e SMIT, 2009). Ficando assim comprometida a recuperação da
informação, o que pode limitar o uso desta fonte curricular tão abrangente para uma análise
mais profunda da produção científica nacional. Porém a plataforma Lattes não é o objetivo
principal deste trabalho, podendo ser objeto de estudo posterior.
De acordo com as pesquisas realizadas nas bases digitais de trabalhos acadêmicos e de
pesquisa científica (ACM Digital Library, Computers and Applied Sciences Complete
(EBSCO), IEEE Xplore, SciELO.org, ScienceDirect, Google Academic, Portal de Periódicos
13
CAPES/MEC), utilizando as palavras-chave desta pesquisa: Predição de links, análise de
redes sociais, redes de coautoria, plataforma Lattes, com retorno de 731 trabalhos, sendo que
destes, 192 são sobre o atributo “predição de links” e destes, somente 4 artigos realizaram
pesquisa sobre a predição de links utilizando o parâmetro de comunidades.
De acordo com o site do CNPq com registros disponíveis em: <http://cnpq.br/series-
historicas/>, o total dos investimentos realizados em bolsas de estudo e fomento a pesquisa
passou de R$ 500.000,00 no ano de 1996 para R$ 2.900.000,00 no ano de 2014, conforme
figura 4.
Figura 2 - Tabela de investimentos em bolsas e fomento a pesquisa 1996/2004
Fonte: CNPq/AEi. <http://cnpq.br/series-historicas/>
Este estudo auxiliará na avaliação e predição de futuras colaborações de acordo com as áreas
de pesquisa, indicando se pesquisadores de uma área poderão/deverão colaborar na produção
de um artigo, podendo assim otimizar a produção destes pesquisadores por meio da indicação
de pesquisadores cujas parcerias são mais promissoras.
Cada vez mais os dados referentes à produção científica estão disponíveis em bases de dados
na internet, no Brasil existe a base de dados da plataforma Lattes com um cadastro nacional
de currículos de pesquisadores, onde se pode ter acesso a publicações científicas, informações
14
sobre projetos de pesquisa, participações em bancas, eventos, orientações, e currículos dos
pesquisadores, dentre outras informações.
Diante do exposto esta pesquisa pretende tornar-se relevante, tendo em vista, a evidente
necessidade das instituições de ensino superior público e privado, bem como dos órgãos
governamentais de apoio à pesquisa como: Capes, CNPq, MEC, de cada vez mais, saber
como e onde, investir e fomentar projetos de pesquisa, qualificação e especialização dos
pesquisadores. Hoje os investimentos não são baseados em métodos quantitativos ou
computacionais de avaliação, mas de forma intuitiva ou política, não contemplando possíveis
áreas de pesquisa, podendo ocorrer altos investimentos em áreas que estão fadadas a acabar
ou baixos investimentos em áreas promissoras.
1.3 Objetivos
1.3.1 Objetivo geral
O presente trabalho propõe analisar o desempenho de um algoritmo de predição de links tendo
como objetivo predizer o surgimento de relacionamentos futuros entre os pesquisadores (pares
de pesquisadores candidatos a colaborarem no futuro) com base na área de atuação.
Considerando para determinação de novos links entre dois pesquisadores, a adoção não
somente dos atributos de nós (predição de links individualizada) que apresenta um baixo
desempenho, mas também a combinação de outros atributos observados tais como: títulos,
resumos dos trabalhos publicados, área de atuação, palavras-chave, áreas de conhecimento,
participações em projetos e linha de pesquisa de cada pesquisador da rede de coautoria da
plataforma Lattes, para determinar o crescimento em áreas de atuação destes pesquisadores de
acordo com a quantidade de futurascolaborações.
1.3.2 Objetivos específicos
Para que o objetivo principal deste trabalho seja alcançado, será necessário alcançar alguns
objetivos específicos que foram definidos em:
15
a) Executar a separação, estruturação e classificação de forma padronizada das áreas de
atuação dos pesquisadores que formam os conjuntos de dados utilizados nos experimentos
deste projeto;
b)Estruturar de forma padronizada, diferentes conjuntos de dados com os pesquisadores que
serão utilizados nos experimentos deste projeto;
c) Realizar combinações de atributos e métricas para executar o algoritmo de predição de
links baseado nas áreas de atuação dos pesquisadores;
d) Executar o algoritmo de predição de links escolhido para realizar o experimento baseado
nos títulos, resumos, área de atuação, palavras-chave, áreas de conhecimento, participações
em projetos e linha de pesquisa dos pesquisadores.
1.4 Referência ao curso de mestrado
O Programa de Pós-Graduação em Sistemas de Informação e Gestão do Conhecimento da
Universidade FUMEC – PPGSIGC pretende articular e aplicar conhecimento profissional no
abrangente campo de Sistemas de Informação. Sua missão é a produção de atividades
técnicas, de ensino e pesquisa, enfatizando a busca, o desenvolvimento e a integração do
conhecimento e das atividades que dele se originam com vistas à formação de docentes e
pesquisadores.Contribuindo na difusão de pesquisas acadêmicas de forma interdisciplinar.
(Universidade FUMEC – PPGSIGC, 2016). Acessado em 05/10/2016
<http://ppg.fumec.br/sigc/>.
A linha de pesquisa Sistemas e Tecnologia de Informação é a aplicação do conhecimento
técnico/científico para fins de disseminação e recuperação de informações por meios
computacionais. A trilha de Sistemas de Recuperação da Informação trata do estudo de
modelos de recuperação da informação com foco na implementação de projetos de mineração
de dados. Como o termo indica, mineração de dados refere-se à mineração ou descoberta de
novas informações em termos de padrões ou regras em base de grandes quantidades de dados.
16
A pesquisa pretende realizar aplicações práticas como a adaptação ou construção de
ferramentas de mineração de texto existentes para usar na recuperação da informação.
Criando uma base de dados com os currículos dos pesquisadores da plataforma Lattes e
efetuando processamento com algoritmo de predição de links nesta base de dados para fazer a
predição de futuras coautorias baseadas na área de atuação dos pesquisadores. Portanto, pode-
se afirmar que esta dissertação enquadra nos parâmetros exigidos pela instituição.
1.5 Estruturado documento
Para facilitar o entendimento e acompanhamento do texto, esse trabalho está configurado em
cinco capítulos, da seguinte forma:
Primeiro capítulo: Apresenta a introdução que oferece uma visão geral sobre o trabalho, bem
como o problema de pesquisa, o objetivo geral e os objetivos específicos, a justificativa da
importância do projeto, a aderência da pesquisa ao programa de mestrado profissional da
Universidade FUMEC e a forma como este projeto está estruturado.
Segundo capítulo: Composto pelos conceitos necessários para a compreensão do estudo.
Nesse capítulo são apresentados os trabalhos relacionados à pesquisa, conceituando com as
obras mais relevantes sobre os atributos de interesse: Predição de links, análise de redes
sociais, redes de coautoria, plataforma Lattes.
Terceiro capítulo: São apresentados os procedimentos metodológicos utilizados para o
desenvolvimento da pesquisa. Nesse capítulo são abordadas a caracterização da pesquisa, os
métodos e técnicas utilizados para coleta, amostra e análise dos dados.
Quarto capítulo: Apresenta o cronograma para execução do projeto.
Quinto capítulo: São apresentadas as referências utilizadas no projeto de pesquisa.
17
2 REFERENCIAL TEÓRICO
A pesquisa bibliográfica valeu-se da utilização do processo de revisão da literatura
desenvolvido por Kitchenham (2004), que consiste em determinar repositórios de artigos
científicos e executar a busca com um único atributo por vez, em todos os repositórios
escolhidos.
2.1 Critérios de seleção
Foram definidos os seguintes critérios de seleção para filtrar artigos irrelevantes:
2.1.1 Critérios de inclusão
Publicações entre 2010 e 2016. Com objetivo de extrair os artigos mais recentes;
Resumos que mencionem explicitamente relação entre Predição de links, análise de
redes sociais, redes de coautoria, plataforma Lattes;
Pelo resumo a revisão revele potencial aplicação dos atributos;
Tipo de material: Artigos, livros, teses e dissertação;
Idioma: Qualquer idioma;
Ordenado por: Data de publicação.
2.1.2 Critérios de exclusão
Artigos anteriores a 2010, com exceção de trabalhos de grande relevância;
Publicações que estejam fora do contexto da pesquisa de predição de links;
Artigos que contenham resultados abaixo de 90% de acerto em predição de links;
Artigos em duplicidade.
18
2.1.3 Base de dados de recuperação
ACM Digital Library;
Computers and Applied Sciences Complete (EBSCO);
IEEE Xplore;
SciELO.org;
ScienceDirect;
Google Academic;
Portal de Periódicos CAPES/MEC.
2.1.4 Rastreamento dos artigos
Na primeira fase foi recuperado um total de 731 artigos conforme os cinco atributos utilizados
na pesquisa. Após a recuperação foram aplicados alguns filtros para remover os artigos
irrelevantes: a) Na segunda fase foram retirados os artigos duplicados, devido às múltiplas
bases de pesquisa e aos artigos que foram retornados em pesquisas realizadas em dois ou mais
atributos, restando 484 artigos; b) Na terceira fase foram retirados os artigos que não
possuíam títulos pertinentes ao objeto da pesquisa, restando 170 artigos; c) Na quarta fase
foram retirados os artigos que não possuíam os resumos não pertinentes ao objeto da pesquisa,
restando 117 artigos.
2.2 Redes sociais
Segundo (LIBEN-NOWELL e KLEINBERG, 2007) as redes sociais são altamente dinâmicas,
e suas alterações são realizadas rapidamente a partir da ocorrência de novas interações na
estrutura social. Sendo assim, conhecer os mecanismos que norteiam a evolução dessas redes,
apesar de ser fundamental, ainda é uma incógnita.Ainda segundo (LIBEN-NOWELL e
KLEINBERG, 2007), as redes sociais são um tipo de rede em que os nós representam pessoas
e os links representam a interação, colaboração ou influência entre as entidades.
19
Como exemplo de rede social, podemos destacar a rede de coautoria, na qual os usuários
(pesquisadores, professores e alunos) são autores de trabalhos publicados, e considerados
atores, e as relações existentes entre eles são representadas pelas publicações realizadas
(BRANDÃO; PARREIRAS; SILVA, 2007).
Redes sociais possuem características que as diferem de outras redes. Segundo (NEWMAN e
PARK, 2003) existem duas principais diferenças:
Nas redes sociais há uma forte relação entre o grau dos nós adjacentes, enquanto em
outras redes não.
Enquanto nas redes sociais os nós com conexões comuns tendem a se conectar, em
outras redes, na maior parte das vezes os nós possuem um nível de agrupamento
comparado ao de redes aleatórias. Ambas as diferenças seriam explicadas pela mesma
hipótese, o fato de que as redes sociais são caracterizadas por comunidades, enquanto
as outras redes não.
(FARIAS et al., 2010) afirma que a rede social representa um conjunto de participantes
autônomos, unindo ideias e recursos em torno de valores e interesses compartilhados.
2.3 Redes de coautoria
Segundo Newman (2001), nas redes de coautoria os autores de um artigo científico se
conhecem antes de realizarem um trabalho juntos, tornando assim este tipo de rede mais
legítimo do que outras redes sociais onde uma pessoa pode nunca ter visto a outra e
estabelecer uma relação de amizade. E que estas redes também são conhecidas como redes de
colaboração científica, unindo pares de pesquisadores que tiveram alguma coautoria em
produções científicas.
Digiampietri et al. (2012) asseguram que é muito importante estudar estas redes para
esclarecer os conhecimentos relacionados ao comportamento social entre pesquisadores e
grupos acadêmicos.
20
Segundo (SILVA; BARBOSA; DUARTE, 2012), normalmente artigos científicos são escritos
pormais de um autor. Onde o artigo é o elemento de interligação entre os autores,formando
assim uma rede de coautoria entre eles.
2.4 Plataforma Lattes
Segundo (DE FARIAS et al., 2012) a Plataforma Lattes do Conselho Nacional de
Desenvolvimento Científico e Tecnológico(CNPq) é uma base de dados que contém, entre
outras informações, os currículos da maior parte dos pesquisadores que atuam no Brasil.
Segundo (SILVA e SMIT, 2009) é necessário “inserir mecanismos de controle na forma de
preenchimento da plataforma Lattes, pois o aumento da comunidade científica brasileira e o
respectivo crescimento da produção desta comunidade evidenciam um aumento proporcional
de inconsistências.”
Para (CAÑIBANO e BOZEMAN, 2009), apesar da grande quantidade e relevância das
informações existentes na plataforma Lattes, há diversas características que devem ser levadas
em consideração para sua utilização. Entre estas características destaca-se o fato de que
muitos campos de preenchimento são abertos e preenchidos manualmente, pelos próprios
pesquisadores, podendo ocorrer erros de digitação e/ou padronização e sem a devida
validação e/ou confirmação da veracidade dos dados; outra característica destacada é que a
periodicidade de inserção e/ou atualização de dados fica estritamente por conta dos próprios
pesquisadores, tendo também o fato de que muitos campos são opcionais, podendo limitar ou
inviabilizar alguns tipos de análise (MARQUES, 2010).
Segundo Lane (2010) a base da plataforma Lattes é uma das bases de pesquisadores mais
limpas que existem em todo o mundo.
2.5 Predição de links
Busca estabelecer uma probabilidade de futuros links entre dois nós com base nas
informações dos links e dos nós observados na rede (GETOOR e DIEHL, 2005).
21
Para (LIBEN-NOWELL e KLEINBERG, 2007) “dada uma rede de algum domínio, deve-se
prever com precisão os links que serão adicionados à rede entre o tempo t e um tempo futuro
t0”.
A predição de links é uma das principais tarefas da Mineração de Links. E tem atraído ampla
atenção das comunidades da Física e da Ciência da Computação por possuir uma grande
aplicação em:
Na recuperação de informação (BUNESCU e MOONEY, 2004);
Na identificação de interações espúrias (KAHANDA e NEVILLE, 2009);
Na avaliação dos mecanismos de evolução das redes (LIBEN-NOWELL e
KLEINBERG, 2007; POTGIETER et al., 2009).
Nas redes sociais acadêmicas, a predição de links é tipicamente utilizada para tentar
identificar potenciais parceiros no desenvolvimento de um projeto e/ou coautores para a
publicação de um artigo(DIGIAMPIETRI et al., 2015).
Dado um conjunto de pesquisadores organizados em uma rede, recomendar pessoas com
quem um pesquisador pode colaborar é uma forma de predizer links (BRANDÃO; MORO,
2012).
2.5.1 Algoritmos
Ainda será selecionado um ou um conjunto de técnicas de predição de links que será/ão
utilizado/s nos experimentos propostos. As técnicas pré-escolhidas se enquadram na categoria
das métricas de topologia, que segundo (WANG et al. 2015), contém a maior parte das
técnicas e também são bastante populares entre os pesquisadores pela simplicidade e eficácia
que apresentam.
Vizinhos comuns (CN)
Anexação preferencial (PA)
Coeficiente de Jaccard (JC)
AdamicAdar (AA)
22
3 METODOLOGIA DE PESQUISA
3.1 Quanto ao objetivo
Será caracterizada como uma pesquisa exploratória.
Segundo (GIL, 2008),
“Pesquisa Exploratória: proporcionar maior familiaridade com o problema (explicitá-lo).
Pode envolver levantamento bibliográfico, entrevistas com pessoas experientes no problema
pesquisado. Geralmente, assume a forma de pesquisa bibliográfica e estudo de caso.”
3.2 Quanto aos procedimentos técnicos
Será caracterizada como uma pesquisa bibliográfica.
Segundo (GIL, 2008),
“Pesquisa Bibliográfica: é desenvolvida com base em material já elaborado, constituído
principalmente de livros e artigos científicos. Não recomenda-se trabalhos oriundos da
internet.”
3.3 Quanto à natureza
Será caracterizada como uma pesquisa aplicada.
Segundo (GIL, 2008),
“Pesquisa Aplicada: apresenta muitos pontos de contato com a pesquisa pura, pois depende
de suas descobertas e se enriquece com o seu desenvolvimento; todavia, tem como
característica fundamental o interesse na aplicação, utilização e conseqüências práticas dos
conhecimentos. Sua preocupação está menos voltada para o desenvolvimento de teorias de
valor universal que para a aplicação imediata numa realidade circunstancial.”
3.4 Quanto aos procedimentos técnicos
Os procedimentos para se atingir os objetivos são:
23
1 – O primeiro passo da execução deste projeto foi a pesquisa bibliográfica que buscou os
trabalhos relacionados à:Predição de links, análise de redes sociais, redes de
coautoria,plataforma Lattes. Pretende-se com essa pesquisa enriquecer o embasamento teórico
para executar de forma padronizada a separação e classificação do trabalho.
2 – No segundo passo será realizada a execução ou adaptação do algoritmo de extração de
dados, a criação do banco de dados contendo as informações relevantes para a análise. Faz-se
necessário a mineração e delimitação destes dados, com o objetivo de extrair somente os
dados necessários para aplicação dos algoritmos de predição. Pois a base da "Plataforma
Lattes" é muito extensa.
3 – No terceiro passo será realizada a estruturação, e a separação das massas de dados de
forma padronizada, em diferentes conjuntos com os pesquisadores que serão utilizados nos
experimentos deste projeto.
4 – No quarto passo será realizada as combinações de atributos e métricas para executar o
algoritmo de predição de links baseado nas áreas de atuação dos pesquisadores;
5 – No quinto passo será executado o algoritmo de predição de links escolhido para realizar o
experimento baseado nos títulos, resumos, área de atuação, palavras-chave, áreas de
conhecimento, participações em projetos e linha de pesquisa dos pesquisadores, nas massas de
dados já preparadas no terceiro passo.
6 – E por último, no sexto passo será realizada a análise dos resultados.
A metodologia será dividida em três etapas. A primeira etapa consistirá em uma pesquisa de
natureza aplicada, com o objetivo exploratório para identificar o que já se conhece sobre os
atributos: Predição de links, análise de redes sociais, redes de coautoria,plataforma Lattes.
Pretende-se com essa pesquisa enriquecer o embasamento teórico para executar de forma
padronizada a separação, classificação e análise do trabalho. Já a segunda etapa consistirá na
manipulação, extração e padronização dos conjuntos de dados a serem analisados. A base da
"Plataforma Lattes"é muito extensa e para a realização deste trabalho, faz-se necessário uma
mineração dos dados, com o objetivo de extrair somente os dados necessários para aplicação
24
dos algoritmos de predição. A terceira etapa consistirá na execução dos algoritmos de
predição, registro e análise dos resultados dos percentuais de acerto das predições de links.
Primeiro, foi necessário a coleta dos arquivos. Em seguida será realizada a extração e
formatação dos dados. O próximo passo será realizar a indexação dos dados resultantes da
etapa anterior. O quarto passo será a utilização das ferramentas de predição de links. O último
passo será a análise dos dados de acordo com cada objetivo específico.
25
4 CRONOGRAMA
Figura 3 - Cronograma
Fonte: Autor
26
5 BIBLIOGRAFIA
AL HASAN, Mohammad; ZAKI, Mohammed J.A survey of link prediction in social
networks. In: Social network data analytics. Springer US, 2011. p. 243-275.
A Pavlov M, Ichise R. Finding Experts by Link Prediction in Co-authorship Networks.
Proceedings of the Workshop on Finding Experts on the Web with Semantics FEWS2007 at
ISWC/ASWC2007: 42–55.
BARTAL, Alon; SASSON, Elan; RAVID, Gilad. Predicting links in social networks using
text mining and sna. In: Social Network Analysis and Mining, 2009.
ASONAM'09.International Conference on Advances in.IEEE, 2009. p. 131-136.
BRANDÃO, Michele A.; MORO, Mirella M. Recomendação de colaboração em redes sociais
acadêmicas baseada na afiliação dos pesquisadores.SBBD-Simpósio Brasileiro de Bancos de
Dados, São Paulo, Brasil, 2012.
BRANDÃO, Wladmir Cardoso; PARREIRAS, Fernando Silva; SILVA, Antonio Braz de
Oliveira e. Redes em Ciência da Informação: evidências comportamentais dos pesquisadores
e tendências evolutivas das redes de coautoria.. Informação&Informação, [S.l.], v. 12, n.
1esp, p. 110-124, dez. 2007.
BUNESCU, Razvan; MOONEY, Raymond J. Relational markov networks for collective
information extraction.In: ICML-2004 Workshop on Statistical Relational Learning. 2004.
CAÑIBANO, Carolina; BOZEMAN, Barry.Curriculum vitae method in science policy and
research evaluation: the state-of-the-art. ResearchEvaluation, v. 18, n. 2, p. 86-94, 2009.
CUKIERSKI, William; HAMNER, Benjamin; YANG, Bo. Graph-based features for
supervised link prediction. In: Neural Networks (IJCNN), The 2011 International Joint
Conference on. IEEE, 2011. p. 1237-1244.
27
DA SILVA, Alzira Karla Araújo; BARBOSA, Ricardo Rodrigues; DUARTE, Emeide
Nóbrega. Rede social de coautoria em Ciencia da Informação: estudo sobre a área temática
de"Organizaçãoe Representação do Conhecimento". Informação & Sociedade, v. 22, n. 2,
2012.
DE FARIAS, Lucas R. et al. Um sistema para análise de redes de pesquisa baseado na
Plataforma Lattes. Anais da VIII Escola Regional de Banco de Dados, Curitiba, PR,
Brasil, 2012.
DIGIAMPIETRI, Luciano Antonioet al. A Link Prediction System in Social Networks.
In: Proceedings of the annual conference on Brazilian Symposium on Information
Systems: Information Systems: A Computer Socio-Technical Perspective-Volume 1.
Brazilian Computer Society, 2015. p. 20.
DIGIAMPIETRI, Luciano A.; MARUYAMA, William T. Predição de novas coautorias na
rede social acadêmica dos programas brasileiros de pós-graduação em ciência da computação.
In: III Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2014).
2014. p. 243-248.
DIGIAMPIETRI, Luciano A.; SANTIAGO, Caio RN; ALVES, Caio M. Predição de
Coautorias em Redes Sociais Acadêmicas: Um Estudo Exploratório em Ciência da
Computação. 2013.
DIGIAMPIETRI, Luciano A. et al. Dinâmica das relações de coautoria nos programas de
pós-graduação em computação no Brasil. In: BRAZILIAN WORKSHOP ON SOCIAL
NETWORK ANALYSIS AND MINING, 1., 2012, Curitiba. Anais... Porto Alegre: SBC,
2012.
FARIAS,Josivania Silva; DE FARIAS, Michelle Nascimento; DE AQUINO GUIMARÃES,
Tomás. Análise sociométrica de uma rede de transferência de conhecimento. Revista de
Administração FACES Journal, v. 9, n. 1, 2010.
GETOOR, Lise; DIEHL, Christopher P. Link mining: a survey. ACM SIGKDD Explorations
Newsletter, v. 7, n. 2, p. 3-12, 2005.
28
GIL, Antônio Carlos. Métodos e Técnicas de Pesquisa Social. 6ª Ed. São Paulo: Atlas, 2008.
GROSSMAN, J. W. The evolution of the mathematical research collaboration graph.
Congressus Numerantium, v. 158, p. 201_212, 2002.
HOSEINI, Elham; HASHEMI, Sattar; HAMZEH, Ali. Link prediction in social network
using co-clustering based approach. In: Advanced Information Networking and
Applications Workshops (WAINA), 2012 26th International Conference on. IEEE, 2012. p.
795-800.
KAHANDA, Indika; NEVILLE, Jennifer. Using Transactional Information to Predict Link
Strength in Online Social Networks. ICWSM, v. 9, p. 74-81, 2009.
KITCHENHAM, B. Procedures for Performing Systematic Reviews. [S.l.], 2004.
KUO, Tsung-Ting et al.Unsupervised link prediction using aggregative statistics on
heterogeneous social networks. In: Proceedings of the 19th ACM SIGKDD international
conference on Knowledge discovery and data mining. ACM, 2013. p. 775-783.
LANE, Julia. Let's make science metrics more scientific. Nature, [S. l.], v. 464, n. 7288, p.
488-489, Mar. 2010.
LIBEN-NOWELL, D.; KLEINBERG, J.The link-prediction problem for social
networks.Journal of the American Society for Information Science and Technology, v. 58,
n. 7, p. 1019-1031, maio 2007.
MARQUES, Katia Cunha. A PLATAFORMA LATTES E A ORGANIZAÇÃO DA
INFORMAÇÃO. Gestão&Planejamento-G&P, v. 11, n. 2, 2011.
NARAYANAN, Arvind; SHI, Elaine; RUBINSTEIN, Benjamin IP.Link prediction by de-
anonymization: How we won the kaggle social network challenge. In: Neural Networks
(IJCNN), The 2011 International Joint Conference on. IEEE, 2011. p. 1825-1834.
29
NEWMAN, Mark EJ. Clustering and preferential attachment in growing networks. Physical
review E, v. 64, n. 2, p. 025102, 2001.
NEWMAN, Mark EJ. The structure and function of complex networks. SIAM Review, v. 45,
p. 167_256, 2003.
NEWMAN, Mark EJ; PARK, Juyong. Why social networks are different from other types of
networks. PhysicalReview E, v. 68, n. 3, p. 036122, 2003.
POTGIETER, Anetet al.Temporality in link prediction: Understanding social
complexity. Emergence: ComplexityandOrganization, v. 11, n. 1, p. 69, 2009.
SILVA, E. A. A. Proposta de um Processo Sistemático Baseado em Métricas Não-
Dicotômicas para Avaliação de Predição de Links em Redes de Coautoria. Tese de
Doutorado em Engenha Elétrica, Escola Politécnica da Universidade de São Paulo, 2011.
SILVA, FábioMascarenhas; SMIT, JohannaWilhelmina. Organização da informação em
sistemas eletrônicos abertos de Informação Científica & Tecnológica: análise da Plataforma
Lattes. Perspectivas em ciência da informação, v. 14, n. 1, p. 77-98, 2009.
SUN, Yizhouet al.Co-author relationship prediction in heterogeneous bibliographic
networks. In: Advances in Social Networks Analysis and Mining (ASONAM), 2011
International Conference on. IEEE, 2011. p. 121-128.
SUN, Yizhouet al.When will it happen?: relationship prediction in heterogeneous
information networks. In: Proceedings of the fifth ACM international conference on Web
search and data mining. ACM, 2012. p. 663-672.
WANG, Peng et al. Link prediction in social networks: the state-of-the-art. Science China
Information Sciences, v. 58, n. 1, p. 1-38, 2015.