Confoa 2011-sabiia
-
Upload
conferencia-luso-brasileira-sobre-acesso-livre -
Category
Documents
-
view
329 -
download
0
Transcript of Confoa 2011-sabiia
Planejamento e desenvolvimento de serviço de informação em pesquisa
agropecuária: Caso do Sistema Aberto e Integrado de Informação em Agricultura
(Sabiia)
Isaque Vacari
2° Conferência Luso-Brasileira sobre Acesso Aberto
Rio de Janeiro (RJ) – Novembro de 2011
Agenda
• Motivação• Introdução• Objetivos• Material e métodos• Resultados e discussão• Trabalhos futuros
Projeto Sabiia
• Motivação:
Pesquisa Agropecuária+
Acesso Aberto à Informação+
Padrão Aberto e Interoperável+
Software Livre=
Sistema Aberto e Integrado de Informação em Agricultura (Sabiia)
Projeto Sabiia
O Sistema Aberto e Integrado de Informação em Agricultura (Sabiia) é um mecanismo de busca
automatizado que coleta e centraliza metadados de provedores de dados científicos de acesso aberto (OAI-PMH), previamente selecionados. Essa interface reúne
informações sobre agricultura e áreas afins, possibilitando o acesso ao texto integral de milhares de
publicações científicas disponíveis em diversas instituições nacionais e internacionais. O Sabiia permite o acesso a documentos como livros, capítulos de livros,
artigos em periódicos, folhetos, teses, anais e proceedings de eventos, entre outros.
Projeto Sabiia
• Inicio:– Janeiro de 2009.
• Contribuições:– Facilitar e aumentar a visibilidade do acesso as publicações científicas da
área de pesquisa agropecuária e afins.
• Governança:– Embrapa Informação Tecnológica;
– Embrapa Informática Agropecuária;
– Sistema Embrapa de Bibliotecas (SEB);• 42 bibliotecas especializadas.
• Parceiros:– Universidade Federal de Brasília (UnB) – Dr. Fernando César Lima Leite.
• Patrocinador:– Empresa Brasileira de Pesquisa Agropecuária (Embrapa).
Projeto Sabiia
• Objetivos:– identificar e coletar metadados de provedores de dados da área
de pesquisa agropecuária e áreas afins disponíveis em ambiente de acesso aberto no Brasil e no mundo;
– disponibilizar os metadados coletados em um sistema de recuperação de informação (mecanimo de busca);
– expor os metadados coletados para outros provedores de serviços ou sistema de informação que porventura tenham interesse em coletá-los;
– monitorar permanentemente o surgimento de novos provedores de dados;
– estabelecer e reavaliar, quando se fizer necessário, política de desenvolvimento da coleção que compõe o sistema;
– adotar soluções livres e gratuitas que permitam adaptação e reúso para desenvolvimento do sistema.
Projeto Sabiia
• Esquema funcional:
OAI-PMH
OAI-PMH
OAI-PMHOAI-PMH
OAI-PMH
Projeto Sabiia
- Passo a Passo -
Da identificação dos provedores de dados e coleta de dados até o desenvolvimento
e disponibilização do portal Sabiia
Todo processo sistematizado e automatizado
Projeto Sabiia
• Levantamento de provedores de dados de interesse da pesquisa agropecuária:– Um exame preliminar identificou um total de 261
provedores de dados em áreas de interesse da pesquisa agropecuária. Dentre eles, 52 periódicos nacionais, 74 periódicos estrangeiros, 27 repositórios institucionais e temáticos, 4 repositórios de conferências, e 104 periódicos nacionais e estrangeiros disponíveis no SciELO. Dos 261 provedores de dados identificados e selecionados, cerca de 128 (49%) provedores de dados disponibilizam seus dados para uso por outros sistemas de informação.
Projeto Sabiia
• Levantamento de provedores de dados de interesse da pesquisa agropecuária:– Principais Sistemas de Informação utilizados no
levantamento de provedores de dados:• Doaj: http://www.doaj.org/
• OpenDoar: http://www.opendoar.org
• Roar: http://roar.eprints.org/
• Scielo: http://www.scielo.org
Projeto Sabiia
• Passo 1 - Coleta de dados:– Os dados bibliográficos dos
provedores de dados são coletados com o software livre jOAI (Java Open Archives Initiative) e armazenados em arquivos no formato XML.
Projeto Sabiia
• Passo 2 – Tratamento de dados:– Os dados armazenados em arquivos XML são tratados,
convertidos e armazenados no Sistema Gerenciador de Banco de Dados PostgreSQL.
– Exemplos de tratamento:• Unificação do carácter separador de palavras-chaves: Agricultura
familiar, pequeno agricultor, política pública;
• Conversão dos dados bibliográficos coletados para UTF-8.
Tratamento e
Conversão de dadospara o
PostgreSQL
Projeto Sabiia
• Passo 3 – Conversão de Dados para Busca:– Os dados armazenados no PostgreSQL são convertidos para
o formato da ferramenta de busca Apache Solr.
Conversão de dados
para o formatoApache Solr
Projeto Sabiia
• Passo 4 – Visualização e recuperação da informação no sistema Sabiia:– O sistema Sabiia interage com a ferramenta de
recuperação de informação Apache Solr, apresentando as informações recuperadas em uma interface mais intuitiva e amigável.
Projeto Sabiia
• Passo 5 – Exposição dos metadados coletados:– Os dados coletados, tratados e armazenados no Sistema
Gerenciador de Banco de Dados PostgreSQL são convertidos para a ferramenta OAICat. A ferramenta OAICat é responsável por expor os metadados do sistema Sabiia utilizando-se do protocolo OAI-PMH;
– Dessa forma, o sistema Sabiia além de atuar como Provedor de Serviços assume o papel de Agregador de Dados.
Conversão de dados
para o OAICat
Projeto Sabiia
- Portal Sabiia – Sistema de Recuperação de Informação -
Projeto Sabiia
• Portal - Lançamento:– http://www.embrapa.br/sabiia
– Lançado oficialmente no Aniversário da Embrapa em Abril de 2011
Projeto Sabiia
• Portal – Plano de Comunicação:
Projeto Sabiia
• Recursos de busca:– Busca simples e avançada;
– Busca com operadores booleanos;
– Busca específica por campo;
– Busca por provedor de dados e ano de publicação;
– Agrupamento e refinamento do resultado da busca por Provedor de Dados, Autor, Palavra-chave etc;
– Paginação do resultado da busca;
– Highlighting sobre o resultado da busca;
– Nuvem de tags;
– Impressão do resultado da busca.
• Internacionalização:– Português, Espanhol e Inglês.
Projeto Sabiia
• Screenshot da interface de busca:
Busca simples
Resultado da Busca
Agrupamento e Refinamento da Busca
Projeto Sabiia
• Screenshot da interface de busca:
Busca por Campo
Busca por Provedor de Dados
Busca por Ano de Publicação
Projeto Sabiia
• Screenshot da interface de busca:
Registro Completo
Projeto Sabiia
• Screenshot da interface de busca:
Lista de Provedores de Dados
Projeto Sabiia
- Dados Estatísticos -
Projeto Sabiia
• Dados estatísticos:– 130 provedores de dados coletados ativos;
– 279.412 documentos indexados;
– 2.500 visitas por dia;
– 40.000 hits por dia;
– 3.000 buscas por dia.
Projeto Sabiia
• Dados estatísticos: Provedores de Dados por País
Projeto Sabiia
• Dados estatísticos – Provedores de Dados por Status:
Projeto Sabiia
• Dados estatísticos – Provedores de Dados Top 30:
Projeto Sabiia
• Principais dificuldades encontradas:– Coleta de dados em Provedores de Dados por tema:
• Exemplo: coletar a coleção de publicações agrícolas da Biblioteca Digital Brasileira de Teses e Dissertações (BDTD);
• Exemplo: coletar a coleção de publicações agrícolas da Universidade de São Paulo (USP).
– Serviço de coleta de dados inexistente:• Cerca de 30% dos provedores de dados identificados não
disponibilizam os metadados para intercâmbio de dados, ou seja, não implementam o serviço OAI-PMH.
Projeto Sabiia
• Resultados e discussão:– O intercâmbio de dados entre provedores de dados e
provedores de serviços previsto pelo protocolo OAI-PMH possibilitam a criação de novos serviços de valor agregado. O Sabiia é um exemplo prático de criação de serviço com valor agregado, onde metadados expostos em escala planetária por diversos provedores de dados OAI-PMH do setor agropecuário e área afins são centralizados, unificados e disponibilizados em uma única interface para consulta.
– A adoção de padrões abertos e interoperáveis, associada ao acesso livre e irrestrito aos dados e informações configuram uma nova oportunidade para construção de aplicações digitais e democratização do acesso aos resultados de pesquisas e do conhecimento em geral.
Projeto Sabiia
• Resultados e discussão:– O uso de software livre mostrou-se adequado e viável face
aos desafios impostos para o desenvolvimento do Sistema de Informação Sabiia, permitindo à Embrapa conquistar autonomia tecnológica em soluções de livres para desenvolvimento de provedores de serviços baseados no protocolo OAI-PMH.
Projeto Sabiia
• Trabalhos futuros:– Incorporação de ferramentas de Análise e Extração de
Informações Gerenciais – Business Inteligence (BI) - Pentaho:
Projeto Sabiia
• Trabalhos futuros:– Coletar coleções da Biblioteca Digital Brasileira de Teses e
Dissertações (BDTD) em agricultura e correlatas.
– Embrapa + Biblioteca Nacional de Agricultura (BINAGRI) + Serviço Nacional de Pesquisa Agropecuária (SNPA): Integração do sistema Sabiia com catálogos de bibliotecas especializadas em agricultura.
Obrigado!!!
Isaque [email protected]