Confoa 2011-sabiia

34
Planejamento e desenvolvimento de serviço de informação em pesquisa agropecuária: Caso do Sistema Aberto e Integrado de Informação em Agricultura (Sabiia) Isaque Vacari 2° Conferência Luso-Brasileira sobre Acesso Aberto Rio de Janeiro (RJ) – Novembro de 2011

Transcript of Confoa 2011-sabiia

Page 1: Confoa 2011-sabiia

Planejamento e desenvolvimento de serviço de informação em pesquisa

agropecuária: Caso do Sistema Aberto e Integrado de Informação em Agricultura

(Sabiia)

Isaque Vacari

2° Conferência Luso-Brasileira sobre Acesso Aberto

Rio de Janeiro (RJ) – Novembro de 2011

Page 2: Confoa 2011-sabiia

Agenda

• Motivação• Introdução• Objetivos• Material e métodos• Resultados e discussão• Trabalhos futuros

Page 3: Confoa 2011-sabiia

Projeto Sabiia

• Motivação:

Pesquisa Agropecuária+

Acesso Aberto à Informação+

Padrão Aberto e Interoperável+

Software Livre=

Sistema Aberto e Integrado de Informação em Agricultura (Sabiia)

Page 4: Confoa 2011-sabiia

Projeto Sabiia

O Sistema Aberto e Integrado de Informação em Agricultura (Sabiia) é um mecanismo de busca

automatizado que coleta e centraliza metadados de provedores de dados científicos de acesso aberto (OAI-PMH), previamente selecionados. Essa interface reúne

informações sobre agricultura e áreas afins, possibilitando o acesso ao texto integral de milhares de

publicações científicas disponíveis em diversas instituições nacionais e internacionais. O Sabiia permite o acesso a documentos como livros, capítulos de livros,

artigos em periódicos, folhetos, teses, anais e proceedings de eventos, entre outros.

Page 5: Confoa 2011-sabiia

Projeto Sabiia

• Inicio:– Janeiro de 2009.

• Contribuições:– Facilitar e aumentar a visibilidade do acesso as publicações científicas da

área de pesquisa agropecuária e afins.

• Governança:– Embrapa Informação Tecnológica;

– Embrapa Informática Agropecuária;

– Sistema Embrapa de Bibliotecas (SEB);• 42 bibliotecas especializadas.

• Parceiros:– Universidade Federal de Brasília (UnB) – Dr. Fernando César Lima Leite.

• Patrocinador:– Empresa Brasileira de Pesquisa Agropecuária (Embrapa).

Page 6: Confoa 2011-sabiia

Projeto Sabiia

• Objetivos:– identificar e coletar metadados de provedores de dados da área

de pesquisa agropecuária e áreas afins disponíveis em ambiente de acesso aberto no Brasil e no mundo;

– disponibilizar os metadados coletados em um sistema de recuperação de informação (mecanimo de busca);

– expor os metadados coletados para outros provedores de serviços ou sistema de informação que porventura tenham interesse em coletá-los;

– monitorar permanentemente o surgimento de novos provedores de dados;

– estabelecer e reavaliar, quando se fizer necessário, política de desenvolvimento da coleção que compõe o sistema;

– adotar soluções livres e gratuitas que permitam adaptação e reúso para desenvolvimento do sistema.

Page 7: Confoa 2011-sabiia

Projeto Sabiia

• Esquema funcional:

OAI-PMH

OAI-PMH

OAI-PMHOAI-PMH

OAI-PMH

Page 8: Confoa 2011-sabiia

Projeto Sabiia

- Passo a Passo -

Da identificação dos provedores de dados e coleta de dados até o desenvolvimento

e disponibilização do portal Sabiia

Todo processo sistematizado e automatizado

Page 9: Confoa 2011-sabiia

Projeto Sabiia

• Levantamento de provedores de dados de interesse da pesquisa agropecuária:– Um exame preliminar identificou um total de 261

provedores de dados em áreas de interesse da pesquisa agropecuária. Dentre eles, 52 periódicos nacionais, 74 periódicos estrangeiros, 27 repositórios institucionais e temáticos, 4 repositórios de conferências, e 104 periódicos nacionais e estrangeiros disponíveis no SciELO. Dos 261 provedores de dados identificados e selecionados, cerca de 128 (49%) provedores de dados disponibilizam seus dados para uso por outros sistemas de informação.

Page 10: Confoa 2011-sabiia

Projeto Sabiia

• Levantamento de provedores de dados de interesse da pesquisa agropecuária:– Principais Sistemas de Informação utilizados no

levantamento de provedores de dados:• Doaj: http://www.doaj.org/

• OpenDoar: http://www.opendoar.org

• Roar: http://roar.eprints.org/

• Scielo: http://www.scielo.org

Page 11: Confoa 2011-sabiia

Projeto Sabiia

• Passo 1 - Coleta de dados:– Os dados bibliográficos dos

provedores de dados são coletados com o software livre jOAI (Java Open Archives Initiative) e armazenados em arquivos no formato XML.

Page 12: Confoa 2011-sabiia

Projeto Sabiia

• Passo 2 – Tratamento de dados:– Os dados armazenados em arquivos XML são tratados,

convertidos e armazenados no Sistema Gerenciador de Banco de Dados PostgreSQL.

– Exemplos de tratamento:• Unificação do carácter separador de palavras-chaves: Agricultura

familiar, pequeno agricultor, política pública;

• Conversão dos dados bibliográficos coletados para UTF-8.

Tratamento e

Conversão de dadospara o

PostgreSQL

Page 13: Confoa 2011-sabiia

Projeto Sabiia

• Passo 3 – Conversão de Dados para Busca:– Os dados armazenados no PostgreSQL são convertidos para

o formato da ferramenta de busca Apache Solr.

Conversão de dados

para o formatoApache Solr

Page 14: Confoa 2011-sabiia

Projeto Sabiia

• Passo 4 – Visualização e recuperação da informação no sistema Sabiia:– O sistema Sabiia interage com a ferramenta de

recuperação de informação Apache Solr, apresentando as informações recuperadas em uma interface mais intuitiva e amigável.

Page 15: Confoa 2011-sabiia

Projeto Sabiia

• Passo 5 – Exposição dos metadados coletados:– Os dados coletados, tratados e armazenados no Sistema

Gerenciador de Banco de Dados PostgreSQL são convertidos para a ferramenta OAICat. A ferramenta OAICat é responsável por expor os metadados do sistema Sabiia utilizando-se do protocolo OAI-PMH;

– Dessa forma, o sistema Sabiia além de atuar como Provedor de Serviços assume o papel de Agregador de Dados.

Conversão de dados

para o OAICat

Page 16: Confoa 2011-sabiia

Projeto Sabiia

- Portal Sabiia – Sistema de Recuperação de Informação -

Page 17: Confoa 2011-sabiia

Projeto Sabiia

• Portal - Lançamento:– http://www.embrapa.br/sabiia

– Lançado oficialmente no Aniversário da Embrapa em Abril de 2011

Page 18: Confoa 2011-sabiia

Projeto Sabiia

• Portal – Plano de Comunicação:

Page 19: Confoa 2011-sabiia

Projeto Sabiia

• Recursos de busca:– Busca simples e avançada;

– Busca com operadores booleanos;

– Busca específica por campo;

– Busca por provedor de dados e ano de publicação;

– Agrupamento e refinamento do resultado da busca por Provedor de Dados, Autor, Palavra-chave etc;

– Paginação do resultado da busca;

– Highlighting sobre o resultado da busca;

– Nuvem de tags;

– Impressão do resultado da busca.

• Internacionalização:– Português, Espanhol e Inglês.

Page 20: Confoa 2011-sabiia

Projeto Sabiia

• Screenshot da interface de busca:

Busca simples

Resultado da Busca

Agrupamento e Refinamento da Busca

Page 21: Confoa 2011-sabiia

Projeto Sabiia

• Screenshot da interface de busca:

Busca por Campo

Busca por Provedor de Dados

Busca por Ano de Publicação

Page 22: Confoa 2011-sabiia

Projeto Sabiia

• Screenshot da interface de busca:

Registro Completo

Page 23: Confoa 2011-sabiia

Projeto Sabiia

• Screenshot da interface de busca:

Lista de Provedores de Dados

Page 24: Confoa 2011-sabiia

Projeto Sabiia

- Dados Estatísticos -

Page 25: Confoa 2011-sabiia

Projeto Sabiia

• Dados estatísticos:– 130 provedores de dados coletados ativos;

– 279.412 documentos indexados;

– 2.500 visitas por dia;

– 40.000 hits por dia;

– 3.000 buscas por dia.

Page 26: Confoa 2011-sabiia

Projeto Sabiia

• Dados estatísticos: Provedores de Dados por País

Page 27: Confoa 2011-sabiia

Projeto Sabiia

• Dados estatísticos – Provedores de Dados por Status:

Page 28: Confoa 2011-sabiia

Projeto Sabiia

• Dados estatísticos – Provedores de Dados Top 30:

Page 29: Confoa 2011-sabiia

Projeto Sabiia

• Principais dificuldades encontradas:– Coleta de dados em Provedores de Dados por tema:

• Exemplo: coletar a coleção de publicações agrícolas da Biblioteca Digital Brasileira de Teses e Dissertações (BDTD);

• Exemplo: coletar a coleção de publicações agrícolas da Universidade de São Paulo (USP).

– Serviço de coleta de dados inexistente:• Cerca de 30% dos provedores de dados identificados não

disponibilizam os metadados para intercâmbio de dados, ou seja, não implementam o serviço OAI-PMH.

Page 30: Confoa 2011-sabiia

Projeto Sabiia

• Resultados e discussão:– O intercâmbio de dados entre provedores de dados e

provedores de serviços previsto pelo protocolo OAI-PMH possibilitam a criação de novos serviços de valor agregado. O Sabiia é um exemplo prático de criação de serviço com valor agregado, onde metadados expostos em escala planetária por diversos provedores de dados OAI-PMH do setor agropecuário e área afins são centralizados, unificados e disponibilizados em uma única interface para consulta.

– A adoção de padrões abertos e interoperáveis, associada ao acesso livre e irrestrito aos dados e informações configuram uma nova oportunidade para construção de aplicações digitais e democratização do acesso aos resultados de pesquisas e do conhecimento em geral.

Page 31: Confoa 2011-sabiia

Projeto Sabiia

• Resultados e discussão:– O uso de software livre mostrou-se adequado e viável face

aos desafios impostos para o desenvolvimento do Sistema de Informação Sabiia, permitindo à Embrapa conquistar autonomia tecnológica em soluções de livres para desenvolvimento de provedores de serviços baseados no protocolo OAI-PMH.

Page 32: Confoa 2011-sabiia

Projeto Sabiia

• Trabalhos futuros:– Incorporação de ferramentas de Análise e Extração de

Informações Gerenciais – Business Inteligence (BI) - Pentaho:

Page 33: Confoa 2011-sabiia

Projeto Sabiia

• Trabalhos futuros:– Coletar coleções da Biblioteca Digital Brasileira de Teses e

Dissertações (BDTD) em agricultura e correlatas.

– Embrapa + Biblioteca Nacional de Agricultura (BINAGRI) + Serviço Nacional de Pesquisa Agropecuária (SNPA): Integração do sistema Sabiia com catálogos de bibliotecas especializadas em agricultura.

Page 34: Confoa 2011-sabiia

Obrigado!!!

Isaque [email protected]