Cristina Ribeiro (U.Porto)Eloy Rodrigues (UMinho)Eugénia Matos Fernandes (U.Porto)Ricardo Saraiva (UMinho)
OS REPOSITÓRIOS DE DADOS CIENTÍFICOS: ESTADO DA ARTE
Projecto RCAAP - 1.ª Conferência Luso-Brasileira sobre Acesso AbertoUniversidade do Minho, 25-26 de Novembro de 2010
PROJECTO RCAAP – ACTIVIDADES 2010
● Novo domínio de intervenção● Resultados em 2010
Relatório sobre o estado da arte dos repositórios de dados científicos
●Projecto-piloto
RELATÓRIO - SUMÁRIO
1. INTRODUÇÃO
2. DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
3. REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
4. CONCLUSÕES
5. GLOSSÁRIO
6. BIBLIOGRAFIA
INTRODUÇÃO
● Reconhecimento da importância crescente dos dados criados por actividades de investigação
● 2004 - Declaração da OCDE sobre o acesso a dados científicos com financiamento público
● 2007 – Aprovação pela OCDE de Princípios e Directrizes para o acesso aos dados científicos resultantes de financiamento público
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Investigação e dados científicos: contextualização e evolução recente
● Dados científicos (OCDE): Registos factuais usados como fontes primárias na investigação científica e que são geralmente aceites na comunidade científica como necessários para validar os resultados de investigação
● Classificação de dados científicos (NSF):●Dados de observação ●Dados computacionais●Dados experimentais
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Investigação e dados científicos: contextualização e evolução recente● Curadoria de dados:
●Acções que garantem que um conjunto de dados é genuíno, permitindo o seu uso por outros que não os seus produtores
●Acções de descrição dos dados, de ligação destes a outros que os tornem inteligíveis, de registo dos usos e dos resultados a que tenham dado origem
●Acções de preservação, em que a representação dos dados e os seus metadados tenham de ser modificados
7RCAAP - Repositório Cientifico de Acesso Aberto de Portugal
CRONOLOGIA OPEN DATA
26-11-2009
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Curadoria de dados: dimensões disciplinar e institucional
● Artes e Humanidades: Partilha de dados limitada, com alguma expressão em disciplinas como a Arqueologia, Epigrafia e História da Arte
● Ciências Sociais: Algumas limitações associadas a regras e acordos de confidencialidade ou a considerações éticas ou legais
● Ciências da Vida: Grande volume de dados, requerendo capacidade de armazenamento e de computação; a partilha é limitada
● Ciências Físicas: Diversidade de práticas: partilha de dados mais estabelecida na Astronomia e menos na meteorologia e modelação climática
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Repositórios de Dados Científicos: situação actual
● Cenário 1: Curadoria pelos cientistas ou técnicos que usam os dados• Ausência de uma política institucional para a curadoria e esta
decorre da preocupação dos agentes envolvidos• Grupos em centros de investigação com actividade importante em
processamento de dados• Exemplos: CAVA ("Human Communication: an Audiovisual
Archive”) e OASIS ("Open Access Series of Imaging Studies“)
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Repositórios de Dados Científicos: situação actual
● Cenário 2: Curadoria por organizações científicas sectoriais • Organização de conjuntos de dados dentro de uma comunidade ou
domínio de investigação• Esforço de instituições e apoio de organismos financiadores• Associações científicas que instalam ou contratam infra-estruturas
• Exemplos: DANS ("Data Archiving and Networked Services“) e NCBI (“National Center for Biotechnology Information”)
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Repositórios de Dados Científicos: situação actual
● Cenário 3: Curadoria por universidades ou centros de investigação • Semelhante ao cenário 2 mas iniciativa de centro de investigação• Áreas disciplinares diversas• Integração da curadoria via centro de computação ou biblioteca• Exemplos: Datashare
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Repositórios de Dados Científicos: situação actual
● Cenário 4: Curadoria por organismos oficiais • Iniciativas de organismos nacionais de gestão da ciência• Infra-estrutura durável• Distância entre o serviço e os investigadores• Exemplos: ANDS ("Australian National Data Service”) e NBII
(“National Biological Information Infrastructure”)
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Repositórios de Dados Científicos: situação actual
● Cenário 5: Curadoria por comunidades informais em linha • Produção de dados por especialistas e amadores• “Robustez informal” com múltiplas réplicas dos dados• Exemplos: Wikispecies
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Tecnologias e plataformas dos repositórios de dados
● Acções de curadoria a 3 níveis● Armazenamento● Representação do conjunto● Representação do item
● Infra-estruturas de suporte a repositórios● Bases de dados● Plataformas de repositórios institucionais
RCAAP - Repositório Cientifico de Acesso Aberto de Portugal
DADOS CIENTÍFICOS E REPOSITÓRIOS DE DADOS
● Tecnologias e plataformas dos repositórios de dados
● Plataformas● DSPACE● EPrints● FEDORA● eSciDoc
● Metadados●"DCMI Science and Metadata Community”
RCAAP - Repositório Cientifico de Acesso Aberto de Portugal
REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
● Curadoria e partilha de dados: problemas e desafios
● Necessidades e expectativas dos investigadores●Solução segura e amigável para armazenamento e partilha●Infra-estrutura sustentável para publicação e preservação a longo
termo●Instruções para questões práticas de gestão dos dados●Orientações para preservação e publicação●Apoio (competências, ferramentas e normas): armazenamento,
preservação e garantia de que os dados recolhidos poderão vir a ser acedidos e reutilizados
REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
● Curadoria e partilha de dados: problemas e desafios
● Benefícios da partilha de dados●Mais oportunidades de uso e de reutilização●Novos projectos e novas áreas de trabalho●Experimentação e verificação de hipóteses●Validação de métodos de estudo e de análises técnicas●Educação dos investigadores e formação de gerações vindouras●Transparência das actividades de investigação (detecção de
fraudes, dissuasão de plágios)●Visibilidade para os investigadores, para as instituições que os
enquadram e para os repositórios que alojam os dados
REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
● Curadoria e partilha de dados: problemas e desafios
● Inibidores da partilha de dados●Exploração e reutilização dos dados de forma incorrecta por outros
investigadores● Investigadores nem sempre desejam reutilizar dados recolhidos por
outros●Confidencialidade de certo tipo de dados, períodos de embargo da
informação, constrangimentos de natureza ética
● Barreiras técnicas●Poucas preocupações com o futuro dos dados●Ausência de conhecimentos técnicos●Receio de despesas com o investimento em gestão de dados
REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
● Enquadramento ético e legal da partilha e curadoria de dados
● Preocupação com o sigilo intrínseco a determinados dados, pelo menos durante certos períodos de tempo
● Dados protegidos por lei e outros que requerem permissões especiais para acesso ou utilização
● Permissões de copyright e de propriedade intelectual dos materiais recolhidos
REPOSITÓRIOS, PARTILHA E CURADORIA DE DADOS
● Enquadramento ético e legal da partilha e curadoria de dados
● Iniciativas que promovem soluções jurídicas:
Public Domain Dedication and License (PDDL) – Licença apresentada pela Open Data Commons que possibilita partilhar livremente, modificar e utilizar dados para qualquer finalidade e sem restrições
Projecto Science Commons(SC) - Pretende disponibilizar aos investigadores ferramentas que simplifiquem a especificação dos termos sob os quais desejam partilhar os dados que produzem
CONCLUSÕES
● Interesse crescente despertado por esta área na comunidade científica e nas instituições onde se pratica investigação
● A curadoria e partilha de áreas científicas é uma área ainda
“jovem”, em formação e consolidação
● A curadoria dos dados científicos exige o envolvimento de todos os intervenientes no processo de investigação:● Investigadores● Instituições onde desenvolvem a sua actividade● Organismos de financiamento
CONCLUSÕES
● Sugestões para
● Os investigadores
● As instituições de investigação
● Os organismos financiadores de investigação
● Os responsáveis por repositórios
CONCLUSÕES
● Para os investigadores
● Incluir a curadoria no processo de planeamento da investigação
● Colaborar e cooperar com os projectos e serviços de curadoria de dados a fim de conhecer, utilizar e promover as boas práticas neste domínio
● Divulgar e partilhar os dados científicos produzidos, tão cedo e tão amplamente quanto possível, sem prejuízo dos seus próprios interesses ou de constrangimentos legais e éticos
CONCLUSÕES
● Para instituições de investigação
● Realizar um recenseamento e diagnóstico da situação existente ● Disponibilizar infra-estruturas e serviços para a curadoria dos
dados● Atribuir a competência pela área da curadoria de dados científicos
a uma unidade organizacional da instituição● Incentivar os investigadores a preocupar-se com a curadoria dos
dados que produzem, a depositá-los e a partilhá-los● Definir políticas institucionais que induzam o depósito dos dados,
estimulem a partilha dos dados depositados e premeiem os investigadores que cumpram os requisitos de curadoria dos dados
● Avaliar e identificar as necessidades de formação de técnicos de curadoria de dados
CONCLUSÕES
● Para organismos financiadores de investigação
● Definir políticas que valorizem projectos que contemplem um plano de curadoria de dados
● Definir políticas e procedimentos que exijam o depósito dos dados científicos
● Considerar elegíveis para financiamento as despesas com actividades de curadoria e partilha de dados
● Disponibilizar financiamento para a realização de projectos no domínio da curadoria de dados
CONCLUSÕES
● Para responsáveis por repositórios
● Assegurar que os repositórios sejam infra-estruturas robustas e fiáveis
● Disponibilizar aos investigadores serviços e ferramentas de apoio à curadoria e partilha de dados
● Recolher e disponibilizar informação sobre acesso e utilização dos conjuntos de dados que gerem
● Acompanhar as iniciativas internacionais relacionadas com a criação, gestão e manutenção de repositórios de dados