Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias...

Post on 05-Dec-2014

91 views 0 download

description

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados - Cristina Ribeiro, João Lopes, João Silva, João Castro, Ricardo Amorim

Transcript of Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias...

Gestão de dados de investigação da recolha até ao depósito

!Uma abordagem baseada em ontologias e dados ligados

Cristina Ribeiro mcr@fe.up.pt DEI—Faculdade de

Engenharia da Universidade do

Porto / INESC TECJoão Correia Lopes jlopes@fe.up.ptJoão Rocha da Silva joaorosilva@gmail.com

Faculdade de Engenharia da

Universidade do Porto / INESC TEC

João Aguiar Castro joaoaguiarcastro@gmail.com

Ricardo Amorim ricardo.amorim3@gmail.com

CONFOA 2014, 6-7 outubro 2014, Coimbra

1

Conteúdo• Gestão de dados de investigação no “long tail”

• “Linked Open Data”: porque é importante?

• Colaboração para facilitar a criação de metadados

• A plataforma Dendro

• Recolha de metadados no laboratório: LabTablet

• Conclusões

2

Gestão de dados de investigação no “long tail”

Porque é preciso começar cedo

3

2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados

A “cauda longa” da investigação

4

2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados

~1700 respostas

A “cauda longa” da investigação

4

Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692

Source

5

Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692

Source

6

Recolha

Processamento

Escrita de artigo

Preservação, Partilha

7

Recolha

Processamento

Escrita de artigo

8

Recolha

Processamento

Escrita de artigo

8Investigador sai

Recolha

Processamento

Escrita de artigo

8Investigador sai

Metadata

Recolha

Processamento

Escrita de artigo

9

Recolha

Processamento

Escrita de artigo

9Projeto termina

Recolha

Processamento

Escrita de artigo

10

“Onde estão os dados?”“Como / quando / por quem foram

produzidos?”

Os investigadores têm de participar na gestão dos dados desde o início

São eles os especialistas do domínio

Os curadores não conseguem lidar com a descrição a posteriori

11

Dados Abertos Ligados (“Linked Open Data”)

O que são? Porque precisamos deles ?

12

Linked Open Data• Simplicidade!

- O LOD é um modelo muito simples para representar dados

• Significado!

- Recursos são ligados por propriedades com significados bem estabelecidos

• Interoperabilidade!

- Métodos normalizados para interrogar dados - SPARQL

- Representações em formatos normalizados - RDF, OWL

13

14

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

rdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:titlerdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:title

base data.xls

nie:title

rdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:title

base data.xls

nie:title

rdf:type

nie:File

180mm

dcb:initialCrackLength

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Dataset de Química Analítica

Dataset de Mecânica de Fratura …

GenéricosAuthor

Description Creation date

Author Description

Creation date …

Específicos do Domínio

Sample Count Analysed Substance

Initial Crack Length Specimen Type

15

ColaboraçãoNa criação de metadados úteis agora e no futuro

16

Recolha

Processamento

Escrita de artigo

Preservação, Partilha

17

Recolha

Depósito

Depósito a longo prazo

Colaboração Descrição

Partilha

18

Gathering

…19

DendroUma plataforma de código aberto para “Linked

Open Data” em ambientes de investigação

20

21

Metadados

Ontologias

• Armazenamwento de dados suportado em “Linked Data”

• Sem base de dados relacional

• Modelo cresce com carregamento de ontologias

• Sistemas externos recuperam recursos via SPARQL

Descrição

22

Metadata

Ontologies

File Storage !

!

• Cluster HFS para ficheiros grandes ou numerosos

• Construído para a nuvem

Depósito

23

Metadata

Ontologies

File Storage !

!

Business Logic

• Controlo de acessos flexível

• Histórico de versões

• Pré-visualização de dados

• Salvaguarda / Restauro

• Integração • DSpace (SWORD)

• ePrints (SWORD)

• CKAN

• Figshare

Colaboração

24

Metadata

Ontologies

File Storage !

!

Business Logic

API

Partilha

• Todas as operações disponíveis via API RESTful usando JSON

• Todos os recursos des-referenciáveis (HTTP content negotiation)

• Arquitetura de “plugins” permite integração com sistemas externos

Web UI

25

Para os curadores• Os curadores podem trabalhar com os investigadores

para construir ontologias usando ferramentas (ex: Protégé)

• Ontologias estabelecidas podem ser carregadas (DC, FOAF…)

• As ontologias amadurecem (com reutilização em instâncias Dendro)

• Dados, metadados e o seu significado mantêm-se juntos

Creating lightweight ontologies for dataset description: Practical applications in a cross-domain research data management workflow Castro, J., Rocha da Silva, J., Ribeiro, C. Digital Libraries 2014 (DL2014) (pre-print available at http://dendro.fe.up.pt/)

Beyond INSPIRE: An ontology for biodiversity metadata records !Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. 10th International Workshop on Ontology Content (OntoContent 2014) (pre-print available at http://dendro.fe.up.pt/) 26

Para os programadores

• 100% software de código aberto

• Uma API rica permite ligar o Dendro a qualquer sistema (ex: aplicações móveis)

LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/)

Ontology-based multi-domain metadata for research data management using triple stores Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. 18th International Database Engineering & Applications Symposium (IDEAS 2014) (pre-print available at http://dendro.fe.up.pt/) 27

Usando a API: LabTablet

• Cadernos de laboratório: fonte de metadados do domínio

• Caderno de laboratório eletrónico: metadados importados para Dendro

LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) 28

29

30

LabTablet: uso dos sensores do dispositivo

31

32

Triple Store Ontologias

Independência da aplicação

“Base de Dados” “Documentação”

33

Conclusões• Gestão de dados de investigação deve começar cedo

• “Linked Open Data”: simples, flexível, interoperável

• O suporte à colaboração ajuda os investigadores a recolher metadados tendo em vista o depósito

• Dendro: uma plataforma completamente “open-source” para RDM, construída sobre “Linked Open Data”

• O Dendro integra com as principais plataformas de repositórios

34

Conclusões (cont.)• Outras aplicações: comunicação via API

• Ontologias: fonte de descritores para metadados

• O modelo de dados cresce à medida que se acrescentam ontologias

• Os curadores podem modelar e partilhar as ontologias

• As ontologias dos domínios evoluem com a reutilização

35

Visit us at

http://dendro.fe.up.pt36

Extras

37

Graph Database(LOD)

Distributed document index

File Storage Cluster

Business Logic

Web Interface

Openlink Virtuoso 7 ElasticSearch MongoDB

(GridFS)

NodeJS (JavaScript)

AngularJS (JavaScript)

DB Adapter ES Endpoint GridFS Client

Human UsersWeb

JSON JSON JSON

RDF/XML, SPARQL Endpoint

JSON API

HTML

Data

Logic

Presentation

38

CuratedDataset

Curator

WorkingFiles

Dendro

FOAF

DC

dc:titlenie:isPartOfdcb:specimenLength

Ontology concept reuse

SPARQLEndpoint

Sharing & evolution

“Mature”ontologies on the web

Metadatavalidation

Deposit

Data producers

Free-TextSearch

API

CKANDryad

Web Portal

Domain-Specific Lightweight Ontologies

dcbdcb

Data reuser

dcb

Specification of new metadata ontologies

1

2

3

4

39