Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos...

Post on 05-Dec-2014

175 views 1 download

description

Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados - Diego Macedo, Milton Shintaku, Tainá Assis, Washington Ribeiro, Ronnie Brito

Transcript of Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos...

BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES: AÇÕES PARA MELHORIA NA QUALIDADE DOS DADOS

DIEGO JOSÉ MACEDOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)

DIEGOMACEDO@IBICT.BR

MILTON SHINTAKUINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)

SHINTAKU@IBICT.BR

TAINÁ BATISTA DE ASSISINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)

TAINA@IBICT.BR

WASHINGTON L. R. DE CARVALHO SEGUNDOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)

WASHINGONSEGUNDO@IBICT.BR

RONNIE FAGUNDES DE BRITOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)

RONNIEBRITO@IBICT.BR 1

2

INTRODUÇÃO

Biblioteca Digital Brasileira de Teses e Dissertações (BDTD)

Integra, em um só portal de acesso aberto, os sistemas de informação de teses e dissertações existentes nas instituições de ensino e pesquisa brasileiras e por brasileiros que defenderam no exterior.

3

BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES (BDTD)

A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e adota o modelo baseado em padrões de interoperabilidade.

Processo de funcionamento da BDTD há dois atores principais:

- provedores de dados: administra o depósito e a publicação expondo os metadados para a coleta automática (harvesting).

- provedores de serviços: fornece serviços de informação com base nos metadados coletados junto aos provedores de dados.

4

PROBLEMAS

provedores de dados: sistemas heterogêneos que operam

com diversos formatos de metadados;

Falta de normalização no preenchimento de campos nos

metadados;

Falta de preenchimento de campos requeridos.

5

OBJETIVOS

Apresentar os resultados de avaliação dos metadados

descritivos da BDTD passíveis de normalização;

Apresentar algoritmos desenvolvidos para melhoria da

qualidade dos dados agregados.

6

METODOLOGIA

Coleta de metadados provenientes de diversos tipos de

sistemas de gestão de teses e dissertações, via protocolo

Open Archives Initiative - Protocol Metadata Harvesting

(OAI-PMH).

Utilização de feramentas e técnicas para aplicação de

filtros para determinar variações, erros de preenchimento

e normalização de campos.

7

ESTRUTURA

COLETADOR/ AGREGADOR

REPOX

CrosswalksMapeamentos

– Filtros –Normalização

XSTL

MTD2- BR

DC

DIM

MARCXML

Outros

Harvesting

8

MTD2- BR

DC

DIM

MARCXML

Outros

COLETADOR/ AGREGADOR

REPOXHarvesting

CrosswalkMapeamentos

– Filtros –Normalização

XSTL

Portal de Busca

Consolidada

Metadados normalizados

Provedores de Serviços –

NDLTDRCAAP

LA ReferenciaPrimo Central

Metadados DC e ETD-MS normalizados

ESTRUTURA

9

EXEMPLO MAPEAMENTO DE DC.TYPE

<dc:type>Mestre

</ dc:type >

< dc:type >Mestrado

</dc:type >

<dc:type >Dissertação</dc:type ><dc:type>

master</dc:type>

<dc.type>masterThesis

</dc.type >

XSLT

Diretrizes DRIVER

10

EXEMPLO MAPEAMENTO DE DC.LANGUAGE<dc:language>

pt_BR</dc:language>

<dc:language>Português

</dc:language>

<dc:language>PT

</dc:language><dc:language>

por</dc:language>

<dc.language>por

</dc:language>

Diretrizes DRIVER - ISO 639-3

XSLT

11

EXEMPLO DE MAPEAMENTO

dc.publisher.program

dc.publisher.departament

dc.type

Alguns casos, o campo dc.type não está preenchido.

12

EXEMPLO DE MAPEAMENTO

dc.publisher.programdc.type

dc.publisher.cnpq

XSLT

13

RESULTADO(S) E DISCUSSÃO

104 provedores de dados desenvolvidos com tecnologias

diversas. Destaca-se

SISTEMA QUANTIDADE

TEDE 84

DSpace 15

OPAC 1

Outros 4

14

RESULTADO(S) E DISCUSSÃO

Interoperabilidade: sistema de coleta de diversos

esquemas de metadados

ESQUEMA DE METADADOS

QUANTIDADE

MTD(2)-BR 92

DIM 6

RDF 5

MARCXML 1

15

RESULTADO(S) E DISCUSSÃO

Provedores de dados são analisados separadamente;

Registros coletados são convertidos automaticamente

para o padrão adotado pela BDTD;

Aplicação de Crosswalks;

XSLT (Extensible Stylesheet Language Transformations);

Viabiliza-se maior flexibilidade à rede;

16

RESULTADO(S) E DISCUSSÃO Mapeadores e filtros – algoritmos de normalização:

• Padronização de campos como: idioma, tipo do documento, grau e instituição de defesa.

• Filtragem e tratamento de campos com variação como: Grau, tal como: Mestre, mestrado, mestrado em <nome do programa>.

• Instituição de defesa; • Campos como tipo de documento e idioma também sofreram

transformações de conteúdo para que se alinhassem às orientações das diretrizes DRIVER.

17

RESULTADO(S) E DISCUSSÃO

Desenvolvimento de ferramentas que ajustaram os dados

coletados;

O processo permitiu uma melhor acurácia dos dados

coletados;

Assim, completou todo ciclo que visa alcançar

refinamento da qualidade dos dados na base consolidada.

18

CONCLUSÕES

Necessidade de processamento para melhoria da

qualidade de dados em redes heterogêneas, composta

por sistemas que operam com formatos de metadados

diferentes.

O processo adotado na presente pesquisa encontra apoio

no estudo de Stupmf e McDonnell (2004), que indica como

possível solução para problemas de acurácia de

metadados o uso de ferramentas automatizadas.

19

CONCLUSÕES

Infraestrutura, possibilitando uma maior

flexibilização aos provedores de dados, mas

também o tratamento da informação.

Com isso, torna-se mais eficaz a melhoria da

disseminação da informação.

20

OBRIGADO!

Diego Macêdodiegomacedo@ibict.br

+55 61 3217-6241