UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE METADADOS …‡… · Estes metadados oferecem...

Pós-Graduação em Ciência da Computação

“UMA ABORDAGEM PARA

ENRIQUECIMENTO SEMÂNTICO DE METADADOS

PARA PUBLICAÇÃO DE DADOS ABERTOS”

MÁRCIO ANGELO BEZERRA DE LIRA

Dissertação de Mestrado

Universidade Federal de Pernambuco

posgraduacao@cin.ufpe.br

www.cin.ufpe.br/~posgraduacao

RECIFE, 2014

Universidade Federal de Pernambuco

Centro de Informática

Pós-graduação em Ciência da Computação

MÁRCIO ANGELO BEZERRA DE LIRA

UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE

METADADOS PARA PUBLICAÇÃO DE DADOS ABERTOS

RECIFE, 2014

Trabalho apresentado ao Programa de Pós-graduação

em Ciência da Computação do Centro de Informática da

Universidade Federal de Pernambuco como requisito

parcial para obtenção do grau de Mestre em Ciência da

Computação.

Orientadora: Profa. Bernadette Farias Lóscio

Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571

L768a Lira, Márcio Angelo Bezerra de. Uma abordagem para enriquecimento semântico de

metadados para publicação de dados abertos / Márcio Angelo Bezerra de Lira. – Recife: O Autor, 2014.

94 f.: il., fig., tab. Orientador: Bernadette Farias Lóscio. Dissertação (Mestrado) – Universidade Federal de

Pernambuco. CIN. Ciência da Computação, 2014. Inclui referências e apêndices.

1. Banco de dados. 2. Web semântica. I. Lóscio, Bernadette Farias (orientadora). II. Título. 025.04 CDD (23. ed.) UFPE- MEI 2014-158

Dissertação de Mestrado apresentada por Márcio Angelo Bezerra de Lira à Pós Graduação

em Ciência da Computação do Centro de Informática da Universidade Federal de

Pernambuco, sob o título “UMA ABORDAGEM PARA ENRIQUECIMENTO

SEMÂNTICO DE METADADOS PARA PUBLICAÇÃO DE DADOS ABERTOS”

orientada pela Profa. Bernadette Farias Lóscio e aprovada pela Banca Examinadora

formada pelos professores:

______________________________________________

Prof. Kiev Santos Gama

Centro de Informática/UFPE

______________________________________________

Profa. Damires Yluska de Souza Fernandes

Gerência Educacional de Informática / IFPB

_______________________________________________

Profa. Bernadette Farias Lóscio

Centro de Informática /UFPE

Visto e permitida a impressão.

Recife, 2 de setembro de 2014.

___________________________________________________

Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do

Centro de Informática da Universidade Federal de Pernambuco.

Dedico este trabalho a minha mãe, por todo amor e esforço dedicado na minha educação, e a

minha esposa e filhos que confiam sempre nos meus propósitos.

AGRADECIMENTOS

Inicialmente agradeço a ti Senhor Deus e a nossa mãe Maria, que atendeu meus

pedidos e orações, concedendo esta oportunidade de receber o título de Mestre por uma

Instituição tão conceituada. Sem tuas ações nada disso seria possível. Muito obrigado!

Neste caminho de conquistas várias pessoas me apoiaram e, portanto, fazem parte

dessa vitória.

Obrigado minha mãe, Dona Luiza, pela criação, educação e incentivo. Sempre

falou que seu sonho era ver os filhos serem “fera federal”, ou seja, alunos formados nessa

instituição de ensino, respeitada em todo o país.

À minha esposa Aline, e aos meus filhos, Gabriel e Thiago, que sempre

depositaram confiança em mim e sentimentos de orgulho para com este marido e pai,

mesmo sem saberem estavam alimentando meu ego e auto estima nos momentos de

fraqueza e dúvida.

À minha irmã Liliana, que me motivou e incentivou com sua experiência

acadêmica, me auxiliando nos momentos de dúvidas e insegurança, apontando o caminho

certo.

À minha irmã Iviana pelas orações e pensamentos positivos na vitória, com

palavras de tranquilidade e motivação.

Um agradecimento especial à minha orientadora querida, professora Bernadette

Farias Lóscio, que além de ter me ensinado tudo o que era necessário para poder

desenvolver este valioso trabalho, é uma pessoa muito inteligente, atenciosa, paciente e

franca. Uma orientadora como nunca tive.

Agradeço também as minhas diretoras Dra. Terezinha Ferraz, Dra. Ivânia Barros

Melo e Dra. Gisele Diniz, todas vocês colaboraram com o meu crescimento acadêmico e

profissional, concedendo meios e recursos que permitiram minha evolução nessa

caminhada.

Aos meus amigos prof. Clóvis Holanda e Antônio Júnior pelas aulas de orientação

a objeto, sem a ajuda de vocês seria ainda mais difícil.

Aos meus professores do CIn: Ana Carolina, Fernando da Fonseca e Robson

Fidalgo, pelos ensinamentos, sugestões e confiança.

E a todos meus colegas de classe e pesquisa pela colaboração e apoio nos

momentos de dúvida e inexperiência.

RESUMO

A publicação de Dados Abertos vem alcançando cada vez mais adeptos, principalmente

no domínio de dados governamentais. Um dos fatores do sucesso da publicação dos dados

em formato aberto seria a disponibilização de metadados capazes de descrever os dados de

forma satisfatória. Estes metadados oferecem meios para que usuários, desenvolvedores e

sistemas automatizados possam compreender e processar os dados. Porém, apesar da sua

importância, a ausência de metadados tem sido um problema comum no cenário atual de

publicação de dados abertos. Além da ausência de metadados, outro fator crítico diz

respeito ao reuso de metadados. Uma vez que os metadados são publicados, é importante

que possam ser reutilizados, a fim de facilitar o processo de publicação de dados de

maneira geral. Neste contexto, este trabalho propõe uma abordagem para o

enriquecimento semântico de metadados para descrição de dados abertos. A abordagem

proposta tem como objetivo facilitar tanto a publicação quanto o reuso de metadados. Para

isso, são usadas anotações semânticas e vocabulários padrões. Dessa forma, espera-se que

os metadados possam ser facilmente compreendidos e processados. Para avaliação da

abordagem proposta, foi desenvolvido um protótipo e foram realizados alguns

experimentos.

Palavras-chaves: Dados Abertos. Metadados. Reuso. Enriquecimento Semântico.

Anotação Semântica.

ABSTRACT

There is an increasing interest on the publication of Open Data, especially in governmental

data domain. One of the success factors of publishing data in open format would be the

availability of metadata able to describe the data. These metadata provide means for users,

developers and automated systems to understand and process the data. However, despite its

importance, the absence of metadata has been a common problem in the current scenario of

open data publication. In addition, another critical factor is about the reuse of

metadata. Since metadata are published it is important they can be reused for facilitating the

process of publishing data in general. In this context, this work proposes an approach for

semantic enrichment of metadata for open data publication. One of the main goals of the

proposed approach is to facilitate the publishing as well as the reuse of metadata. For this,

semantic annotations and standard vocabularies are used. Thus, it is expected that metadata

can be easily understood and processed. A prototype was developed and some experiments

were conducted in order to evaluate the proposed approach.

Keywords: Open Data. Metadata. Reuse. Semantic Enrichment. Semantic Annotation

LISTA DE FIGURAS

Figura 2.1 Relacionamento entre as classes e propriedades da categoria Starting Point. ........ 29

Figura 2.2 Exemplo de enriquecimento de metadados com mapeamentos para recursos

disponíveis na Web. .................................................................................................................. 31

Figura 3.1 Abordagem para o enriquecimento semântico de metadados ................................. 39

Figura 3.2 Exemplo de conjunto de metadados anotados na sintaxe XML/CSV .................... 47

Figura 3.3 Exemplo de triplas RDF. ......................................................................................... 48

Figura 3.4 Comparação e reuso de metadados com auxílio do repositório .............................. 50

Figura 3.5 Relacionamento dataset x metadados...................................................................... 51

Figura 3.6 Modelo lógico do repositório de metadados ........................................................... 53

Figura 3.7 Recorte de um dicionário de dados do Portal de Dados do Recife ......................... 54

Figura 3.8 Trecho de código RDF/XML do metadado enriquecido......................................... 56

Figura 4.1 Arquitetura do Enriquecedor Semântico de Metadados – Open Metadata............. 60

Figura 4.2 Diagrama de Caso de Uso do protótipo Open Metadata. ........................................ 62

Figura 4.3 Tela inicial do Open Metadata ................................................................................ 64

Figura 4.4 Tela de anotação semântica dos metadados. ........................................................... 65

Figura 4.5 Tela de pré-visualização das anotações semânticas ................................................ 66

Figura 4.6 Modelo de qualidade para a métrica qualidade em uso. ......................................... 69

Figura 4.7 Trecho dos metadados semanticamente enriquecidos na sintaxe XML.................. 76

Figura 4.8 Desempenho dos usuários ....................................................................................... 82

LISTA DE TABELAS

Tabela 2.1 Os quinze elementos básicos do Dublin Core. ....................................................... 24

Tabela 2.2 Classes e propriedades da categoria Start Point da ontologia PROV-O ................ 28

Tabela 2.3 Exemplo de Anotação Semântica ........................................................................... 33

Tabela 2.4 Resumo dos trabalhos relacionados ........................................................................ 36

Tabela 3.1 Descrição dos atributos dos metadados enriquecidos ............................................. 44

Tabela 3.2 Metadados enriquecidos do dataset "Áreas de Riscos - REC" .............................. 55

Tabela 3.3 Quadro comparativo entre trabalhos relacionados e abordagem sugerida ............. 58

Tabela 4.1 Quadro de métricas definidas na avaliação ............................................................ 70

Tabela 4.2 Métricas para avaliação da característica Eficácia. ................................................ 71

Tabela 4.3 Métricas para avaliação da característica Eficiência. ............................................. 71

Tabela 4.4 Métricas para avaliação da característica Satisfação. ............................................. 72

Tabela 4.5 Atributos dos participantes no processo de avaliação ............................................ 73

Tabela 4.6 Coleta de dados do grupo de estudantes para a tarefa 1. ........................................ 78

Tabela 4.7 Coleta de dados do grupo de profissionais para a tarefa 1. .................................... 78

Tabela 4.8 Coleta de dados do grupo de estudantes para a tarefa 2. ........................................ 79

Tabela 4.9 Coleta de dados do grupo de profissionais para a tarefa 2. .................................... 79

Tabela 4.10 Coleta de dados do grupo de estudantes para a tarefa 3. ...................................... 80

Tabela 4.11 Coleta de dados do grupo de profissionais para a tarefa 3. .................................. 80

Tabela 4.12 Resultado da análise combinada das tarefas referente ao Grupo 01. .................... 81

Tabela 4.13 Resultado da análise combinada das tarefas referente ao Grupo 02. .................... 81

Tabela 4.14 Resultados coletados de satisfação do software ................................................... 82

SUMÁRIO

1. INTRODUÇÃO ............................................................................................................... 13

1.1. Motivação .................................................................................................................. 13

1.2. Caracterização do Problema ...................................................................................... 15

1.3. Objetivos .................................................................................................................... 16

1.4. Contribuições ............................................................................................................. 17

1.5. Estrutura da Dissertação ............................................................................................ 17

2. FUNDAMENTAÇÃO TEÓRICA ................................................................................. 18

2.1. Dados Abertos ............................................................................................................ 18

2.2. Metadados .................................................................................................................. 22

2.3. Vocabulários e Ontologias ......................................................................................... 25

2.4. Proveniência ............................................................................................................... 26

2.5. Enriquecimento Semântico ........................................................................................ 29

2.6. Anotação Semântica .................................................................................................. 31

2.7. Trabalhos relacionados .............................................................................................. 33

2.8. Considerações finais .................................................................................................. 37

3. UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE

METADADOS ........................................................................................................................ 38

3.1. Visão geral da abordagem para enriquecimento semântico de metadados ................ 38

3.2. Metadados enriquecidos ............................................................................................ 43

3.3. Uso de anotações semânticas para descrição dos metadados enriquecidos ............... 46

3.4. Repositório de metadados .......................................................................................... 49

3.5. Exemplo ..................................................................................................................... 53

3.6. Comparação com trabalhos relacionados................................................................... 57

4. IMPLEMENTAÇÃO, EXPERIMENTOS E ANÁLISE DOS RESULTADOS ........ 59

4.1. Apresentação da Arquitetura ..................................................................................... 59

4.2. Funcionalidades do Open Metadata ........................................................................... 61

4.3. Tecnologias utilizadas na implementação do protótipo ............................................. 63

4.4. Objetivo e contexto de avaliação ............................................................................... 65

4.5. Métricas de avaliação ................................................................................................. 67

4.6. Compilação dos dados e análise dos resultados ......................................................... 77

5. CONCLUSÃO ................................................................................................................. 84

6. REFERÊNCIAS .............................................................................................................. 87

APÊNDICE A – RESULTADO DO QUESTIONÁRIO PARA MÉTRICA DE

SATISFAÇÃO ........................................................................................................................ 93

APÊNDICE B - FICHA DE COLETA DOS DADOS DA AVALIAÇÃO ........................ 94

1. INTRODUÇÃO

Este capítulo tem como finalidade abordar de maneira geral o entendimento de que

trata esta pesquisa, apresentando o domínio no qual esta dissertação está inserida com uma

visão introdutória sobre o tema estudado. Inicialmente, é mostrada a motivação pela qual

se decidiu por realizar este estudo, bem como a definição do problema abordado. Depois,

são elencados os objetivos pretendidos, seguindo por uma discussão sobre as

contribuições esperadas deste trabalho. Por fim, é apresentada a descrição da estrutura

organizacional desta dissertação.

1.1. Motivação

O tema Dados Abertos vem ganhando destaque nos últimos anos, sobretudo após

os governos de países como Estados Unidos, Reino Unido, Canadá e Nova Zelândia

anunciarem iniciativas pioneiras com o objetivo de tornar seus dados públicos

(DIETRICH et al., 2012). Dados abertos (Open Data) correspondem à ideia de que os

dados devem estar disponíveis para que todos usem e publiquem, sem restrições de

direitos autorais e patentes ou qualquer outro mecanismo de controle.

No Brasil, desde a publicação da Lei 12.527, também chamada de Lei de Acesso à

Informação1, os Dados Abertos estão se tornando uma fonte de informação indispensável

para muitos cidadãos e profissionais de diversas áreas (COSTA et al., 2013). Esses dados

são considerados relevantes principalmente para aqueles interessados em acompanhar e

monitorar a gestão dos governantes e gestores públicos.

Segundo a OKF - Open Knowledge Foundation2, os dados oriundos dos governos

são públicos e devem ser colocados à disposição da sociedade de forma a tornar possível

não apenas sua leitura e acompanhamento, mas também sua reutilização em novos

projetos, serviços e aplicativos. Motivados por uma crescente onda de consumo e geração

de dados abertos, os órgãos públicos passaram a disponibilizar seus dados na Web,

oferecendo esses dados aos cidadãos, empresas ou qualquer instituição interessada, de

forma gratuita e facilitada.

1 http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm

2 https://okfn.org/

Contudo, para garantir o sucesso das iniciativas de Dados Abertos, é fundamental

que os dados possam ser facilmente compreendidos e reutilizados, com o intuito de gerar

novas informações, aplicações e serviços que serão consumidos pela sociedade de forma

geral.

Um dos principais entraves encontrados no consumo e reutilização dos dados

abertos diz respeito às dificuldades apresentadas pelos usuários na identificação e

interpretação dos dados. Os dados de uma instituição governamental, por exemplo, podem

conter particularidades que dificultam a adequada compreensão e interpretação dos dados,

seja por um agente inteligente (software) ou mesmo por algum desenvolvedor externo.

Nesse contexto, identifica-se a importância da utilização dos metadados no

processo de publicação dos dados abertos. De maneira geral, metadados são definidos

como “dados que descrevem outros dados” e podem ser utilizados para descrever objetos

ou tornar pública sua existência (BENACCHIO et al., 2008). Segundo Hasegawa e Aires

(2007), os metadados são utilizados na identificação de recursos (dados e informação) e

no auxílio da filtragem de uma busca, além de facilitar a recuperação de um registro.

Adicionalmente, são importantes para facilitar a compreensão do dado, bem como sua

manutenção e compartilhamento (CARDINAELS et al., 2005). Por meio dos metadados é

possível compreender melhor o dado e, assim, facilitar sua utilização e reuso. Dessa

forma, a geração de metadados agrega maior valor semântico aos dados, permitindo uma

melhor compreensão da informação que está sendo disponibilizada. Por exemplo, a partir

dos metadados é possível saber quem é o criador dos dados, quando o dado foi gerado ou

sofreu atualizações, além de obter informações sobre a proveniência e qualidade dos

dados.

Uma característica muito valorizada nos metadados está relacionada ao uso dos

metadados para descrição de informações de proveniência dos dados. Metadados com

função de proveniência permitem gerar informações que determinam a origem dos dados

e de outros metadados, apresentando informações relacionadas à criação, processos e

agentes envolvidos na produção e disponibilização dos dados e metadados. Assim,

metadados com essa finalidade são imprescindíveis para determinar se os dados ou

metadados são confiáveis, como podem ser consumidos ou simplesmente atribuir crédito

aos seus autores (GIL et al., 2010).

A correta documentação e disponibilização dos metadados contribui para

enriquecer a semântica do dado que está sendo descrito. Em geral, quando dados abertos

são publicados apenas com uma descrição simples ou nenhuma descrição é muito difícil

de reusá-lo.

Apesar de não ter sido feito um levantamento formal, é comum encontrar

metadados ou dicionários de dados nos Portais de Dados Abertos brasileiro, com poucas

informações sobre o dado, por exemplo: informações relativas ao tamanho, tipo e uma

breve descrição dos dados. Isso pode levar a um entendimento precário ou mesmo errado

dos dados.

O sucesso no consumo e reutilização de dados abertos depende muito da qualidade

e da consistência da informação descritiva, disponível para a compreensão do dado. Dessa

forma, quanto mais rica for a descrição de um determinado dado, melhor será o seu

reaproveitamento em diferentes contextos e com diferentes propósitos.

Porém, é importante ressaltar que, além da descrição dos dados propriamente dita,

também é importante disponibilizar informações que descrevam os metadados.

Considerando as dificuldades encontradas nos processos de criação e disponibilização de

metadados para descrição de dados abertos, o reuso de metadados também é algo

desejável. O reuso de metadados evita a redundância de metadados, colabora com a

padronização da informação e facilita o processo de enriquecimento, uma vez que

descrições previamente definidas poderão ser recuperadas e reutilizadas.

Nesse contexto, torna-se fundamental não apenas oferecer metadados capazes de

descrever os dados, mas também prover informações que descrevem os metadados,

facilitando, dessa forma, a compreensão e o reuso de dados e metadados.

1.2. Caracterização do Problema

A dificuldade na publicação e reuso de metadados para Dados Abertos, bem como

sua publicação inadequada nos portais de dados em formato aberto, que pouco contribuem

para a compreensão dos dados, são problemas que merecem ser pesquisados e que neste

trabalho serão descritos com detalhes. A carência de recursos e informações mais

detalhadas sobre metadados para descrição de dados em formato aberto gera obstáculos

que estão relacionados ao consumo e distribuição dos dados abertos, por exemplo: (i)

dificuldade na criação de aplicações para localizar e coletar estes dados automaticamente;

e (ii) problemas na manipulação dos dados, uma vez que seus metadados pouco auxiliam

na compreensão do conteúdo devido à falta de descrição semântica formalmente definida.

Como cenário para exemplificação, suponha que órgãos públicos de um

determinado município sejam orientados a disponibilizar em seus sites ou portais os

orçamentos e despesas de suas secretarias. Neste caso, ao fornecerem seus dados com

metadados que oferecem pouca informação semântica sobre os dados, dificilmente um

consumidor externo, que não conhece a nomenclatura usada pelo governo para descrição

de orçamentos e despesas, conseguirá consumir estes dados facilmente. Se o usuário

precisar responder a perguntas como: Qual o bairro que possui o maior volume de

despesas no município? ou Qual a secretaria mais onerosa ao município? Certamente,

terá que processar e interpretar os datasets ou conjunto de dados3 para isso e sem os

metadados para orientar e colaborar com seu entendimento será ainda mais difícil.

Assim, baseado neste contexto de publicação e reuso de metadados para dados

abertos, constataram-se dificuldades em disponibilizar e gerar estes metadados para

melhor descrever os dados, motivando o desenvolvimento de soluções para facilitar estas

ações. Estas soluções buscam oferecer meios para prover descrições de metadados que

sejam facilmente compreensíveis tanto por humanos quanto por máquinas, contribuindo,

dessa forma, para facilitar a publicação e o reuso de metadados. Tais soluções são o objeto

de estudo desta dissertação, cujos objetivos e contribuições serão descritos nos itens

subsequentes.

1.3. Objetivos

Este trabalho tem como principal objetivo propor uma abordagem para o

enriquecimento semântico de metadados, visando facilitar a compreensão e o reuso de

dados e metadados publicados em formato aberto. Para isso, durante o processo de

enriquecimento semântico de metadados, serão utilizadas anotações semânticas e

vocabulários já existentes, a fim de agregar maior significado aos metadados. Isso implica

também em gerar novos metadados que descreverão os metadados originais. É importante

mencionar que os metadados enriquecidos são disponibilizados em formato compreensível

por máquina, ou seja, em formato estruturado, facilitando seu processamento e

manipulação.

3 Datasets ou conjunto de dados são comumente entendidos como uma coleção de dados agrupados de forma

estruturada, tabular (linhas e colunas) ou não tabular, por exemplo, CSV ou XML.

Como objetivos específicos desta dissertação, destacam-se:

Definir atributos capazes de descrever de forma significativa os metadados

utilizados tradicionalmente para descrever os dados;

Especificar uma abordagem para facilitar o processo de publicação e reuso

de metadados, bem como permitir a geração de metadados enriquecidos;

Implementar um protótipo para avaliação da abordagem proposta, o qual

poderá ser usado para auxiliar gestores ou analistas de dados no

enriquecimento dos metadados de forma semiautomática.

1.4. Contribuições

Como principal contribuição, este trabalho propõe uma abordagem para facilitar o

processo de enriquecimento semântico de metadados para dados abertos. Outra

contribuição a ser destacada é a implementação de um protótipo capaz de realizar ações

semiautomáticas, abstraindo toda a complexidade do processo de enriquecimento

semântico.

A partir da abordagem proposta, o publicador de dados abertos poderá gerar

metadados enriquecidos de forma semiautomática com a atribuição de outros metadados

específicos, para melhor descrever os metadados originais contidos nos conjuntos de

dados públicos disponíveis na Web.

1.5. Estrutura da Dissertação

O restante desta dissertação está organizado como se segue. No capítulo 2 é

apresentada a Fundamentação Teórica referente aos conceitos básicos para o

entendimento deste trabalho. No Capítulo 3 será descrita a abordagem proposta para o

processo de enriquecimento semântico de metadados para dados abertos. No Capítulo 4

destacam-se os aspectos de implementação do protótipo, experimentos e análise dos

resultados da abordagem empregada. Finalmente, o Capítulo 5 apresenta as considerações

finais sobre esta pesquisa, juntamente com a proposta de trabalhos futuros e alguns pontos

limitantes encontrados durante o desenvolvimento deste trabalho.

2. FUNDAMENTAÇÃO TEÓRICA

Os usuários e desenvolvedores que têm interesse em consumir informações

disponíveis na Web, em geral, esperam obter dados e metadados que facilitem a

compreensão e o processamento da informação que está sendo disponibilizada. Nesse

sentido, o enriquecimento de metadados pode ser utilizado para que esses objetivos sejam

atingidos. Assim, para compreendermos os fundamentos associados a esse tipo de

processo, neste capítulo serão abordados os conceitos básicos relativos ao tema desta

dissertação.

A Seção 2.1 apresenta uma breve história e descrição dos principais conceitos sobre

Dados Abertos. A Seção 2.2 apresenta os conceitos básicos sobre metadados e a sua

importância neste trabalho. Na Seção 2.3, são explanadas as características e as definições

sobre vocabulários e ontologias, além de um comparativo entre suas similaridades e

diferenças. A Seção 2.4 apresenta conceitos relacionados à proveniência dos dados e

metadados. Na Seção 2.5 são abordados os conceitos que definem o Enriquecimento

Semântico. Na Seção 2.6 encontram-se as definições sobre Anotação Semântica. A Seção

2.7 apresenta uma breve descrição dos trabalhos relacionados e um quadro comparativo

entre eles, permitido assim uma melhor interpretação da literatura relacionada. Por fim,

são apresentadas as conclusões e algumas considerações finais na Seção 2.8.

2.1. Dados Abertos

O tema Dados Abertos vem recebendo atenção especial desde 2007 quando a

mídia internacional, principalmente nos Estados Unidos, Reino Unido e Canadá, passou a

divulgar a abertura dos dados desses governos atraindo adeptos pelo mundo todo,

inclusive no Brasil que passou a debater o assunto um pouco mais tarde, a partir de 2009.

Nos anos seguintes, vários eventos foram divulgados e promovidos no Brasil, os quais

contaram com o apoio do W3C4, do Ministério do Planejamento e Orçamento do Governo

Federal. Atualmente, é comum encontrar eventos como concursos para desenvolvimento

de aplicações e serviços com uso de Dados Abertos, bem como fóruns de discussão sobre

o tema. Porém, apenas estas ações não são suficientes para transformar a iniciativa de

Dados Abertos em um movimento popular e de fácil acesso.

4 http://www.w3c.br

O tema “Dados Abertos” envolve “a ideia de que dados devem estar disponíveis

gratuitamente para todos que quiserem usá-los e publicá-los, sem restrições de direitos de

autoria, patentes ou outros mecanismos de controle” (AUER et al., 2007). De forma

semelhante, Dietrich et al. (2012) cita que: “Dados Abertos são dados que podem ser

usados livremente, reutilizados e redistribuídos por qualquer pessoa, estando sujeito a no

máximo, a exigência de creditar sua autoria e compartilhamento pela mesma licença.”.

A utilização e distribuição dos Dados Abertos, na prática, nem sempre configura

um procedimento simples. Algumas diretrizes foram criadas no intuito de tornar o

processo de divulgação e publicação mais organizado e fundamentado, de forma que

rejeitar essas normas pode criar barreiras na publicação e popularização desses dados. De

acordo com a definição da OKF5 - Open Knowledge Foundation, três diretrizes regem os

Dados Abertos:

Disponibilidade e acesso: o dado precisa estar disponível para download a um

custo mínimo, de preferência na Web, em um formato estruturado capaz de ser

interpretado por máquina;

Reuso e redistribuição: os dados precisam ser fornecidos em condições que

permitam reutilização, redistribuição e o cruzamento com outros conjuntos de

dados;

Participação universal: Disponível a todos para usar, reutilizar e redistribuir,

não havendo discriminação contra áreas de atuação, pessoas ou grupos.

Além das diretrizes citadas, segundo a OKF, os Dados Abertos precisam seguir

alguns princípios, incluindo:

Completos: o dado público não pode estar sujeito a restrições de privacidade,

segurança ou outros privilégios;

Primários: devem ser brutos, tal como colhidos na fonte, com o menor nível

possível de granularidade, sem agregação ou modificação;

Atuais: quanto mais recentes, mais úteis serão para seus usuários. Os dados

devem ser publicados o mais rápido possível para preservar seu valor, seguindo

uma periodicidade;

Acessíveis: os dados devem ser de fácil acesso para todos e assim atender a

maior quantidade possível de pessoas com os mais diferentes propósitos;

5 http://opendatahandbook.org/

Compreensíveis por máquina: os dados devem estar estruturados e legíveis

por máquinas, possibilitando seu processamento de forma automática (por

exemplo, uma tabela em formato estruturado, como CSV ou XML, é

processada mais facilmente por softwares e sistemas);

Não discriminatórios: os dados devem estar disponíveis para qualquer pessoa,

sem necessidade de cadastro ou qualquer outro procedimento que impeça o

acesso;

Não proprietários: os dados devem ser oferecidos sem exclusividade de

nenhuma entidade ou organização;

Livres de licenças: dados não devem estar submetidos a copyrights, patentes,

marcas registradas ou regulações de segredo industrial.

No Brasil, a iniciativa de Dados Abertos está intimamente ligada à Lei de Acesso à

Informação nº 12.527, cujo propósito é de regulamentar o direito constitucional de acesso

dos cidadãos às informações públicas. É importante ressaltar que, aos poucos, a

publicação de dados abertos vem se tornando parte da rotina dos órgãos públicos.

Segundo Dietrich et al. (2012), “Dados Abertos Governamentais são dados

produzidos pelo governo e colocados à disposição das pessoas de forma a tornar possível

não apenas sua leitura e acompanhamento, mas também sua reutilização em novos

projetos, sites e aplicativos”.

É possível utilizar os dados abertos governamentais para a criação de novos

serviços com o objetivo de melhorar a qualidade de vida da população, facilitando a

descoberta de soluções para problemas econômicos, de saúde, segurança, educação,

mobilidade entre outros.

No território brasileiro, apesar de alguns portais estarem disponibilizando seus

dados, o movimento ainda é discreto. De acordo com o Censo Internacional sobre Dados

Abertos Governamentais6, organizado pelo Open Knowledge Fundation no início de 2013,

verificou-se que uma parcela mínima de portais e instituições brasileiras está engajada

neste projeto.

Após o exposto, é possível observar que alguns obstáculos devem ser superados,

tanto de caráter técnico quanto de caráter político, uma vez que implicam diretamente na

evolução da publicação e consumo dos dados em formato aberto.

6 http://national.census.okfn.org

De acordo com o Censo Internacional sobre Dados Abertos Governamentais e

análises feitas em alguns portais de âmbito nacional e regional, como: portal de Dados

Abertos brasileiro7, portal de dados de Pernambuco

8 e da cidade do Recife

9, alguns

problemas são comuns no processo de publicação de Dados Abertos, entre eles estão:

Dados disponibilizados em arquivos com formatos indesejáveis, ou seja, que

não estão de acordo com as diretrizes dos Dados Abertos;

Falta de dicionário de dados adequados ou metadados que ajudem na

compreensão dos dados.

Dentre estas dificuldades, destaca-se a falta de dicionário de dados ou metadados

como um ponto crítico, uma vez que sua utilização é fundamental para o entendimento

dos dados.

Muitos órgãos e departamentos públicos estão disponibilizando seus dados na Web

e permitindo que usuários e cidadãos comuns cultivem o interesse por acessar e consumir

dados. Além disso, eles podem reutilizar seu conteúdo gerando aplicações, serviços e

novas informações. Entretanto, disponibilizar dados públicos apenas para cumprir o que se

pede na Lei de Acesso à Informação e não ter a sensibilidade de explicar seu conteúdo,

não faz muito sentido. Se o usuário não sabe como utilizar os dados e nem a qual domínio

pertencem, será muito difícil reusá-lo de forma adequada. Assim, o dicionário de dados ou

um conjunto de metadados torna-se relevante. Dicionário de dados pode ser definido

como informação que descreve o dado usado para facilitar sua compreensão, melhorando

a integração e manutenção deste dado (CARDINAELS et al., 2005).

No entanto, é comum acessar um portal de dados e encontrar dificuldades para

localizar e entender o conteúdo de um dataset, principalmente, se desejar criar uma

aplicação que vasculhe este ambiente em busca de dados de forma automática sem uma

API bem definida. Adicionalmente, após coletar o dado é preciso fazer um grande esforço

para entender e decifrar seu conteúdo. Uma vez observadas estas limitações e dificuldades

para compreender e processar o dataset é possível que o usuário se sinta motivado a

descartar este dataset, podendo até mesmo abandonar aquele portal de dados.

Os dados de uma instituição podem ter particularidades de termos e nomenclaturas

que apenas os agentes daquela instituição são capazes de compreender. Nesse caso, sem

7 http://dados.gov.br

8 http://www.dadosabertos.pe.gov.br/

9 http://dados.recife.pe.gov.br

uma descrição justa e coerente, o conteúdo poderá ser mal compreendido pelo usuário ou

desenvolvedor externo. Esse fato pode conduzir a uma reutilização inconsistente e falsa

compreensão. Segundo Tannenbaum et al. (2002) ter conhecimento sobre a origem dos

dados que estão disponíveis e entendimento sobre seu contexto são informações

necessárias para se tomar decisões mais precisas.

2.2. Metadados

O uso de metadados enriquece o conteúdo dos dados, permitindo a geração de

novas informações, associando semântica a eles (ARANTES, 2010).

Comumente, metadados podem ser definidos como sendo dados capazes de

descrever outros dados (VAZ, 2000). Eles são responsáveis por fornecer um significado

real e plausível aos dados. Segundo Hasegawa e Aires (2007), os metadados são utilizados

na identificação de recursos e no auxílio da filtragem de uma busca, além de facilitar a

recuperação de um registro. Benacchio e Vaz (2008), destacam que os metadados podem

ser utilizados para descrever objetos ou tornar pública sua existência. Eles disponibilizam

informações, descrevem dados e auxiliam as pessoas e sistemas a compreender os dados,

transformando-os em conhecimento.

É pelo uso dos metadados que se alcançam conteúdos que interessam. Esse recurso

é indispensável para a implementação de aplicações e serviços. Os metadados fornecem

significado real para um dado ou conjunto de dados, auxiliando os motores de buscas na

recuperação da informação e facilitando a integração com outros recursos. Desta forma,

torna-se um elemento imprescindível, para atribuir semântica aos dados na Web. Os

metadados devem ter fácil compreensão, caso contrário, o conceito de reusabilidade de

dados e metadados pode ser meramente teórico.

Metadados possuem um alto potencial de aplicação, pois permitem o

desenvolvimento de aplicações inovadoras que podem ser empregadas em diversas áreas

tais como: Sistemas de Informação Geográfica, Educação a Distância, Data Warehouses,

Web Semântica, Serviços Web e TV Digital (ALVES et al., 2006). Assim, podemos citar

algumas formas de utilização de metadados, como: (i) interoperabilidade entre objetos

distribuídos em plataformas distintas; (ii) padronização de objetos de aprendizagem; (iii)

descrição dos serviços e conteúdo dos dados; e (iv) representação de informações

contextuais e de proveniência.

Vários esquemas de metadados foram criados ao longo dos anos para atender

propósitos específicos, dando origem aos padrões de metadados (ZENG, 2010). Um

esquema de metadados ou padrão de metadados pode ser definido como sendo um

conjunto de atributos definidos para atender uma determinada finalidade (BENACCHIO

et al., 2008).

Quando se trabalha com metadados devem-se utilizar padrões de metadados já

homologados, pois estes já possuem uma garantia de qualidade promovida pelos órgãos de

controle e comunidades que utilizam estes padrões. É importante salientar que fazer uso

de um padrão apropriado ao domínio do dado permitirá uma definição dos termos mais

precisa e adequada. Consequentemente, essa ação ajudará no processo de descrição e

qualidade da informação. Quando se utilizam padrões de metadados já existentes, a troca

de dados torna-se mais fácil possibilitando maior número de agregações entre as fontes de

dados.

Dentre os padrões de metadados propostos na literatura, destaca-se o Dublin Core.

Segundo a DCMI10

, este padrão se destaca pela simplicidade, interoperabilidade

semântica, consenso internacional e extensibilidade de metadados.

O Dublin Core popularizou a ideia de "metadados" para descrições de recursos

simples e genéricos. Assim, a partir do ano de 2000, a comunidade Dublin Core focada

em "perfis de aplicação", juntamente com outros vocabulários especializados,

desenvolveram a ideia de um modelo de dados genérico para metadados.

O Padrão Dublin Core foi desenvolvido pela Dublin Core Meta data Initiative

(DCMI) e pode ser definido como um grupo de atributos utilizado por autores e

produtores de dados para descrever seus próprios recursos na web.

O conjunto Dublin Core Metadata11

é um vocabulário de quinze propriedades,

observados na Tabela 2.1, para uso na descrição de recursos.

http://dublincore.org/about-us/ 11

http://dublincore.org/documents/dces/

Tabela 2.1 Os quinze elementos básicos do Dublin Core.

Fonte: O Autor, baseado na documentação Dublin Core.

Os elementos, apresentados na Tabela 2.1, fazem parte de um conjunto ainda

maior de vocabulários de metadados e especificações técnicas. O conjunto completo de

vocabulários DCMI Metadata Terms12

também inclui conjuntos de classes de recursos,

tipo de vocabulário DCMI-TYPE, esquemas de codificação de vocabulário e esquemas de

codificação de sintaxe.

Os termos do Dublin Core oferecem ampla oportunidade de uso para descrição de

vários tipos de recursos envolvendo os mais variados formatos de dados. Instituições

envolvidas na organização da informação no ambiente Web desenvolvem recursos como a

construção de bibliotecas digitais, base de dados, portais e sites, entre outros serviços, que

necessitam da utilização dos padrões de descrição para seus recursos eletrônicos.

Além do padrão Dublin Core, existem outros padrões com importância equivalente

para descrição de dados e metadados. Entre eles podemos citar o vCard 13

e o Foaf14

http://dublincore.org/documents/dcmi-terms/ 13

http://www.w3.org/TR/vcard-rdf/ 14

http://xmlns.com/foaf/spec/

Elementos Definição

contributor Uma entidade (pessoa ou organização) responsável por colaborar com um recurso.

coverage Corresponde a área que abrange o recurso, jurisdição em que o recurso é relevante.

creator Entidade responsável pela criação do recurso.

date Período de tempo associado a um evento no ciclo de vida do recurso

description Uma descrição do que se trata o recurso.

format O formato de arquivo, meio físico ou as dimensões do recurso.

identifier Uma referência não ambígua ao recurso dentro de um dado contexto.

language Corresponde à linguagem em que o recurso se encontra

publisher Entidade responsável por tornar o recurso disponível.

relation Descreve um recurso relacionado.

rights Informações sobre os direitos existentes e relacionados ao recurso.

source Um recurso relacionado a partir do qual o recurso descrito é derivado.

subject Assunto de que trata o recurso.

title Nome dado ao recurso.

type Determina a natureza ou gênero do recurso.

2.3. Vocabulários e Ontologias

Vocabulários são usados para classificar os termos que podem ser usados em um

domínio particular, caracterizar possíveis relações entre esses termos e definir possíveis

restrições sobre o uso desses termos. Segundo o W3C15

, na Web Semântica, vocabulários

definem conceitos e relacionamentos entre termos e são utilizados para descrever e

representar uma área de interesse. Um vocabulário também pode ser considerado como

uma forma especial de ontologia ou como uma coleção de URIs com uma descrição do

significado.

Ontologias são consideradas um dos pilares da Web Semântica, mesmo não tendo

uma definição aceita universalmente. Segundo Gruber (1993) “Uma ontologia é uma

especificação formal e explícita de uma conceituação compartilhada”.

Segundo Breitman, (2010) vocabulários são usados principalmente por

indexadores para facilitar a recuperação da informação como: homônimos, sinônimos,

hierarquia e associação entre os termos. Já ontologias são usadas principalmente na troca e

compartilhamento de conceitos entre agentes automatizados (sistemas inteligentes),

organizada por classes e propriedades.

Um dos principais objetivos na utilização de vocabulários é auxiliar no processo de

descrição e integração de dados. Por exemplo, quando existirem ambiguidades de termos

nos diferentes conjuntos de dados, ou ainda, quando um conhecimento adicional é

atribuído para proporcionar a descoberta de novas relações.

Vocabulários podem ser empregados para organizar o conhecimento em

bibliotecas, museus, jornais, portais governamentais, empresas, aplicações de redes sociais

e outras comunidades que gerenciam grandes coleções de livros, por exemplo. Além

disso, um vocabulário pode ser usado para veicular notícias, descrever glossários de visita,

entradas de blog e outros itens.

Ontologias também podem ser utilizadas em qualquer área de conhecimento, no

domínio de saúde, por exemplo, quando os médicos usam termos específicos para

representar o conhecimento sobre os sintomas, doenças e tratamentos. Similarmente, uma

empresa farmacêutica usa ontologias para representar informações sobre drogas, dosagens

e alergias, por exemplo. Assim, as ontologias são usadas para criar uma descrição comum

entre as áreas, associando o conhecimento das comunidades médicas e farmacêuticas,

juntamente com dados de pacientes. É possível permitir uma ampla gama de aplicações

http://www.w3.org/standards/semanticWeb/ontology

inteligentes, tais como: (i) ferramentas de apoio à decisão que buscam possíveis

tratamentos; (ii) sistemas que monitoram a eficácia de determinadas drogas e os seus

possíveis efeitos colaterais; e (iii) ferramentas de apoio à pesquisa epidemiológica.

Trazendo estes exemplos para aplicações inteligentes, alguns sistemas podem optar

por escolher vocabulários simples ou complexos para atribuir informações de descrição

aos termos, criando um mapeamento de conhecimento comum entre as terminologias.

2.4. Proveniência

A palavra proveniência segundo Polito, (2004), possui dois significados. O

primeiro define como sendo o lugar de onde provém, emana ou se deriva algo. No

segundo, bem mais sutil, pode ser entendido como fonte, origem ou procedência.

Na área da Ciência da Computação, a literatura especializada apresenta diferentes

visões de proveniência: (i) proveniência como a documentação do processo que resultou

em um dataset (GROTH et al., 2009); (ii) proveniência representada como um Grafo

Acíclico Dirigido16

(MOREAU et al., 2008); (iii) proveniência como os locais dos quais

foram extraídos cada resultado de uma consulta em um banco de dados (Where-

Provenance) (BUNEMAN et al., 2001).

Para o Grupo de Trabalho em Proveniência do W3C17

, proveniência é um registro

que descreve pessoas, instituições, entidades ou atividades, envolvidos na produção dos

dados. A informação de proveniência é crucial para se determinar a confiabilidade dos

dados, facilitar a integração de diversas fontes e atribuir crédito aos autores em caso de

reutilização do dado.

Em um ambiente aberto e inclusivo, como a Web, é possível encontrar

informações contraditórias e duvidosas. Quando há metadados de proveniência esses

problemas podem ser amenizados.

Ainda sob a ótica do W3C, uma comparação entre informações de Proveniência e

Metadados descritivos é bastante pertinente. Os metadados descritivos são usados para

representar ou descrever as propriedades dos objetos conforme sua formação, muitas

vezes essas propriedades podem se confundir com proveniência. Desta forma, os dois

conteúdos são muitas vezes equiparados.

Um grafo acíclico dirigido, é um termo matemático que representa um grafo sem ciclo, ou seja, para qualquer vértice v, não há nenhuma ligação dirigida começando e acabando em v. 17

https://dvcs.w3.org/hg/prov/raw-file/tip/presentations/wg-overview/overview/index.html

Metadados descritivos se tornam parte de proveniência quando especificam a

derivação (origem) de um dado. Por exemplo, um dado pode ter uma propriedade que

afirma o seu tamanho, isso não é considerado informação de proveniência, uma vez que

diz respeito à forma. Porém se o dado possui metadados sobre a data de sua criação, isso é

considerado metadado de proveniência.

Em resumo, a proveniência muitas vezes é representada por meio dos metadados,

mas nem todos os metadados são informações de proveniência.

Existem vocabulários que são específicos para essa finalidade, dentre os mais

importantes está o PROV-O18

, uma recomendação do W3C publicada em Abril de 2013.

A PROV-O (PROV Ontology) é uma ontologia usada para representar e auxiliar a

troca de dados de proveniência originados de diferentes sistemas e contextos. Isso ocorre

através de um conjunto de classes, propriedades e restrições (LEBO et al., 2013). Estes

dados de proveniência são muito relevantes para atribuir valor semântico, qualidade e

confiabilidade aos dados de origem.

As classes e propriedades da PROV-O são agrupadas em três categorias: categoria

Ponto de Partida (Starting point terms), categoria Expandida (Expanded terms) e categoria

Qualificada (Terms for qualifying relationships), possibilitando um nível de detalhamento

incremental. A categoria Ponto de Partida proporciona a base para os demais termos da

PROV-O. A categoria Expandida proporciona termos adicionais para descrever, de

maneira mais detalhada, a proveniência relacionada às entidades, atividades e agentes.

Finalmente, a categoria Qualificada é o resultado da aplicação do padrão de modelagem

RDF denominado Relação Qualificada nas propriedades oferecidas pela categoria Ponto

de Partida e pela categoria Expandida (DAVIS et al., 2012).

O Ponto de Partida (Starting Point) é um pequeno conjunto de classes e

propriedades (três Classes e nove Propriedades) que podem ser usados para criar

descrições de proveniência mais simples e iniciais, conforme visualizado na Tabela 2.2.

http://www.w3.org/TR/prov-o/

Tabela 2.2 Classes e propriedades da categoria Start Point da ontologia PROV-O

Fonte : O Autor, baseado da documentação PROV-O.

Os atributos de proveniência da categoria Ponto de Partida serão utilizados para

descrever os metadados neste estudo e estão ilustradas na Figura 2.1. Nesta figura é

possível observar as relações entre os componentes da categoria Ponto de Partida, onde o

agente pode ser uma pessoa ou orgão público e está identificado por um pentágono, ele se

relaciona com uma atividade através do atributo wasAssocitedWith, representada pelo

retângulo. A entidade, representada na forma de elipse, possui vários atributos para se

relacionar com o agente e a atividade.

Para exemplificação aplicada nesta abordagem, considere o atributo que descreve o

autor do metadado, neste caso podemos usar a propriedade prov:wasGeneratedBy, ela

estaria associada a classe Agente que poderia ser uma empresa ou instituição qualquer que

gerou o metadado. Este agente se relaciona com a classe Atividade chamada geração de

metadados. Outro exemplo poderia usar a propriedade prov:startedAtTime para descrever

o metadado que indica a data de inicio da atividade, como: quando foi publicado um

determinado dado ou metadado?

Classes Propriedades

prov: Entity prov: wasGeneratedBy

prov: Activity prov: wasDerivedFrom

prov: Agent prov: wasAttributedTo

prov: startedAtTime

prov: used

prov: wasInformedBy

prov: endedAtTime

prov: wasAssociatedWith

prov: actedOnBehalfOf

Figura 2.1 Relacionamento entre as classes e propriedades da categoria Starting Point.

Fonte: http://www.w3.org/TR/prov-o

O modelo de enriquecimento semântico de metadados idealizado neste trabalho

contemplará algumas das propriedades supracitadas, entre elas: prov:wasAttributedTo e

prov:startedAtTime. Porém para uso e implementação do atributo de sinônimos, que prevê

a utilização de múltiplos vocabulários, as demais categorias do PROV-O, além do Starting

Point, poderão ser utilizadas, para descrever os metadados.

2.5. Enriquecimento Semântico

Segundo Chris Clarke (2009), o enriquecimento semântico pode ser entendido

como um recurso projetado para aumentar a riqueza dos dados.

O enriquecimento semântico também pode ser visto como o processo de atribuir

maior significado aos metadados e dados por intermédio da aplicação de recursos

auxiliares, objetivando facilitar a compreensão, a integração e o processamento dos dados

por pessoas e máquinas. Ou seja, o enriquecimento semântico torna os dados e metadados

mais qualificados, através do uso da semântica atribuída por vocabulários pré-existentes,

sinônimos e informações de proveniência.

Para realizar o Enriquecimento Semântico e obter conceitos adicionais, alguns

recursos e técnicas são usados, dentre eles podemos citar: Anotação Semântica,

Vinculação e Mapeamento de Recursos, além da conversão para modelos de dados

semânticos.

Anotação Semântica: Segundo Uren et al. (2006, apud ARANTES, 2010,

p.32), anotação semântica consiste na atribuição de semântica (significado) aos

elementos de um esquema de origem de forma manual ou automatizada por

meio da adição de informação semântica;

Vinculação e Mapeamento de Recursos: consiste em descobrir links entre as

combinações semânticas dos dados e metadados com outros recursos na Web

de dados. Segundo Sorrentino et al. (2013) é muito utilizado para interligar

recursos na nuvem LOD19

Conversão para modelos de dados semânticos: Consiste em modelar os

dados num formato semântico e estruturado, como RDF/XML, beneficiando

sua manipulação por aplicações que consomem esses modelos de dados.

A Figura 2.2 apresenta um exemplo que ilustra o enriquecimento de metadados

utilizando recursos semânticos disponíveis na Web. Considere, por exemplo, a manchete

"Barack Obama para presidente dos EUA", essa frase irá resultar em três entidades

nomeadas, “Barack Obama”, “presidente” e “EUA”, juntamente com o seu tipo (ou seja,

pessoa ou localização). Uma vez que as entidades nomeadas foram extraídas, serão

mapeadas para o conhecimento formalizado na Web disponível em locais como

GeoNames20

para informação de localização ou em DBpedia21

para informações das

pessoas, organizações ou eventos. A string “Barack Obama” está mapeada para sua URI

no DBPedia22

e fornece: i) um identificador único para o recurso e ii) o conhecimento

adicional sobre esta pessoa, como sua biografia, carreira e genealogia em vários idiomas.

http://lod-cloud.net/ 20

http://www.geonames.org 21

http://dbpedia.org 22

http://dbpedia.org/resource/Barack_Obama

Fonte: O Autor, baseando no trabalho de Mannens et al. 2009.

Analisando a literatura, foi possível observar que o processo de enriquecimento

semântico de metadados está fortemente relacionado ao uso das anotações semânticas.

Pelo fato de que as anotações semânticas têm for finalidade valorizar a informação,

atribuindo complemento ao seu significado. Assim o assunto merece uma análise mais

aprofundada sobre seus conceitos e definições.

2.6. Anotação Semântica

Segundo Oren et al. (2006) o termo "anotação" implica, de forma geral, em anexar

dados em algumas partes de outros dados, de acordo com a especificação de cada

domínio.

Sorrentino et al. (2013) descrevem que: “anotação semântica é o processo de

alinhamento explícito de um ou mais significados para o esquema de rótulos de

elementos, como classes e nomes de atributos”. Para Kiryakov e Popov (2004) anotação

semântica consiste em atribuir links às entidades para suas descrições semânticas com a

geração de metadados específicos. Esse processo tem como objetivo permitir novos

métodos de acesso à informação ampliando os já existentes.

Figura 2.2 Exemplo de enriquecimento de metadados com mapeamentos para recursos disponíveis na Web.

Uma anotação semântica tem por finalidade prover recursos para que agentes

inteligentes (software) realizem entendimento e processamento do conteúdo dos dados de

forma automatizada.

Para Oren et al. (2006) uma anotação semântica As pode ser representada como

uma quadrupla <as, ap, ao, ac>, onde:

as é o dado (ou sujeito) sendo anotado;

ao é a anotação em si;

ap é o predicado que define o tipo de relacionamento entre o as e ao;

ac é o contexto em que a anotação é feita.

Segundo Popov et al. (2003), anotação semântica é um “esquema específico para

geração e uso de metadados, possibilitando novos métodos de acesso à informação”.

Para se atribuir uma anotação semântica de forma simples, o usuário pode editar o

conteúdo de um dado de forma manual, alterando sua estrutura ou adicionando algum

significado, para que a anotação atribuída seja interpretada por pessoas e processada por

máquinas.

Como exemplo de anotações semânticas observe a Tabela 2.3, onde todas as

colunas que aparecem após a coluna Nome são compreendidas como metadados do

metadado. Estes metadados adicionais fazem o papel de anotação semântica, associando

novos valores de proveniência ao metadado original. Em outras palavras os metadados

originais não apresentam informações como: quem atribui o metadado, qual o domínio de

conhecimento, quem publicou o metadado, quando foi publicado ou modificado. Essas

informações podem ser aplicadas por anotação semântica ao conjunto de metadados

enriquecidos.

Contudo, além da atividade de anotação semântica ser uma atividade desgastante,

ela não é trivial, sua atribuição manual requer muito tempo e pode levar a erros graves

comprometendo a estrutura e o significado real da informação original. Assim, a

utilização de ferramentas e recursos apropriados para o gerenciamento de anotações é

sempre relevante.

Fonte: O Autor

Existem várias abordagens e ferramentas disponíveis na literatura e na Web, que

servem para exemplificar a utilização de anotação semântica, dentre elas destacam-se

algumas que utilizam tecnologias semânticas como:

Boemie23

(Bootstrapping Ontology Evolution with Multimedia Information

Extraction) é uma ferramenta baseada em ontologias para anotar arquivos de texto e

páginas da Web (FRAGKOU et al., 2008).

Docss24

(Documentalist Support System) é uma ferramenta baseada em serviços da

Web para gerar anotações classificadas acerca de documentos do Instituto Holandês para

Som e imagem, que visa facilitar a recuperação de tais documentos (BRUGMAN et al.,

2008).

Annotea25

é um projeto desenvolvido pelo Consórcio World Wide Web que

pretende fornecer anotações compartilhadas de páginas da Web (KAHAN et al., 2002).

2.7. Trabalhos relacionados

Nesta seção, são apresentados alguns trabalhos relacionados com a abordagem

proposta para enriquecimento semântico de metadados. São apresentados trabalhos nas

áreas de Dados Abertos e enriquecimento de metadados. Como um dos objetivos da

http://www.lrec-conf.org/proceedings/lrec2008/pdf/324_paper.pdf 24

http://www.cs.vu.nl/~schreiber/papers/Brugman08a.pdf 25

http://www.sciencedirect.com/science/article/pii/S1389128602002207

Tabela 2.3 Exemplo de Anotação Semântica

abordagem proposta é facilitar a atividade do publicador na geração e publicação de

metadados para Dados Abertos, uma breve análise dos trabalhos relacionados à pesquisa

será realizada.

Sorrentino et al. (2013) apresentam um método ainda em evolução para a

publicação de Dados Abertos semanticamente enriquecidos, interligando os dados

automaticamente com a nuvem LOD26

(Linked Open Data). Para isso eles usaram uma

aplicação automática de anotações semânticas nos elementos do esquema, baseado na

tradução dos conjuntos de dados para RDF. O trabalho trata exclusivamente das ações de

interligação de um dataset, com recursos da Web Semântica, para publicá-los na nuvem

LOD. Sua implementação se dá pela integração de várias ferramentas open source. A

manipulação de várias ferramentas não é trivial, pois o usuário tem que possuir um grau

elevado de entendimento sobre o conjunto de ferramentas. Outra limitação dessa solução é

que ao refazer o processo de enriquecimento para outro dataset, todo o processo deverá

ser repetido por completo, não permitindo a reutilização do que já foi enriquecido.

De forma similar, Mendonça (2013) propõe uma abordagem para coleta e

publicação de dados de proveniência para o processo de publicação de Linked Data27

(dados interligados). Nesse caso, ele utiliza um agente de proveniência para atuar em um

processo de publicação de dados executado através de um workflow de ETL (Extração,

Transformação e Carga). Este agente, denominado Agente Coletor de Proveniência,

coleta, interliga e armazena temporariamente os dados de proveniência, durante a

execução do processo de publicação de dados de acordo com os princípios de Linked

Data. Posteriormente, a proveniência coletada é também publicada como um conjunto de

dados interligados, a fim de que os dados de domínio e seus respectivos dados de

proveniência possam ser explorados conjuntamente, por meio de consultas SPARQL28

Algumas limitações da proposta sugerida por Mendonça (2013) podem ser

identificadas. Entre elas estão:

Falta de uma interface gráfica para apoiar a exploração dos dados de

proveniência publicados.

Restrição no tratamento dos dados de proveniência, limitados à etapa de

extração do ciclo de vida de Linked Data.

http://lod-cloud.net/ 27

http://www.w3.org/standards/semanticweb/data 28

http://www.w3.org/TR/rdf-sparql-query/

Necessidade de uma estratégia para gerenciar o grande volume de dados

gerado pela publicação da proveniência.

Na abordagem proposta neste trabalho, algumas das limitações citadas acima são

tratadas, como: é oferecida uma interface gráfica para apoiar a execução do processo de

enriquecimento, bem como são oferecidos meios para o gerenciamento de metadados e

suas informações de proveniência.

O AutôMeta (Automatic Metadata annotation tool), originado no trabalho de

Fontes (2011), apresenta uma proposta para enriquecer documentos automaticamente com

anotações semânticas, onde os termos do documento são anotados com o auxílio de uma

ontologia de domínio. Esse trabalho explora a inferência ontológica no conceito de meta-

anotação, que visa orientar os usuários e agentes no uso das anotações inferidas através da

informação sobre o raciocínio que as gerou. A meta-anotação é construída como um

mecanismo de anotação semântica multiplataforma e multi-intefarce (Linha de Comandos

e Interface Gráfica), que permite realizar desde uma anotação simples até múltiplas

anotações, também denominadas anotações em lote.

Apesar de se apresentar como uma excelente ferramenta, o AutôMeta não trata

especificamente do enriquecimento dos metadados. Todavia, ele insere informações que

auxiliam na compreensão da informação e atribui de forma automática anotação semântica

nos documentos e gera metadados adicionais. Esta abordagem não prevê o uso de um

módulo de sugestões que auxilie o usuário na hora de atribuir ou associar o conteúdo

semântico (vocabulários) ao dado. Diferentemente, o trabalho aqui proposto visa o

enriquecimento dos metadados através da anotação semântica e reuso de metadados para

facilitar as atividades do publicador de dados.

Adicionalmente, Mannens et al. (2009) descreve o enriquecimento semântico

realizado de forma automática nos metadados de notícias. Através do enriquecimento

automático de metadados de notícia a partir de um conjunto de Dados Abertos interligados

e disponíveis na Web de Dados, o conteúdo das notícias é apresentado dentro de um

amplo contexto. Além disso, disponibiliza um navegador que organiza os assuntos por

característica comuns, fornecendo uma maneira conveniente para explorar notícias com

base em uma ontologia chamada NewsML-G2.

Mannens et al. (2009) também apresentam uma ferramenta que lê a notícia e extrai

algumas entidades como, nome de pessoas, locais e empresas. Além disso, faz um

mapeamento destas entidades com recursos da Web como: GeoNames para identificar

locais ou DBpedia para relacionar pessoas, eventos ou empresas. Como estas entidades

estão associadas a uma URI, decorrente do mapeamento, pode-se extrair informações

complementares do DBpedia para enriquecer seu conteúdo.

No entanto, a ferramenta desenvolvida só se aplica a notícias e não a conjuntos de

dados de qualquer domínio. Também não foi identificado um módulo ou recurso que

armazene os metadados para que em um novo procedimento as informações sejam

recuperadas.

A Tabela 2.3 resume as características principais dos trabalhos discutidos

anteriormente.

Tabela 2.4 Resumo dos trabalhos relacionados

Trabalhos Objetivos Uso de

ontologias ou vocabulários

Nível de automação

Repositório Interface Gráfica

Sorrentino et al. (2013)

Interligar os dados semanticamente

enriquecidos com a nuvem Linked Data

Sim Automático Não Não

Mendonça (2013)

Uma abordagem de coleta e publicação de dados de

proveniência para o processo de publicação de

Linked Data

Sim Semi-

automático Sim Não

Fontes (2011)

Um mecanismo de anotação semântica multiplataforma e multi-intefarce, que permite

realizar desde uma anotação simples até múltiplas

anotações semânticas.

Sim Automático Não Sim

Mannens et al. (2009)

Enriquecer semanticamente uma notícia em tempo real, com recursos da Web de

dados.

Sim Automático Não Sim

Fonte: O Autor.

Diante da análise sobre os trabalhos apresentados, observou-se que não foram

encontrados trabalhos que tenham como foco o enriquecimento semântico de metadados

para Dados Abertos. Isso motivou o desenvolvimento de uma abordagem que sugerisse

uma solução para este problema, levando em consideração os recursos de: ontologias ou

vocabulários, nível de automação, repositório de metadados e prototipação com interface

gráfica para o usuário.

2.8. Considerações finais

Neste capítulo, foram apresentados aspectos e conceitos referentes à Dados

Abertos e metadados, seguidos de uma breve comparação entre vocabulários e ontologias

e conceitos sobre proveniência. Também foi apresentada uma revisão bibliográfica sobre

os principais conceitos de Enriquecimento Semântico e Anotação Semântica, temas

diretamente relacionados com a abordagem proposta. Uma breve descrição de alguns

trabalhos existentes acerca de Anotação Semântica, bem como, das técnicas e estratégias

existentes também foi discutida. Por fim, foi apresentada uma rápida comparação entre as

características de alguns trabalhos relacionados com esta pesquisa.

3. UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE

METADADOS

Os estudos recentemente reportados na literatura abordam, de forma limitada, o

enriquecimento semântico de metadados para publicação de dados na Web. Os trabalhos,

em sua maioria, não refletem as condições e características necessárias para solucionar a

ausência de metadados, bem como a publicação e reuso de metadados com descrições

adequadas para a compreensão dos dados. Esse fato ressalta a necessidade de facilitar a

publicação e o reuso de metadados, o que pode ser feito por meio do enriquecimento

semântico dos mesmos. Especificamente, buscam-se meios para permitir o reuso de

metadados que são utilizados com o intuito de descrever dados publicados em formato

aberto.

Neste contexto, gerar ou transformar metadados básicos em metadados mais

valiosos e com maior significado, é o intuito do estudo aqui apresentado. Este processo

será realizado por meio da adição de anotações semânticas aos metadados, a fim de fazer a

associação com padrões de vocabulários já existentes, permitindo oferecer informações

sobre a proveniência dos metadados, sinônimos e detalhes sobre seu domínio de

aplicação. Para isso, são usados termos de vocabulários específicos, como PROV-O e DC.

Neste capítulo, a abordagem proposta será apresentada de acordo com as seguintes

seções: a Seção 3.1 apresenta a descrição do processo de enriquecimento semântico. A

Seção 3.2 apresenta os atributos adotados para auxiliar na composição de um metadado

enriquecido. A Seção 3.3 apresenta as definições e utilização de anotações semânticas no

processo de enriquecimento semântico. Na Seção 3.4 está descrito o Repositório de

Metadados e sua finalidade no processo de Enriquecimento Semântico de Metadados. Na

Seção 3.5 apresenta-se uma breve exemplificação do uso de metadados enriquecidos com

o intuito de auxiliar o entendimento da proposta. E, finalmente, a Seção 3.5 aborda

algumas considerações relevantes deste capítulo.

3.1. Visão geral da abordagem para enriquecimento semântico de metadados

O enriquecimento semântico de metadados é visto como uma ação prioritária e

imprescindível para que metadados tenham maior significado e sejam acessíveis e

compreendidos por pessoas e/ou máquinas (sistemas inteligentes).

Algumas abordagens para atribuição de anotação semânticas utilizam inserções de

descrições através de tags entre os códigos de arquivos HTML, como no trabalho de

Fontes (2011), ou associação e mapeamento de recursos Linked Data da Web Semântica,

observados no trabalho de Sorrentino et al. (2013). Diferentemente, no estudo aqui

apresentado serão usados os processos de agregação de termos pertencentes a

vocabulários específicos já existentes a fim de descrever os metadados de um dataset de

qualquer domínio.

A Figura 3.1 apresenta a abordagem proposta para o enriquecimento de semântico

de metadados com os principais elementos que a compõem.

Fonte: O Autor.

Na Figura 3.1 é possível observar um conjunto de datasets que devem ser

processados um por vez, de forma automática, por meio da atividade de Extração de

Metadados, gerando um conjunto de metadados. Inicialmente, estes metadados são

denominados de Metadados Básicos, por apresentarem informações mínimas para a

descrição de um dado, como nome do metadado, tipo e tamanho. A etapa de Anotação

Semântica contempla a maior parte dos esforços no processo de enriquecimento

semântico. Isso porque, em alguns casos, é necessária a ação humana na atribuição

Figura 3.1 Abordagem para o enriquecimento semântico de metadados

manual das anotações. Nessa etapa, é realizada uma busca no repositório de metadados

para decidir se é possível reutilizar algum metadado já existente ou se é necessária a

intervenção do usuário para realização da anotação semântica dos metadados. Ao final da

atividade de anotação semântica, tem-se um conjunto de Metadados Enriquecidos, os

quais foram obtidos a partir da inclusão de anotações semânticas ou reutilização de

anotações no conjunto de metadados básicos. É importante ressaltar que a saída do

processo (conjunto de metadados enriquecidos) segue as normas e diretrizes que regem a

publicação e geração de dados abertos. Ao final de todo o processo, o conjunto de

metadados enriquecidos com anotações semânticas são armazenados em um repositório de

metadados, para que possam ser reutilizados posteriormente, e um arquivo XML/CSV é

gerado para exportação e publicação dos metadados enriquecidos.

Um dos pontos fortes da abordagem proposta está em permitir a reutilização dos

metadados enriquecidos e suas anotações. Numa visão colaborativa, várias instituições

públicas ou setores de um mesmo órgão podem gerar metadados enriquecidos, armazenar

e recuperar metadados do mesmo repositório. Dessa forma, o repositório de metadados

pode funcionar como um banco de vocabulários ou dicionário de dados específico,

semelhante ao VCGE29

, uma vez que as descrições dos termos e nomenclaturas estarão

disponíveis em um único local. Este recurso tem considerável importância, principalmente

no momento de descrever os metadados, porque sugere conteúdo relevante de forma

padronizada, na qual várias pessoas e entidades compartilharão do mesmo conceito.

O enriquecimento semântico de metadados sugerido nesta abordagem, para os

casos de reuso, é assistido pela análise de similaridade, representada pelo losango, na

Figura 3.1. Este processo de comparação é realizado entre o nome do metadado que está

sendo processado com os nomes dos metadados que estão armazenados no repositório.

Caso o metadado que está sendo processado também possua uma informação sobre o seu

domínio, esta informação também será considerada no processo de comparação, para que

a similaridade seja a mais próxima possível. Por exemplo, caso existam dois ou mais

metadados chamados endereço no repositório, porém com descrições diferentes, será

analisado as informações adicionais como o domínio de aplicação tipo saúde, segurança

ou finanças ao qual os metadados estão inseridos ou também o nome de dataset. Estas

comparações visam apresentar descrição igual ou equivalente.

VCGE é um vocabulário controlado para indexar informações (documentos, bases de dados, sites, etc.) no governo federal. Disponível em: <http://vocab.e.gov.br/2011/03/vcge#esquema>.

A similaridade vem sendo alvo de constantes pesquisas e segundo Madhavan et al.

(2001, Apud Noll R. et al. 2007), sugerem três passos para avaliação da similaridade:

Normalização: esta etapa consiste em mapear os termos equivalentes conforme

seu significado, porque pode haver termos com nomes diferentes em outros

esquemas. Dessa forma é aconselhável fazer uso de Tesauro para relacionar os

termos comuns ou referencias domínio específico.

Categorização: esta ação tem por finalidade organizar os termos em classes,

com o objetivo de reduzir a quantidade de comparações entre os termos

diferentes.

Comparação: este passo consiste em definir um ponto de similaridade, entre os

termos e suas respectivas categorias.

Neste trabalho, a análise de similaridade não considerou o passo de Normalização

e nem o passo de Categorização, pelo fato de não se utilizar um tesauro e nem separar os

termos por categoria, ou seja, foi considerada apenas a etapa de Comparação.

A análise de similaridade pode ser feita de duas formas:

Análise de similaridade léxica.

o Edit Distance: avalia duas sequências de caracteres pelo número

mínimo de operações necessárias para transformar uma cadeia em outra

(LEVENSHTEIN, 1966 apub NOLL et al. 2007);

o Stemmer: avaliação de sequência de caracteres pela redução de uma

palavra ao seu radical (STEMMER, 2007 apub NOLL et al. 2007).

Análise de similaridade semântica. A segunda perspectiva corresponde à

avaliação semântica entre os termos. Durante o passo de normalização, sugere-

se a utilização de um tesauro para avaliar relações terminológicas entre

conceitos.

Apesar da análise de similaridade semântica sugerir um tesauro para sua

aplicação, nesta abordagem ela foi seguida com algumas adaptações. A similaridade foi

aplicada fazendo uma comparação de sintaxe entre os termos armazenados no repositório,

por exemplo: o nome do metadados, o nome do dataset e/ou seu domínio de aplicação.

Os metadados enriquecidos são apresentados ao usuário com descrições e

características associadas aos vocabulários e às informações de proveniência, com

semântica mais clara quando comparados ao metadado original (básico).

A abordagem proposta para o enriquecimento semântico possui algumas

características peculiares apresentadas a seguir:

Facilita a atividade dos publicadores ou analistas de dados abertos, com

automação parcial do processo de anotação semântica e reuso na geração de

metadados enriquecidos;

Proporciona maior credibilidade aos metadados, uma vez que permite a

publicação de metadados com informações de proveniência;

Promove maior usabilidade dos dados e metadados, uma vez que os metadados

são enriquecidos com anotações que fazem uso de padrões de vocabulários já

existentes e ontologias específicas.

Pensando nessas características a abordagem prevê um bloco de sinônimos para

utilização e associação de múltiplos vocabulários que estão dispostos no repositório. Estes

vocabulários são sugeridos ao usuário de acordo com o domínio dos metadados. A

abordagem permite a agregação de vocabulários sem limite máximo conhecido, quanto

maior o número de vocabulários inseridos, melhor.

Outra contribuição prevista nesta abordagem é a disposição de atributos para

descrição de proveniência. Estas informações colaboram para o processo de reuso dos

metadados, uma vez que a descrição de proveniência explicita informações de origem e

histórico dos metadados, atribuindo maior credibilidade aos dados e metadados.

Esta abordagem tem um perfil semiautomático, uma vez que várias ações para o

enriquecimento dos metadados são realizadas de forma automatizada, por exemplo: a

extração dos metadados, realizada por meio de um script de manipulação dos datasets em

formato XML, que vasculha o dataset e apresenta os metadados ao publicador.

Este script de manipulação é um trecho de código que realiza a leitura de um

documento XML e analisa toda sua estrutura com o intuito de identificar quais metadados

estão sendo usados para descrever os dados. Em seguida, seleciona as tags que

representam os metadados, apresentando para o usuário os metadados básicos que até o

momento ainda não eram conhecidos.

Na etapa de enriquecimento semântico, o processo de anotação é feito de forma

semiautomática uma vez que é sugerido ao usuário reusar metadados. No entanto o

usuário é quem valida e decide se aceita ou não as sugestões. Esta automação, mesmo que

de forma parcial, possibilita que os metadados enriquecidos sejam gerados e

disponibilizados no formato XML, para serem publicados juntamente com seus conjuntos

de dados.

A principal ideia por trás do enriquecimento semântico é fazer o reuso de

metadados para facilitar a atividade do publicador em gerar os metadados e publicar estes

metadados nos Portais juntamente com os datasets. Além disso minimiza o problema da

ausência de metadados ou metadados com pouca descrição semântica, sabendo que é a

partir dos metadados que se pode entender os dados.

3.2. Metadados enriquecidos

Ao final do processo de enriquecimento semântico, é obtido um conjunto de

metadados enriquecidos descritos por meio de anotações, onde cada elemento do conjunto

descreve um item de metadado.

Um conjunto de metadados enriquecidos deve apresentar algumas características

como: (i) maior quantidade de atributos semânticos, que contenham um significado claro,

capaz de descrever melhor os dados; (ii) facilidade de interpretação e processamento do

conteúdo dos datasets , uma vez que o metadado estará em linguagem estruturada, ou seja,

definida de forma que pode ser processada por máquina; (iii) termos de vocabulários

padrões associados, que permitirá ao metadado se integrar a outros dados e recursos na

A descrição de um item de metadado enriquecido é composta por três blocos

principais: bloco básico, bloco de sinônimos e bloco de proveniência. Cada um dos blocos

é composto por um conjunto de atributos, conforme está descrito na Tabela 3.1. Cada um

dos atributos que compõem a descrição do metadado enriquecido está associado a um

termo que pertence ao vocabulário padrão Dublin Core30

ou a alguma das propriedades

contidas na Ontologia PROV31

. Os atributos que descrevem estes metadados são

http://dublincore.org/documents/dcmi-terms/ 31

http://www.w3.org/TR/prov-o/

considerados como meta-metadados, uma vez que geram informação e descrição adicional

ao metadado e não aos seus conjuntos de dados.

A Tabela 3.1 apresenta detalhes sobre os atributos que compõem cada um dos

blocos descritos.

Bloco básico

Este bloco é composto por atributos extraídos diretamente dos datasets de origem,

ou são descritos pelo publicador caso estes atributos não estejam presentes no dataset,

são eles: nome, descrição, tipo e tamanho. É possível que, excepcionalmente, alguns

outros atributos possam ser incluídos nesta descrição. Estes metadados dizem respeito às

informações estruturais dos metadados, ou seja, apresentam descrições relacionadas aos

dados que são publicados. Por exemplo, o valor "2014" pode ser descrito pelo seguinte

conjunto de metadados: (nome: ano, descrição: ano corrente e tipo: inteiro).

Tabela 3.1 Descrição dos atributos dos metadados enriquecidos

Divisão

Atributos Termos Descrição

Bloco básico

nome dct:title Define o nome do metadado

descrição dct:description Uma descrição do que se trata o metadado

tipo dct:type Define a natureza (tipo) do metadado

tamanho dct:format Define as dimensões em caracteres do metadado

Bloco de sinônimos

sinônimo dct:replaces Um termo de algum vocabulário relacionado que é um sinônimo

para o metadado descrito.

Bloco de

proveniência

proprietário prov:wasAttributedTo A qual entidade o metadado está atribuído

domínio dct:subject

Define o assunto ou domínio tratado pelo metadado.

publicador dct:publisher Quem é responsável por tornar o metadado público

data_publicação prov:startedAtTime Quando se iniciou a atividade de publicação do metadado

data_atualização dct:modified Representa a data em que o metadado foi alterado

Fonte: o Autor.

Bloco de sinônimos

Este bloco é representado pelo atributo sinônimo e diz respeito às informações de

mapeamento entre as similaridades do nome do metadado com os vocabulários padrões

existentes. Em outras palavras, procura-se estabelecer relações de sinonímia

(equivalência) entre o metadado e o termo de um vocabulário correspondente.

Os sinônimos podem mapear os metadados para outras bases de dados ou fontes

correspondentes. Por exemplo, o metadado cujo nome é "Endereco" poderia ter como

sinônimo a palavra "Logradouro" em outra base ou associado a termos de vocabulários já

conhecidos na Web, como VCGE32

, FOAF33

ou VCARD34

, utilizados para descrever

metadados referentes a pessoas e organizações de forma padronizada.

A ideia é que sejam identificados vocabulários relacionados ao domínio que está

sendo descrito e que sejam oferecidos como sugestões para o publicador. Esta abordagem

prevê a utilização de múltiplos vocabulários, contribuindo para que os metadados sejam

relacionados a outras descrições contidas nestes vocabulários padrões.

Bloco de proveniência

Este bloco é composto por atributos que permitem descrever a origem do

metadado, permitindo identificar informações de sua procedência e ciclo de vida, gerando

maior credibilidade e confiabilidade aos dados e metadados.

Os metadados de um recurso só se tornam informações de proveniência quando

indicam uma característica de sua origem ou do seu processo de produção. Por exemplo, o

metadado que informa o tipo do dado não é considerado um metadado de proveniência,

uma vez que não indica uma característica de origem ou produção do dado. Já o metadado

que informa a data de criação do arquivo é considerado um metadado de proveniência

relevante. Dessa forma, alguns metadados considerados em nosso modelo são:

proprietário, domínio_de_aplicação, publicador, data_de_publicação e

data_de_atualização.

É importante ressaltar que a proveniência dos dados é um ponto crucial para

decidir se os dados são confiáveis, tendo em vista a possibilidade de serem integrados com

outras fontes de informação, além de permitirem atribuir crédito aos seus autores. Nos

casos de informações contraditórias ou questionáveis, aplicativos podem se beneficiar da

representação explícita da proveniência para realizar o julgamento da qualidade e da

confiabilidade das informações consumidas (GIL et al., 2010).

http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroes-de-interoperabilidade/vcge 33

http://xmlns.com/foaf/spec/ 34

http://www.w3.org/TR/vcard-rdf/

Em nossa abordagem, estamos interessados em capturar informações relacionadas

especificamente à proveniência dos metadados, uma vez que buscamos facilitar o reuso de

metadados. Por exemplo, o metadado "ano" foi publicado pela instituição EMPREL em

Julho de 2013.

3.3. Uso de anotações semânticas para descrição dos metadados enriquecidos

Anotações Semânticas são usadas como recurso na atribuição de novas

informações e descrições aos metadados básicos.

O modelo adotado para representação das anotações semânticas é uma adaptação

do modelo definido por Oren et al (2006), de tal forma que uma anotação semântica

corresponde a uma tripla <as, ap, ao>, onde as é o dado (sujeito), ap é o predicado que

define o tipo de relacionamento entre o sujeito e o objeto, e ao é o objeto, valor anotado.

Neste trabalho não será utilizado o elemento ac, contemplado no modelo original

referente a informações contextuais, tendo em vista que os predicados que representam

informações de proveniência oferecem uma função similar ao que seria oferecido pelo

elemento de contexto.

Uma vez que nosso modelo passa a considerar a definição de Anotação Semântica

como uma tripla <as, ap, ao>, podemos utilizar os seguintes conceitos para nortear as

características desta abordagem, onde:

as: recebe como valor o identificador único referente a cada item de

metadado extraído do dataset. Como exemplo, o sujeito poderia ser a URL:

http://dados.recife.pe.gov.br/dataset/defesa-civil/metadado01;

ap: recebe como valor um dos atributos que representam as propriedades dos

metadados enriquecidos, de acordo com os atributos definidos na Tabela 3.1.

Como exemplo teria o atributo Publicador com o termo relacionado

dct:publisher;

ao: representa o valor associado a uma propriedade ap para um recurso as.

Por exemplo: o valor relacionado a propriedade dct:publisher seria

EMPREL.

Figura 3.2 Exemplo de conjunto de metadados anotados na sintaxe XML/CSV

Fonte: o Autor

Algumas linguagens foram desenvolvidas para permitir a descrição semântica de

informações. Dentre elas está o XML35

(Extensible Markup Language), outra sugestão

poderia ser RDF36

(Resource Description Framework), mas por motivos praticidade optou-

se por XM, embora em RDF a semântica estaria mais evidente. É por meio do XML que

representamos as anotações semânticas que serão aplicadas aos metadados enriquecidos

nesta abordagem. A Figura 3.2 ilustra um exemplo do metadado enriquecido no formato

No exemplo da Figura 3.2, é definido um elemento chamado Metadado, com seus

meta-metadados, representando informações estruturais, de sinônimo e os cinco últimos

são anotações que definem a proveniência dos metadados.

Assim, os metadados podem ser descritos através dos elementos de XML,

favorecendo a manipulação e processamento por máquina.

Além de representação em XML o metadado enriquecido pode se basear na

construção de triplas RDF, usado como referência para vários modelos de representação

semântica, um deles foi descrito por Oren et al. (2006) citado anteriormente. Desta forma,

http://www.w3.org/TR/xml 36

http://www.w3.org/RDF/

um exemplo de tripla utilizando esta notação para descrever um metadado

semanticamente enriquecido seria: Na interpretação humana “O metadado, é chamado

Endereço, foi publicado por Emprel na qual realizou a atividade em 31-07-2014”, esta

afirmação no formato de tripla utilizando sintaxe RDF/XML ficaria:

<rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-

civil/metadado01”><dct:title> “Endereco” </dct:title></rdf:Description>;

<rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-

civil/metadado01”> <dct:publisher> “Emprel”

</dct:publisher></rdf:Description>;

< rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-

civil/metadado01”> <prov:startedAtTime> “31-07-2014”

</prov:startedAtTime></rdf:Description>.

Utilizando uma notação gráfica, estas triplas são representadas conforme a Figura

3.3. Nesta Figura um recurso correspondente a URI

“http://dados.recife.pe.gov.br/dataset/defesa-civil/metadado01”, é representado pela elipse

azul, que possui uma propriedade chamada dct:title, representada por uma reta com valor

“Endereço”. O mesmo recurso também possui outra propriedade representada pelo termo

dct:publisher, com valor anotado “Emprel” que realizou a atividade de publicação do

metadado em 31-07-2014.

Figura 3.3 Exemplo de triplas RDF.

Fonte: o Autor

Continuando com as descrições desta abordagem, a seção seguinte trata dos

aspectos e funcionalidades do Repositório de Metadados, item fundamental no processo

de enriquecimento, implementado neste trabalho.

3.4. Repositório de metadados

O repositório de metadados é utilizado como fonte comum de metadados que

oferece uma visão organizada, padronizada e única dos termos contidos nele. Esta visão

de repositório compartilhado e colaborativo, com vários órgãos e instituições públicas é de

fato possível.

Na Figura 3.4 é possível ter uma ideia do papel do Repositório de Metadados

previsto na abordagem proposta.

Quando um dataset é processado, uma análise comparativa é feita no repositório

de metadados, com o auxílio do analisador de similaridade que recebe as informações de

nome do metadado e nome do domínio do dataset. De posse dessas informações, o

analisador checa no repositório se os metadados já foram previamente enriquecidos e,

portanto, já estão armazenados no repositório. Em caso afirmativo, os dados são

recuperados e apresentados ao usuário.. Por exemplo, um publicador carrega um dataset

de domínio na área de saúde, se os metadados que estiverem no repositório possuírem os

mesmos nomes e domínio dos metadados extraídos, os metadados armazenados serão

recuperados e sugeridos ao usuário. Caso exista mais de uma combinação, serão

recuperadas as descrições mais atuais.

Esta comparação da similaridade entre as sintaxes do nome e domínio dos

metadados não utiliza mapeamento pré-definidos entre termos de vocabulários, uma vez

que os metadados não são previamente conhecidos.

Ao final do processo de anotação semântica, os metadados enriquecidos são

persistidos no repositório de metadados.

Figura 3.4 Comparação e reuso de metadados com auxílio do repositório

Fonte: O Autor

Na literatura, os repositórios de dados em geral podem ser tratados com um

conjunto de recursos e implementações sofisticadas. Segundo Benacchio (2008), um

repositório de metadados deve prover funcionalidades que permita integração e acesso

independente para manipular dados e a estrutura de metadados. Para Tannenbaum et al.

(2002 apud Benacchio, 2008) o desenvolvimento de um repositório deve abordar três

aspectos em sua arquitetura:

• Base de Dados

• Metamodelos

• Software de Manipulação do Repositório

Uma das maiores contribuições do repositório é facilitar o reuso de metadados. Isto

diminui consideravelmente o esforço do usuário na publicação de metadados, uma vez que

permite a padronização nas descrições dos metadados. Por exemplo, caso o publicador

deseje atualizar e publicar os metadados de um dataset, já processado, todas as

informações serão recuperadas automaticamente. No caso do meta-atributo

data_modificacao, este já vem descrito com data atual de geração, restando ao publicador

apenas confirmar para atualizar e exportar os metadados.

Ao reusar os metadados é possível fazer atualização ou modificação de sua

descrição quantas vezes achar necessário. No entanto, antes de persistir as informações no

repositório, uma análise será feita na anotação, comparando seus atributos antes de

concluir o processo. Essa análise verifica se o nome do metadado que será alterado é

proveniente do mesmo dataset do qual faz reuso, se a condição for verdadeira a descrição

atual sobrepõe às informações anteriores, mas se a condição for negativa uma nova

inserção é feita no repositório com as novas descrições, associadas a outro dataset.

Uma vez que as anotações são processadas seguem para armazenamento no

repositório. O repositório é uma fonte única e padronizada de metadados comuns entre

órgão públicos e instituições do mesmo domínio, não é recomendável que o mesmo

metadado esteja associado a descrições variadas.

Implicitamente os metadados enriquecidos estarão associados a um registro com o

nome do dataset que o originou. Isso é fundamental para garantir a consistência dos

metadados no repositório e indexar estes metadados para permitir seu reuso.

Fonte: O Autor

Figura 3.5 Relacionamento dataset x metadados

A Figura 3.5(A) ilustra um exemplo de relacionamento entre metadados e datasets

associados, observe que cada metadado está relacionado a um ou mais datsets. Um

metadado enriquecido pode pertencer a mais de um dataset, como exemplo o metadado

MD1 que está ligado a três datasets diferentes. Neste caso existirá uma duplicação do

metadado, cada um com descrições distintas relativas ao seu domínio de aplicação. Eles

são agrupados por dataset, para que possam manter o registro dos metadados de mesmo

nome, associados ao seu dataset de origem, garantindo um histórico e proveniência das

informações. Esta vinculação evita problemas de perda das anotações já realizadas nos

casos de alteração ou remoção de um dataset. Além de facilitar o processo de reuso, uma

vez que os conjuntos de anotações semânticas estão organizados por domínio de aplicação

e dataset.

A Figura 3.5(B) ilustra o fato de que metadado MD1 está replicado em três

datasets diferentes DS1, DS2 E DS3, ou seja, uma instância de metadado para cada

dataset, isolando os registros de uma possível modificação ou alteração em um dataset

específico.

A Figura 3.6 apresenta o modelo lógico do repositório de metadados, e descreve os

dados que são armazenados no repositório de metadados, contendo as características

citadas nas seções anteriores. Os conjuntos de anotações semânticas ficam armazenados

na Tabela chamada metadado, e por meio dela se realiza a consulta sobre as descrições

existentes, para aplicação de reuso e apresentação ao usuário. Na Tabela

vocabularios_valor, estão contidos os termos de vocabulários pré existentes, conhecidos

como vocabulários de domínio que auxiliarão na descrição do atributo de sinônimo

sugerido ao usuário no momento da anotação. Na Tabela de dataset, estão as informações

de catalogação dos datasets que já foram processados.

É importante salientar que os conjuntos de anotações armazenadas no repositório

somente são geradas no formato XML no momento de geração dos metadados

enriquecidos para exportação e publicação.

Figura 3.6 Modelo lógico do repositório de metadados

Fonte: o Autor

A seção seguinte tem por objetivo expor um exemplo da transformação dos

metadados básicos para metadados enriquecidos, a fim de esclarecer a aplicação das

funcionalidades descritas neste capítulo.

3.5. Exemplo

Para ilustrar a importância do uso de metadados enriquecidos semanticamente,

considere o cenário onde uma determinada instituição governamental realiza um concurso

para criação de aplicações que consomem dados recentemente publicados no Portal de

Dados Abertos do Recife.

Para que os desenvolvedores tomem conhecimento do conteúdo disponível nos

conjuntos de dados, eles precisam, inicialmente, interpretar seus metadados (dicionários

de dados), para conhecer o conteúdo e o domínio de aplicação dos dados. Porém, é

comum não encontrar metadados para descrição dos datasets e, nos casos em que estão

disponíveis, seu formato não é estruturado, impossibilitando o processamento automático

dos dados.

No caso do Portal de Dados Abertos do Recife37

, os dados dizem respeito à

domínios diversos e estão distribuídos em vários conjuntos de dados. Um dos conjuntos,

denominado "Áreas de Riscos - REC" apresenta dados sobre as áreas de riscos de

desabamento do município do Recife.

Fonte: http://dados.recife.pe.gov.br/dataset/defesa-civil.

O quadro apresentado na Figura 3.6 ilustra o conjunto de metadados, atualmente

disponível no Portal de Dados Abertos do Recife, que descreve estes dados. Como

podemos observar, apenas o nome do metadado no atributo campo, juntamente com

informações sobre descrição, tipo e tamanho são disponibilizadas. Além disso, estas

informações estão disponíveis em formato pdf, o que dificulta consideravelmente o seu

reuso. Para ilustrar a abordagem proposta, considere a Tabela 3.2 que apresenta o

conjunto de metadados enriquecidos obtido após a aplicação do processo de

enriquecimento semântico nos metadados que descrevem o dataset "Áreas de Riscos -

Ao contrário do arquivo pdf, os metadados enriquecidos gerados de forma

semiautomática por meio de nossa abordagem, podem ser representados em formatos

estruturados e que podem ser processados por máquina, ampliando, dessa forma, as

possibilidades de uso e reuso dos metadados.

http://dados.recife.pe.gov.br/dataset/defesa-civil

Figura 3.7 Recorte de um dicionário de dados do Portal de Dados do Recife

Tabela 3.2 Metadados enriquecidos do dataset "Áreas de Riscos - REC"

Fonte: O Autor.

Além da apresentação e disponibilização dos metadados enriquecidos em XML,

também é possível simular como a abordagem sugerida trata os metadados enriquecidos

em outros formatos com possibilidades semânticas ainda maiores com o modelo RDF. A

Figura 3.7 apresenta um clássico exemplo da sintaxe RDF/XML, utilizando apenas dois

metadados do exemplo de metadados enriquecidos na Figura 3.2. As primeiras quatro

linhas correspondem aos namespaces, que no modelo apresentado anteriormente

equivalem ao link dos vocabulários utilizados pelas propriedades associadas aos

metadados. As linhas seguintes correspondem às triplas formadas pelas combinações entre

metadado (sujeito), predicado (propriedades) e objeto (valor).

Fonte: O Autor.

Figura 3.8 Trecho de código RDF/XML do metadado enriquecido.

O sujeito é a URL: http://repositorio.com.br/metadado, o predicado pode ser termo

dct:description e para fechar temos objeto que no exemplo equivale a descrição do

metadado: “ A Defesa Civil possui 6 Escritórios...”.

3.6. Comparação com trabalhos relacionados

No quadro apresentado pela Tabela 3.3 é descrito um breve comparativo entre os

trabalhos relacionados e a nossa abordagem. A intensão de nossa proposta é permitir um

enriquecimento que utilize os melhores recursos já existentes, como: vocabulários de

domínios, reutilização de metadados e descrições semânticas.

Nossa abordagem foi direcionada à oferecer características facilitadoras e

modernas para a ação de publicar e reusar metadados. Dessa forma, elencamos alguns

recursos encontrados nos demais trabalhos e os que foram implementados de forma

personalizada no nosso trabalho, dentre os recursos estão: ontologias e/ou vocabulários,

nível de automação, uso de repositório de metadados e prototipação com interface com o

usuário.

Na comparação com os demais trabalhos percebe-se o quão importante é o recurso

do Repositório de Metadados para o sucesso da abordagem proposta, uma vez que uma

das principais contribuições está no reuso de metadados e anotações semânticas já

processadas.

Fonte: O Autor

Este capítulo apresentou a abordagem proposta para o enriquecimento semântico

de metadados. Foram descritos os atributos que compõem a descrição do metadado

enriquecido, bem como a utilização da Anotação Semântica para descrever os metadados

enriquecidos juntamente com algumas contribuições propostas pela abordagem. Também

foi discutido o papel do repositório de metadados e sua importância. Além disso, foi

apresentado um exemplo que ilustra o processo de enriquecimento semântico, utilizando

um conjunto de metadados, disponível no Portal de Dados Abertos do Recife. Por fim,

uma breve análise comparativa entre esta abordagem e trabalhos relacionados. No

próximo capítulo, será apresentada a implementação do protótipo desenvolvido para

avaliação desta abordagem, bem como os resultados e testes realizados.

Tabela 3.3 Quadro comparativo entre trabalhos relacionados e abordagem sugerida

4. IMPLEMENTAÇÃO, EXPERIMENTOS E ANÁLISE DOS RESULTADOS

A maneira mais simples de se inserir anotações semânticas nos dados é adicioná-

las de forma manual ou com o apoio de ferramentas de anotação. Entretanto, esse método

não é aconselhável, por consumir um tempo considerável e permitir que o publicador ou

analista cometa erros durante o processo. Por esses motivos, existe a necessidade de se

implementar uma rotina de automação, mesmo que de forma parcial, para auxiliar o

processo de anotação. Adicionalmente, é interessante promover um nível de transparência

para o usuário abstraindo toda a complexidade das anotações na geração de metadados

enriquecidos.

A dissertação aqui descrita consiste em propor uma abordagem para geração de

anotações semânticas baseadas em vocabulários padrões pré-existentes, informações de

proveniência e sinônimos, associadas aos metadados. Este procedimento foi realizado

seguindo um modelo pré-definido, permitindo que as instâncias criadas a partir desse

modelo fossem semanticamente enriquecidas com a intervenção mínima do publicador.

Dessa forma, o intuito é oferecer uma colaboração semiautomática na geração dos

metadados enriquecidos.

Com o objetivo de avaliar a abordagem proposta, um protótipo, denominado Open

Metadata, foi implementado. Esta ferramenta permite ao usuário realizar anotações

semânticas sobre metadados básicos, originados de conjuntos de dados abertos, além de

armazenar estas informações para reuso posterior. Na Seção 4.1, apresentamos a

arquitetura proposta para o Open Metadata. Na Seção 4.2 tem-se uma breve descrição das

funcionalidades de cada módulo. Na Seção 4.3 descrevemos as tecnologias utilizadas na

implementação do protótipo. A Seção 4.4 descreve o objetivo e contexto onde os

experimentos foram realizados. Além disso, na Seção 4.5 apresentaremos a definição das

métricas de avaliação e descrição da norma utilizada que referencia este processo, bem

como uma explicação das formas de aplicação. Prosseguindo, teremos as discussões

relevantes sobre os resultados encontrados e as principais dificuldades na Seção 4.6. Por

fim, a Seção 4.7 apresenta as considerações finais deste capítulo.

4.1. Apresentação da Arquitetura

O trabalho propõe uma abordagem para auxiliar e suprir algumas limitações

observadas nos trabalhos anteriores, tendo como maior contribuição a geração de

metadados semanticamente enriquecidos baseados em padrões de vocabulários e

informações de proveniência. Assim, os primeiros passos foram dados em direção da

concretização deste objetivo. Uma arquitetura foi modelada com a finalidade de direcionar

os passos necessários na implementação de um protótipo que comtemplará as

funcionalidades previstas na abordagem proposta.

A Figura 4.1 mostra a arquitetura proposta utilizada como referência para o

desenvolvimento do protótipo para o enriquecimento semântico de metadados.

Fonte: O Autor.

Inicialmente a atividade de Carregamento e Extração dos Metadados recebe o

dataset no formato XML, mas isso apenas para efeito de testes, pois na concepção da

abordagem outros formatos são previstos como CSV e JSON. Nesta atividade o dataset é

identificado e processado para que sejam extraídos os metadados que serão enriquecidos.

O Enriquecedor Semântico recebe os metadados básicos, extraídos pela ação

anterior e, em seguida, solicita o apoio do Analisador de Similaridade, que consultará o

repositório de metadados. Caso algum metadado não tenha sido favorecido com a ação de

reuso seguirá para inserção das anotações semânticas adicionadas pelos usuários.

O Repositório de Metadados é responsável por armazenar o conjunto de

anotações semânticas associadas aos metadados enriquecidos e estarão disponíveis para

Figura 4.1 Arquitetura do Enriquecedor Semântico de Metadados – Open Metadata

serem resgatados, caso o processo necessite fazer reuso na atribuição das descrições aos

metadados básicos. Este recurso é indispensável para o sucesso da geração de metadados.

Já o componente do Repositório de Vocabulários é base específica indicada para

armazenar os vocabulários padrões, que servirão de suporte para alimentação do atributo

“sinônimo” usados para agregação de informação por anotação semântica.

A atividade de Seleção pode realizar duas ações: a primeira sugere ao publicador

opções de termos de vocabulários disponíveis no repositório de vocabulários, e a segunda

sugere reuso da descrição originalmente atribuída ao vocabulário padrão. Se o termo de

vocabulário for equivalente ao metadado processado, será associado no atributo de

sinônimo.

O Analisador de Similaridade foi implementado especialmente para esta

abordagem e corresponde a um trecho de código de programação utilizado para

comparação sintática de termos. Este módulo faz uma análise entre o nome do metadado

carregado e o os nomes de metadados armazenados no repositório, verificando se o

mesmo já foi processado, caso a condição seja positiva o processo de reuso dos registros é

acionado. Para cada processamento de um novo dataset, aumenta o grau de reuso, uma

vez que cada novo metadado descrito será mais um item enriquecido no repositório,

amplificando as chances de haver uma similaridade entre os termos.

4.2. Funcionalidades do Open Metadata

A Figura 4.2, apresenta um diagrama de Caso de Uso que ressalta as principais

funcionalidades da aplicação.

Anotar metadado: permite que o usuário insira, edite e remova anotações

semânticas aos metadados básicos. Essas anotações são representadas por

meta-atributos que descrevem explicitamente o metadado enriquecido;

Reusar metadados: Está vinculada a atividade de anotação, é uma ação

obrigatória, o protótipo recupera o conteúdo dos metadados já enriquecidos de

forma automática para agilizar e facilitar a execução da funcionalidade de

anotação. A recuperação do metadado já enriquecido se dá pela verificação de

similaridade entre o nome do metadado e o domínio ao qual ele está associado

no repositório. Cabe ao usuário aceitar a sugestão fornecida pela aplicação e

decidir se irá permanecer com os metadados recuperados ou não.

Figura 4.2 Diagrama de Caso de Uso do protótipo Open Metadata.

Fonte: O Autor.

Atualizar metadados: Da mesma forma que o publicador pode gerar e anotar

metadados, ele também pode fazer atualizações nas anotações semânticas e

metadados já processados. O processo de atualização leva em consideração o fato

de que os metadados são agrupados por dataset, dessa forma um metadado ou

descrição modificada não afeta uma outra instância de metadado, uma vez que são

geradas réplicas (uma réplica para cada dataset).

Exportar metadados: É a ação final em que o publicador gera os metadado

enriquecidos com as anotações semânticas para que possam publicar os arquivos

juntamente com os datasets em seus portais de Dados Abertos.

4.3. Tecnologias utilizadas na implementação do protótipo

O protótipo foi desenvolvido em Java com a tecnologia JSP para plataforma web.

O ambiente utilizado para o desenvolvimento da aplicação foi o Eclipse Java EE IDE for

Web Developers Release 4.3.2. Para o desenvolvimento do protótipo e testes e avaliação

foi usada uma máquina com processador Intel core i3, 3GB de memória RAM e Sistema

Operacional Windows 7 Ultimate. Além destas configurações de hardware e SO, foram

usados outros recursos e tecnologias descritos a seguir:

Extensible Markup Language38

(XML): Linguagem de marcação de texto

flexível, definida pela Norma ISO8879 e desenvolvida pelo W3C (BRAY et

al., 2004);

Java Servlets39

: Servlets é uma tecnologia Java similar à tecnologia Common

Gateway Interface (CGI). São códigos java que adcionam funcionalidades a

um servidor Web;

Web Server Apache Tomcat40

: Servidor Web baseado de uso livre e de

código aberto focado nas tecnologias Java Servlets e JSP (Java Server Pages);

Java Web Services41

: São aplicações cliente e servidor, as quais fornecem um

meio padrão de interoperabilidade entre aplicativos de software em uma

variedade de plataformas e frameworks. Além de possui grande

interoperabilidade e extensibilidade, devido ao uso de XML;

MySQL42

: É o Sistema de banco de dados de código aberto mais popular do

mundo. Com excelente velocidade, confiabilidade e facilidade de uso, o

MySQL se tornou a escolha preferida para a Web, Web 2.0, pois elimina os

principais problemas associados com o tempo de inatividade, manutenção e

administração para as modernas, aplicações online.

http://www.w3.org/XML/ 39

http://oracle.com 40

http://tomcat.apache.org/ 41

http://www.oracle.com/technetwork/java/Webservices-136604.html 42

http://www.mysql.com/about/

Para permitir uma melhor interação com o usuário, o protótipo Open Metadata

possui uma interface gráfica, que permite ao usuário realizar as atividades de anotação

semântica. Esta interface visa auxiliar o usuário quanto à utilização das principais funções

da ferramenta, fazendo uso intensivo de recursos pré-configurados.

Na tela inicial do Open Metadata, ilustrada na Figura 4.3, o usuário deve indicar o

dataset onde será aplicado o processo de enriquecimento semântico. Se este dataset ainda

não foi processado, será solicitado ao usário para adicionar informações de identificação

do dataset para catalogação. O protótipo está implementado para aceitar datasets nos

formatos XML/CSV, caso o usuário carregue outro formato a aplicação apresentará uma

mensagem acusando que o formato carregado não é o desejado.

Figura 4.3 Tela inicial do Open Metadata

Fonte: O Autor.

Na Figura 4.4 é possível observar a funcionalidade de anotação semântica, onde o

usuário preenche as lacunas com o valor correspondente para cada propriedade do

metadado, alguns campos são previamente peenchidos por reuso facilitando a atividade do

usuário. Após este procedimento o metadado enriquecido é gerado e apresentado em um

documento XML disponível para exportação e armazenamento, conforme apresentado na

Figura 4.5.

Figura 4.4 Tela de anotação semântica dos metadados.

Fonte: O Autor.

Na Figura 4.5 uma pré-visualização é apresentada para o usuário realizar uma

conferência das anotações realizadas antes de gerar em definitivo os metadados

enriquecidos. Caso contrário, ele pode voltar e corrigir algum valor, sem precisar refazer

tudo. É possível também fazer uma consulta no repositório para ver as anotações já

armazenadas pelo botão “Consultar Repositório”.

4.4. Objetivo e contexto de avaliação

O objetivo dos experimentos executados nesta seção é avaliar a abordagem

proposta, justificando seu desenvolvimento para facilitar a publicação e reuso de

metadados. Fazendo uso do protótipo projetado exclusivamente para atender esta

necessidade.

Figura 4.5 Tela de pré-visualização das anotações semânticas

Fonte: O Autor.

Para aplicação do protótipo e realização dos experimentos foi definido um cenário

de acordo com suposições de uso e atividades de um analista responsável pela publicação

de dados abertos. Salienta-se que a abordagem proposta, pode ser aplicada a metadados e

datasets provenientes de qualquer domínio de conhecimento, sem qualquer distinção. Para

a realização dos experimentos, alguns datasets foram coletados e tiveram seus metadados

enriquecidos com anotações semânticas. Os metadados utilizados no processo são reais e

válidos e podem ser coletados de qualquer Portal de Dados Abertos na Web.

Os experimentos realizados neste trabalho usaram datasets publicados pelo Portal

de Dados Abertos da Cidade do Recife43

. Selecionamos um dataset do grupo de saúde e

outro do grupo de urbanismo. Estes conjuntos de dados foram usados como estudo de caso

uma vez que seus metadados não estão publicados de forma adequada para o reuso e nem

processáveis por máquina.

A ideia é extrair destes volumes os metadados básicos e enriquecê-los. Uma cópia

destes datasets foi convertida em XML para que pudéssemos realizar os testes. Como os

http://dados.recife.pe.gov.br.

datasets estão em formato estruturado foi possível interpretar e processar as informações

para implementação e ter como saída os metadados enriquecidos no formato de

documento estruturado XML, sintaxe devidamente reconhecida como modelo apropriado

para disponibilização e interoperalização entre dados e metadados na Web.

4.5. Métricas de avaliação

As métricas para avaliação de software são necessárias para avaliar a qualidade e

produtividade do processo de desenvolvimento e manutenção de software, bem como do

produto final construído (ABRAN et al., 2003).

As métricas de software podem ser divididas em duas categorias: medidas diretas e

medidas indiretas. Podemos considerar como medidas diretas, na visão de engenharia de

software, o custo, a manutenção do software e do produto, a quantidade de linhas de

código produzidas e o total de defeitos registrados durante um determinado período de

tempo. Segundo Marco Aurélio, colunista da revista Bate Byte44

, a qualidade e a

funcionalidade do software ou a sua capacidade de manutenção são mais difíceis de serem

avaliadas e só devem ser medidas de forma indireta.

Como a avaliação para este trabalho tem a intenção de medir a eficácia da

abordagem proposta no processo de enriquecimento semântico de metadados, com a

utilização de um protótipo de forma semiautomática, decidiu-se empregar a categoria de

avaliação das medidas indiretas, avaliadas pela ação dos usuários que interagem com o

software.

4.5.1. Metodologia de Avaliação

A metodologia de avaliação para este trabalho foi concebida com base nas normas

ISO/IEC 25022, em conjunto com a norma ISO/IEC 25010. A norma 25010 é uma revisão

da norma ISO/IEC 9126-1:2001 e incorpora as mesmas características de qualidade de

software, com algumas alterações:

Segurança: foi adicionado como uma característica, em vez de uma

subcaracterística de funcionalidade.

Portabilidade foi dividida em transferência e compatibilidade (incluindo

interoperabilidade). 44

http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=88

Foram adicionadas as seguintes subcaracterísticas: robustez, utilidade,

acessibilidade técnica, modularidade, reusabilidade e portabilidade.

Qualidade foi dividida em usabilidade, flexibilidade e segurança.

Já a ISO/IEC 25022 substitui a antiga norma ISO/IEC 9126-4, que corresponde a

uma parte da série de padrões SQuaRE. A ISO/IEC 25022 representa exatamente as

características de usabilidade, flexibilidade e segurança.

Estas normas citadas descrevem modelos de qualidade do produto de software,

subdividida nas categorias:

a) qualidade interna e externa;

b) qualidade em uso;

c) qualidade dos dados.

Embora exista uma categoria voltada para avaliação da qualidade dos dados, ela

não se adequava a avaliação da abordagem proposta, uma vez que suas métricas avaliam

os dados de maneira geral e não dados ou metadados semânticos. Deste modo, o modelo

de Qualidade em Uso (Quality in use), foi o que mais se adequou porque visa avaliar as

funcionalidades do protótipo desenvolvido. Esta métrica considera como principal

avaliação a análise feita pelo usuário em um ambiente computadorizado específico de

acordo com seus atributos (ISO/IEC 25022, 2012).

Assim será avaliada a implementação da abordagem e suas funcionalidades, por

meio do protótipo desenvolvido que será usado para facilitar a atividade dos publicadores

na publicação e reuso de metadados para dados abertos.

As sub-características de Usabilidade podem ser agrupadas em quatro categorias:

Eficácia, Eficiência, Satisfação e Usabilidade em Conformidade, devidamente

apresentadas na Figura 4.6.

Eficácia (Effectiveness in use): É a capacidade do software de permitir que

usuários atinjam metas especificadas com acurácia (nível de exatidão) e

completude, em um contexto de uso especifico.

Eficiência (Efficiency in use): É a capacidade do software de permitir que

seus usuários empreguem quantidade apropriada de recursos em relação à

eficácia obtida. Na nossa abordagem os recursos relevantes para avaliação

foram: tempo para completar a tarefa e esforço do usuário.

Figura 4.6 Modelo de qualidade para a métrica qualidade em uso.

Fonte: ISO/IEC 25022:2012 - (SQuaRE).

Satisfação (Satisfation in use): Capacidade do software de satisfazer as

necessidades dos usuários, em um contexto específico. A satisfação é a

resposta do usuário à interação com o produto e inclui atitudes relacionadas ao

uso do produto.

Usabilidade em conformidade (Usability in use compliance): Avaliar o grau

em que um produto ou sistema reduz o risco potencial com relação à situação

econômica, a vida humana, a saúde e ao meio ambiente.

Neste estudo não foram previstas medições com relação à característica de

Usabilidade em conformidade, uma vez que a implementação não considerou em seu

escopo o grau de risco ou ameaça.

4.5.2. Estabelecendo os requisitos de avaliação

Após a definição das características que serão consideradas na Tabela 4.1, um

conjunto de métricas relevantes ao sistema a ser avaliado foi definido de acordo com a

norma ISO/IEC 25010.

Tabela 4.1 Quadro de métricas definidas na avaliação

Características Métricas

1. Eficácia Percentual de tarefa concluída

Grau de Eficácia da tarefa

2. Eficiência Desempenho na realização da tarefa

Eficiência da tarefa

3. Satisfação Nível de Satisfação

Nível de Confiança

Nível de Facilidade de uso

Nível de Utilidade

Fonte: O Autor.

De acordo com as definições elencadas na Tabela 4.1, descrevemos a seguir

algumas características para esclarecer e facilitar o entendimento de como cada métrica

será aplicada no processo de avaliação e execução das tarefas.

Eficácia

Percentual de tarefa concluída: mensura a proporção das tarefas que

foram concluídas corretamente;

Grau de Eficácia da tarefa: mede a proporção das tarefas finalizadas

corretamente.

Eficiência

Desempenho na realização da tarefa: mede o desempenho em relação

ao tempo para se completar uma tarefa;

Eficiência da tarefa: mensura quão eficiente foram os usuários.

Satisfação

Nível de Satisfação: mede o nível de satisfação do usuário com relação à

interação com o protótipo;

Nível de Confiança: mede o nível confiança que o protótipo transmite

aos usuários, com relação às funcionalidades do software;

Nível de Facilidade de uso: mede o nível de usabilidade do software, ou

seja, se o protótipo é intuitivo e de fácil manipulação.

Nível de Utilidade: mede o nível de importância do software para auxílio

nas atividades de geração de metadados.

Tabela 4.2 Métricas para avaliação da característica Eficácia.

MÉTRICA DE EFICÁCIA

NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME45

METODO Percentual de

tarefa concluída

E1 Qual a proporção das tarefas que foram

concluídas corretamente?

X= A/B, onde A = número de tarefas concluídas e B = número total de tentativas para concluir a tarefa.

Medição da ação do usuário

Grau de Eficácia da tarefa

E2 Qual o grau dos objetivos alcançados corretamente

de cada tarefa?

X = 1 - ∑ Ai| X>0, Onde Ai = valor proporcional de cada erro na saída

da tarefa.

Segundo a norma ISSO/IEC 25022, o valor de Ai representa as deduções

ocasionadas por erros ou falha de execução na tarefa, ou seja, será atribuído um percentual

por cada tipo de ocorrência, e este percentual será deduzido de 100% ao se aplicar a

função de medição.

Tabela 4.3 Métricas para avaliação da característica Eficiência.

MÉTRICA DE EFICIÊNCIA

NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME METODO Desempenho na

realização da

tarefa

F1 Qual o tempo gasto para completar uma

tarefa?

X= T, onde T= tempo computado de concluir cada tarefa.

Eficiência da tarefa

F2 Quão eficientes foram os usuários em uma

dada tarefa?

X= (Tt – Ta)/Tt, onde Tt = Tempo máximo para se concluir a tarefa e Ta= tempo gasto para realização

da tarefa.

QME - Quality Measure Element

Estando as métricas definidas e apresentadas, com base na norma ISO/IEC 25022,

foram criadas as fórmulas de avaliação do software (protótipo), conforme podem ser

visualizadas nas Tabelas 4.2, 4.3 e 4.4. A princípio, para efeito de cálculo das formulas,

todas as medidas de qualidade empregam a função de medição que normaliza os valores

entre 0,0 e 1,0 considerando como valor ideal o que estiver mais próximo de 1.

Tabela 4.4 Métricas para avaliação da característica Satisfação.

MÉTRICA DE SATISFAÇÃO

NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME METODO Nível de Satisfação S1 Qual o nível de

satisfação do usuário?

Escala do tipo Likert

46 de 7 pontos,

onde 1 = pior classificação e 7 = melhor classificação.

Questionário

Nível de confiança S2 O usuário confia no sistema?

Questionário

Nível de Facilidade de uso

S3 O sistema é de fácil usabilidade?

Questionário

Nível de utilidade S4 Qual o nível de utilidade do sistema?

Questionário

Estas tabelas ajudam a entender melhor o processo de avaliação, bem como

oferecem um guia para a análise dos resultados. Dessa forma, é possível obter uma

medida que avalie a importância e a contribuição da abordagem proposta e da ferramenta

desenvolvida.

4.5.3. Descrição do grupo de avaliadores participantes

A coleta dos dados foi realizada através de formulários e questionários

desenvolvidos de acordo com as funcionalidades do protótipo. Os experimentos foram

direcionados à dois grupos de usuários. O primeiro grupo com perfil de estudante,

composto por alunos de Pós-Graduação do Centro de Informática da UFPE, considerados

usuários leigos no tema dados abertos e metadados, porém, com considerável

conhecimento em Banco de Dados. Já o segundo grupo foi composto por usuários

chamados profissionais com conhecimento prévio sobre metadados e Dados Abertos.

http://thefutureplace.typepad.com/the_future_place/2010/09/the-likert-scale-tarsk-14-things-all-researchers-should-know.html

Estes avaliadores são funcionários da Emprel47

- Empresa Municipal de Informática,

responsável pela manutenção e publicação dos dados abertos do Portal de Dados do

Recife.

Como o processo de avaliação tem perfil prático e operacional, a norma ISO/IEC

25022 não cita um número mínimo nem máximo para definição do grupo de avaliação e

entrevistados. Por sugestão e exemplos segundo alguns trabalhos, como Brown et al.

(1999) e Nnielsen et al. (1993), foram definidos dois grupos de participantes avaliadores,

totalizando seis usuários selecionados. Estes grupos foram divididos da seguinte forma:

três usuários leigos e três especialistas na área de Dados Abertos. Algumas informações

dos participantes estão descritas na Tabela 4.5. Todos realizaram as mesmas tarefas de

caráter prático seguindo os mesmos critérios de ação e tempo para execução, sem

qualquer distinção.

A avaliação ocorreu “in loco”, tanto para o primeiro grupo, quanto para o segundo

grupo. Com duração média de cinquenta minutos para cada grupo. A elaboração dos

documentos de apoio à avaliação considerou apenas as funcionalidades do sistema que o

usuário tem acesso. Os formulários e questionários elaborados para esta etapa encontram-

se nos Apêndices A e B deste trabalho.

Os participantes com ID do 1 ao 3 correspondem ao grupo de leigos em Dados

Abertos e são alunos de Mestrado do CIn. A partir do ID 4 ao ID 6, está o grupo dos

profissionais de Dados Abertos com experiência média de 1 ano e 4 meses na área de

Dados Abertos.

Tabela 4.5 Atributos dos participantes no processo de avaliação

ID PERFIL TEMPO DE ATIVIDADE INSTITUIÇÃO 1 Estudante - Cin/UFPE

2 Estudante - Cin/UFPE

3 Estudante - Cin/UFPE

4 Profissional 1 ano e 4 meses EMPREL

Fonte: O Autor.

http://www.emprel.gov.br

4.5.4. Descrição das tarefas e cenários para teste

As tarefas executadas pelos usuários foram elaboradas a partir das principais

funções oferecidas pelo sistema e identificadas por:

Tarefa 1: Anotar metadados;

Tarefa 2: Reusar metadados;

Tarefa 3: Atualizar metadados.

As funcionalidades de Carregar e Exportar metadados, observadas no diagrama

Use Case, não foram avaliadas de maneira formal, tendo em vista que elas são atividades

que estão embutidas no processo de enriquecimento como um todo.

Através do um esquema de pontuação para o cálculo dos objetivos alcançados é

possível interpretar as informações atribuídas pelos avaliadores. Para cada tarefa foram

respeitadas as regras de esquema a seguir:

O tempo de cada tarefa realizada utilizando o protótipo foi computado;

Cada tarefa teve um tempo máximo para conclusão de 20min;

Para cada tarefa concluída com sucesso foi atribuído um valor de 100%.

Para cada ocorrência de erro ou falha do sistema, serão deduzidos 20% do

valor de eficácia.

Baseado no modelo sugestivo de exemplo, disponível no documento da Norma

ISO/IEC 25022, (2012), consideram-se erros: i) as ocorrências onde o usuário não

conseguir anotar todas as descrições para os atributos ou ii) se estas descrições não

estiverem coerentes com o metadado anotado e iii) para as falhas de execução, considera-

se qualquer inoperância apresentada pelo sistema, problemas que impeçam o trabalho do

usuário. É importante observar que as deduções somadas que igualem ou ultrapassem

100% serão informadas com 0% de realização do objetivo, ou seja, nível de eficácia

zerado.

Para auxiliar no processo de experimentação, foram utilizados três conjuntos de

dados, dois coletados diretamente do Portal de Dados do Recife e um genérico criado

especialmente para o teste. Selecionamos um dataset do grupo de saúde chamado

“hospitais.xml” e outro do grupo de urbanismo chamado “areasriscoregiaosul2.xml”, a

única relação entre eles são alguns metadados. O terceiro dataset se chama “new.xml”

criado exclusivamente para os experimentos.

Tarefa 1: Anotar metadados

Descrição: O analista carrega um dataset inédito, ou seja, que ainda não foi

processado pelo Open Metadata, e realiza as anotações semânticas nos metadados, neste

caso sem reuso de metadados. Após isto os metadados enriquecidos serão salvos no

repositório e, concorrentemente, acontece a geração do metadado enriquecido

disponibilizado em um documento XML para exportação.

Exemplo: O usuário carrega um dataset chamado “hospitais.xml”, dele são

extraídos alguns metadados como: código, endereço e bairro. Estes metadados receberão

novos metadados para sua descrição, tais como “descricao”, “tipo”, “sinonimo”,

“atribuido_por” e “data_publicacao”. Cada metadado receberá um valor e todo o

conjunto de anotações será persistido no repositório de metadados e gerado um arquivo

XML com os metadados anotados.

Tarefa 2: Reusar metadados

Descrição: O analista carrega um dataset que ainda não passou pelo processo de

enriquecimento. Se este dataset possuir metadados que têm equivalência com metadados

que já foram enriquecidos anteriormente, o protótipo irá sugerir ao usuário que tem o

poder de definir se aceita ou não. No entanto o reuso só será realizado se os nomes dos

metadados forem similares e do mesmo domínio.

Exemplo: O analista carrega um novo dataset agora chamado de “escolas.xml”.

Deste dataset são extraídos alguns metadados, como: regional, endereço e telefone.

Observe que o metadado endereço é equivalente ao metadado apresentado no dataset

anterior, poderia ser logradouro e, neste caso, passaria como similaridade. Além disso, é

necessário que o domínio seja o mesmo para que a descrição seja a mais coerente

possível. Neste caso, o Open Metadata recupera os valores do metadado endereço que já

foi processado e oferece como sugestão ao analista.

Tarefa 3: Atualizar metadados

Descrição: O analista pode alterar e atualizar metadados à vontade, no entanto o

protótipo realiza uma verificação e compara se as informações de dataset e metadados são

iguais a do dataset que originou os metadados. Se a condição for positiva ele substitui as

descrições, caso contrário ele duplica o metadado criando uma nova informação associada

ao dataset correspondente. Este processo é necessário para manter o histórico e

consistência das descrições.

Exemplo: Neste exemplo o analista carrega um dataset que já foi processado,

“hospitais.xml” ou “escolas.xml” ou um terceiro dataset que possua metadados já

enriquecidos. Ao iniciar o carregamento, os metadados serão recuperados, de acordo com

as combinações de nome e domínio. Depois disso o usuário poderá seguir com as

alterações, inserindo as anotações que desejar. É importante informar que se o dataset for

o mesmo que originou os metadados recuperados, então estas alterações irão substituir as

antigas no repositório de metadados.

Fonte: O Autor

Figura 4.7 Trecho dos metadados semanticamente enriquecidos na sintaxe XML

Como resultado dos testes, os publicadores geravam os metadados enriquecidos

em formato XML, representando todas as descrições geradas nos testes e o processo de

anotação semântica e reuso de metadados previstos no enriquecimento semântico. Na

Figura 4.7 é possível visualizar um exemplo dos metadados enriquecidos em XML,

produzido pelo protótipo Open Metadata na etapa de avaliação.

A ideia é que os publicadores passem a publicar estes metadados juntamente com

os seus datasets, uma vez que estes metadados são mais ricos, comparados aos metadados

normalmente disponibilizados originalmente. Quando o publicador disponibilizar seus

datasets, eles poderão de forma semiautomática gerar os metadados correspondentes a

este dataset, e publicá-lo no portal de dados abertos, tendo em vista que muitas vezes os

publicadores não disponibilizam os metadados por ser considerada uma atividade que

demande tempo ou mesmo conhecimento técnico.

4.6. Compilação dos dados e análise dos resultados

Uma vez que as tarefas foram aplicadas no processo de experimentação, avaliou-se

o grau de Eficácia e Eficiência do protótipo para publicação e reuso de metadados

enriquecidos semanticamente, de acordo com a norma ISO/IEC 25022. Também levou-se

em consideração o nível de satisfação dos usuários com relação ao protótipo e suas

funcionalidades.

As Tabelas de 4.6 a 4.13 mostram os resultados coletados para as atividades

realizadas com relação às sub-características de Eficácia e Eficiência. Na Tabela 4.14 são

apresentados os resultados para a sub-característica de Satisfação.

Na tarefa de Anotar metadados semanticamente, os dois grupos de participantes da

avaliação conseguiram concluir a tarefa com apenas uma tentativa, esta tarefa foi a

atividade de maior esforço para os participantes com um tempo médio de 8 minutos e 10

segundos para realização da tarefa, totalizando uma proporção média de desempenho de

60%, com relação ao tempo máximo previsto para conclusão da tarefa.

Tabela 4.6 Coleta de dados do grupo de estudantes para a tarefa 1.

Grupo 01 - RESULTADO TAREFA 1: Anotar metadados

ID PARTICIPANTE TAREFAS REALIZADAS

(%) X= A/B

EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai

TEMPO DE REALIZAÇÃO DA

TAREFA, X= T (min)

EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt

1 100 80 7.48 63

2 100 80 7.47 63

3 100 60 8.46 57

MÉDIA 100 73 7.80 61

MIN 100 60 7.47 57

MÁX 100 80 8.46 63

Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).

Os participantes leigos, representados na Tabela 4.6, encontraram mais

dificuldades na associação de descrição aos metadados, principalmente por não conhecer

o conteúdo dos datasets. Assim verifica-se o nível de eficácia mais baixo, na execução do

experimento de Anotar metadados com o uso do protótipo. De forma contrária aos

usuários leigos, os profissionais de dados abertos obtiveram melhor média de eficácia

nessa atividade, apresentados na Tabela 6.7. Esse fato é justificado pela experiência

prévia com os datasets e preciosismo em preencher todas as descrições para os

metadados, objetivando apresentar uma informação mais coerente.

Tabela 4.7 Coleta de dados do grupo de profissionais para a tarefa 1.

Grupo 02 - RESULTADO TAREFA 1: Anotar metadados

(%) X= A/B

TAREFA, X= T (min)

4 100 100 6.57 67

5 100 80 9.37 53

6 100 100 9.27 53

MÉDIA 100 93 8.40 58

MIN 100 80 6.57 53

MÁX 100 100 9.37 67

Grupo 01 - RESULTADO TAREFA 2: Reusar metadados

(%) X= A/B

TAREFA, X= T (min)

1 100 100 3.29 83

2 100 100 2.27 88

3 100 100 4.54 77

MÉDIA 100 100 3.36 83

MIN 100 100 2.27 77

MÁX 100 100 4.54 88

Na tarefa 2, tanto o Grupo 1 e Grupo 2, atingiram uma Eficácia de 100% e

Eficiência média de 83%. Essa eficiência diz respeito a conclusão da tarefa em relação ao

tempo de conclusão. Um resultado excelente, neste cenário alguns metadados de mesmo

domínio podem ser reutilizados, uma vez que estão persistidos no repositório de

metadados. Com isso a eficácia e a eficiência atingem altos índices. Assim a ação é

otimizada, atingindo o propósito de facilitar e acelerar o reuso dos metadados.

Grupo 02 - RESULTADO TAREFA 2: Reusar metadados

(%) X= A/B

TAREFA, X= T (min)

4 100 100 3.03 84

5 100 100 2.55 87

6 100 100 6.49 67

MÉDIA 100 100 4.02 79

MIN 100 100 2.55 67

MÁX 100 100 6.49 87

Para a Tarefa 3, os participantes puderam reprocessar um dataset e atualizar seus

metadados, caso estivessem persistidos no repositório. Mais uma vez, todos completaram

a tarefa e, como era esperado, o grupo de profissionais, correspondentes aos participantes

do Grupo 2, atingiram uma Eficiência mais próximo dos 100%, situação ideal.

Grupo 01 - RESULTADO TAREFA 3: Atualizar metadados

(%) X= A/B

TAREFA, X= T (min)

1 100 100 4.52 77

2 100 100 4.38 78

3 100 100 5.07 74

MÉDIA 100 100 5.05 76

MIN 100 100 4.38 74

MÁX 100 100 5.07 78

Na Tabela 4.10 estão apresentados os valores coletados do Grupo 1, a média de

tempo para realização desta tarefa é de 5 minutos e 5 segundos. Este valor é quase o

dobro da média do Grupo 2.

Grupo 02 - RESULTADO TAREFA 3: Atualizar metadados

(%) X= A/B

TAREFA, X= T (min)

4 100 80 3.04 84

5 100 100 2.19 89

6 100 80 2.08 90

MÉDIA 100 87 2.43 88

MIN 100 80 2.08 84

MÁX 100 100 3.04 90

Nas Tabelas 4.12 e 4.13 são apresentados um resumo das médias de cada

participante por grupo, sobre a execução das três atividades. Apesar dos testes serem

realizados por dois grupos bem distintos, os resultados foram bem próximos com uma

leve vantagem para o grupo de profissionais. No entanto a finalidade deste trabalho não é

gerar um ranking de desempenho dos participantes, mas sim avaliar o protótipo como

ferramenta de colaboração para a atividade dos usuários na publicação e reuso de

metadados. Os valores dos experimentos mostram que o protótipo é didático na interação

com usuários leigos e usuários com conhecimento avançado em dados abertos.

Tabela 4.12 Resultado da análise combinada das tarefas referente ao Grupo 01.

Grupo 01 - RESULTADO COMBINADO DE DESEMPENHO

(%) X= A/B

TAREFA, X= T (min)

1 100 93 5.36 74

2 100 93 5.10 76

3 100 86 6.02 69

MÉDIA 100 90 5.49 73

MIN 100 86 2.27 57

MÁX 100 93 8.46 88

Tabela 4.13 Resultado da análise combinada das tarefas referente ao Grupo 02.

Grupo 02 - RESULTADO COMBINADO DE DESEMPENHO

(%) X= A/B

TAREFA, X= T (min)

4 100 93 4.21 78

5 100 93 5.10 76

6 100 93 6.34 70

MÉDIA 100 93 5.21 75

MIN 100 93 2.08 53

MÁX 100 93 9,37 90

O gráfico apresentado na Figura 4.8 ajuda na interpretação dos dados das Tabelas

4.12 e 4.13. Este gráfico ilustra os valores alcançados por cada participante com relação

aos experimentos realizados. Neste gráfico, visualiza-se que todos os usuários

conseguiram realizar as tarefas com sucesso atingindo 100% e que o nível de eficiência

foi acima dos 70% de todos os participantes.

Figura 4.8 Desempenho dos usuários

Fonte: o Autor

4.6.1. Resultado de Satisfação

A avaliação dos resultados de satisfação segue o caráter subjetivo. Estes dados

subjetivos são classificações baseadas em escalas do tipo Likert bipolar de 7 pontos, onde

1 = pior classificação e 7 = melhor classificação nas diferentes dimensões indicadas na

Tabela 4.10.

Tabela 4.14 Resultados coletados de satisfação do software

RESULTADO DE SATISFAÇÃO ID

PARTICIPANTE SATISFAÇÃO CONFIANÇA FACILIDADE DE USO UTILIDADE

1 7 6 5 7

2 7 7 6 7

3 6 5 6 7

4 5 6 6 6

5 6 7 5 6

6 4 4 4 4

MIN 4 4 4 4

MÁX 7 7 6 7

1900ral 1900ral 1900ral 1900ral 1900ral 1900ral 1900ral

Gráfico para medir o desempenho dos usuários

EFICIÊNCIA DA TAREFA (%)

EFICÁCIA DA TAREFA (%)

TAREFAS REALIZADAS (%)

De acordo com os resultados obtidos, considera-se que a avaliação dos

participantes foi positiva correspondendo às expectativas. O nível de satisfação

apresentado foi bem elevado, com relação ao uso do protótipo, 66% dos participantes

classificaram o Open Metadata com os níveis máximos. Os níveis de confiança foram

equivalentes aos níveis de satisfação. Essa avaliação corrobora para uma análise

satisfatória, uma vez que uma aplicação confiável diminui as possibilidades de falhas no

processo. No entanto os níveis de Facilidade de Uso não atingiram uma classificação

máxima. Apesar de termos um maior número de usuários que classificaram a usabilidade

como nível 6, numa escala de 1 a 7. Dentre todas as avaliações a característica de

Utilidade foi a que obteve a melhor classificação, com um total de 83% dos participantes

declarando níveis máximos entre 6 e nível 7.

Neste capítulo, foi apresentado o protótipo Open Metadata que implementa a

abordagem proposta, sua arquitetura e as principais funcionalidades, bem como os

experimentos realizados e os resultados obtidos.

Os experimentos avaliaram se o protótipo de fato apresenta as características

necessárias para gerar metadados enriquecidos com praticidade e reutilização de

metadados, conforme os requisitos estabelecidos nesta abordagem. Estes experimentos

realizados foram satisfatórios, uma vez que os objetivos de anotar metadados e reusar

metadados foram alcançados conforme observados na compilação dos resultados obtidos.

Os resultados obtidos corroboram para a conclusão de que o objetivo previsto de

auxiliar o publicador foi atingido e que o protótipo tem relevância com a proposta desta

abordagem. Desta forma, conclui-se que a abordagem, refletida na criação do protótipo,

auxilia na geração de metadados enriquecidos, facilitando a publicação dos metadados e

promovendo o reuso destes.

5. CONCLUSÃO

Neste trabalho, foi apresentada uma alternativa de solução para um problema

muito comum quando dados são publicados em formato aberto: a dificuldade na

publicação de metadados para descrição dos dados abertos. Como consequência dessa

dificuldade, muitas vezes os metadados estão ausentes ou estão disponíveis em formatos

que dificultam seu processamento e reutilização de forma automática. A solução proposta

faz uso de anotações semânticas, com a utilização de vocabulários pré-existentes,

informações de proveniência e atribuição de sinônimos, a fim de facilitar a publicação e

reuso de metadados.

A abordagem proposta tem como principais contribuições possibilitar a geração de

uma estrutura adequada de atributos que melhor descreva os metadados para dados

abertos e auxiliar o publicador na geração de metadados semanticamente enriquecidos.

Para avaliação da abordagem proposta, foi implementado um protótipo capaz de

realizar ações semiautomáticas auxiliando o publicador a gerar e manipular os metadados,

transformando-os em metadados adequados para consumo com formato estruturado.

Outra contribuição é a criação de um Repositório de Metadados com perfil

colaborativo e para uso compartilhado, ou seja, instituições públicas de domínios diversos

podem colaborar com o intuito de criar descrições metadados de maior qualidade, uma

vez que será possível aperfeiçoar descrições já existentes, bem como identificar erros em

descrições previamente informadas. Este compartilhamento contribui para a manutenção

dos metadados e sugere uma base única de metadados, podendo ser utilizado pelos grupos

participantes como uma opção de criação de vocabulários comuns para domínio

específico.

Durante o desenvolvimento deste trabalho, algumas dúvidas e questionamentos

surgiram, entre eles (i) Quais os atributos deveriam compor a estrutura do metadado

enriquecido? (ii) Quais propriedades seriam adotadas para completar o significado dos

metadados? (iii) O repositório de metadados é de uso compartilhado e colaborativo? E

(iv) A abordagem prevê o uso de múltiplos vocabulários? Contudo estas dúvidas foram

superadas e as soluções projetadas para a abordagem foram implementadas no protótipo

de maneira adequada e satisfatória.

Algumas limitações foram encontradas ao longo do desenvolvimento desta

pesquisa, uma delas foi a necessidade de medir a qualidade e a aplicabilidade dos

metadados enriquecidos sugeridos pela abordagem e gerados pelo protótipo Open

Metadata, bem como a implementação de outras funcionalidades previstas.

Para a avaliação da abordagem proposta, foram realizados experimentos que

comprovassem a eficácia e eficiência das funcionalidades previstas, com a utilização do

protótipo, simulando a atividade dos publicadores. As métricas utilizadas para avaliação

estão baseadas na norma ISO/IEC 25022, específica para medir a usabilidade de software

sob a perspectiva do usuário, chamada Quality in Use.

Ainda não foi avaliado o grau de reuso em um ambiente genérico com

processamento aleatório de datasets. No entanto, é sabido que independente da quantidade

de metadados apresentados no dataset, todos serão comparados e analisados, a fim de

encontrar similaridade. A proporção de reuso vai depender das combinações existentes no

repositório, quanto maior for o número de termos armazenados maior será a probabilidade

de reuso.

Como resultado final, considera-se que a abordagem para Enriquecimento

Semântico de Metadados está de acordo com a proposta sugerida neste trabalho, quanto ao

objetivo de auxiliar o publicador de Dados Abertos. Os resultados mostram que a meta foi

atingida, na medida em que a geração de metadados enriquecidos foi realizada

corretamente e de forma simplificada pelo o usuário.

A partir da abordagem proposta e com o auxílio do protótipo, os metadados são

gerados com informações mais valorizadas e no formato mais apropriado. Assim podem

ser facilmente consumidos e processados por máquina.

Vale ressaltar que na proposta inicial desta abordagem foram previstos outros

recursos para implementação, os quais poderão ser desenvolvidos por trabalhos futuros.

Dentre as contribuições desejáveis, destaca-se o carregamento e extração de metadados a

partir de outros formatos de dados, como JSON. Também destaca-se a possibilidade de

extração de informações referentes a estrutura e descrição dos metadados, diretamente de

bases do CKAN48

relacionados aos Portais de Dados Abertos que utilizam este catálogo

de dados..

Além disso, existem outras direções que podem ser exploradas possibilitando

novos temas de mestrado futuro, como: (i) Uma avaliação sobre o grau de reuso dos

metadados baseados na similaridade semântica e estrutural, que teria como finalidade

avaliar o quanto é eficiente o reuso para facilitar e padronizar o processo de

http://docs.ckan.org/en/ckan-2.2/api.html

enriquecimento de metadados e datasets em formato aberto, (ii) Implementação de API

para manipulação de datasets em formato aberto, para extração e reutilização de

metadados e descrição semântica. Por fim, (iii) Uma abordagem para explorar a

capacidade de reuso dos metadados, por meio de repositórios de metadados em RDF.

6. REFERÊNCIAS

ABRAN, A. et al. “COSMIC-FFP – Measurement Manual: The COSMIC

Implementation Guide for ISO/IEC 19761:2003", Version 2,2. Montreal, Canadá, 2003.

ALVES, L. G. P. et al. Análise comparativa de metadados em TV digital. In: Anais do

Simpósio Brasileiro de Redes de Computadores. 2006. p. 87-98.

AMERICAN NATIONAL STANDARDS INSTITUTE. Guidelines for the

Construction, format and management of monolingual thesauri. Bethesda, USA:

American National Standards Institute, 2003. (ANSI Z39.19-2003). Disponível em

<http://www.niso.org/standards/index.html>. Acesso em: 14 set. 2014.

ARANTES, L. O. Documentação Semântica no Apoio à Integração de Dados e

Rastreabilidade. 2010. 169 f. Dissertação de mestrado na Universidade Federal do

Espírito Santo, 2010.

AUER, S. R.; BIZER, C.; KOBILAROV, G.; LEHMANN, J. CYGANIAK, R.; IVES, Z.

"DBpedia: A Nucleus for a Web of Open Data". In: 6th International Semantic Web

Conference, 2nd Asian Semantic Web Conference, ISWC 2007 + ASWC 2007, Busan,

Korea, 2007.

BENACCHIO, A. E VAZ, M. S. M. G. Metapadrão - Descrição e Integração de

Padrões de Metadados, RUTI- Revista Unieuro de Tecnologia da Informação, Brasília-

DF, p. 35-40, Maio 2008. ISSN 1984-7211. Disponível em:

<http://www.unieuro.edu.br/sitenovo/revistas/revista_ruti.asp>. Acesso em: 10 out. 2014.

BRASIL. PLANALTO DA PRESIDÊNCIA DA REPÚBLICA. LEI Nº 12.527 - Lei de

Acesso a Informação, 2011. Disponível em:

<http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.html/>. Acesso

em: 18 set. 2013.

BRAY T., PAOLI J., SPERBERG-MCQUEEN C. M. MALER E., YERGEAU F.,

Extensible Markup Language (XML) 1.0 (Third Edition), W3C Recommendation 04

February 2004. Disponível em: <http://www.w3.org/TR/2004/REC-xml-20040204>.

Acesso em: 13 jun. de 2014.

BREITMAN, K.K.: Web Semântica: a internet do futuro, Rio de janeiro: LTC, 2010.

BROWN, A., DAVIDSON, C. Common Industry Format for Usability Test Report

v1.1 DiaryMate v1.1. Supersoft Company. Cupertino, 1999. Disponível em:

<http://zing.ncsl.nist.gov/iusr/documents/diarymate_v34.htm>. Acesso em: 29 set. 2014.

BRUGMAN, H. et al. The documentalist support system: a web-services based tool

for semantic annotation and browsing. In: Semantic Web Challenge track of the

International Semantic Web Conference, 2008.

BUNEMAN, P. et al. Why and where: A characterization of data provenance. In: 8th

International Conference London, UK, 2001. p. 316-330.

CARDINAELS, K., MEIRE, M., DUVAL, E. Automating Metadata Generation:

the Simple Indexing Interface. In: Proceedings of the 14th international conference

on World Wide Web, 2005, p. 548-556.

CHRIS C. et al. A resource list management tool for undergraduate students based on

linked open data principles. In: The Semantic Web: Research and Applications. Springer

Berlin Heidelberg, 2009. p. 697-707. Disponível em:

<http://link.springer.com/chapter/10.1007/978-3-642-02121-3_51>. Acesso em: 16 mai.

COSTA, I. N., ANDRADE, L. E. S., RESENDE, L., PEPE T., COSTA, M., SANTOS, Z.

Manual da Lei de Acesso à Informação para Estados e Municípios, 1ª edição, Brasília

2013. Disponível em:

<http://www.cgu.gov.br/publicacoes/BrasilTransparente/Manual_LAI_EstadosMunicipios

.pdf>. Acesso em: 16 ago. 2014.

DAVIS, I., STEINER, T. RDF 1.1 JSON Serialisation (RDF/JSON), 2012. Disponível

em: <https://dvcs.w3.org/hg/rdf/raw-file/default/rdf-json/index.html>. Acesso em: 18 jul.

DECKER S., SINTEK M., TRIPLE - A query, inference, and transformation

language for the semantic web. In: First International Semantic Web Conference

Sardinia, Italy, 2002. p. 364-378.

DIETRICH, D., GRAY, J., MCNAMARA, T., POIKOLA, A., TAIT J., POLLOCK, R.,

ZIJLSTRA, T. Open Data Handbook Documentation Release 1.0.0, Open Knowledge

Foundation 2012. Disponível em: <http://opendatahandbook.org/>. Acesso em: 21 out.

DUBLIN CORE METADATA INITIATIVE (DCMI) - Dublin Core Metadata Element

Set, Versão 1.1. Disponível em: <http://dublincore.org/documents/dces/>. Acesso em: 19

mai. 2014.

FONTES, C. A. Explorando Inferência em um Sistema de Anotação, Dissertação de

Mestrado - Instituto Militar de Engenharia - Rio de Janeiro, 2011.

FRAGKOU, P. et al. BOEMIE- Ontology-Based Text Annotation Tool. In:

International Conference on Language Resources and Evaluation - LREC. 2008.

Disponível em: <http://www.lrec-conf.org/proceedings/lrec2008/pdf/324_paper.pdf>.

Acesso em: 04 ago. 2014.

GIL, Y., CHENEY, J., GROTH, P., et al. Provenance XG Final Report, W3C Incubator

Group Report, 2010. Disponível em: <http://www.w3.org/2005/Incubator/prov/XGR-

prov-20101214>. Acesso em: 19 mai. 2014.

GROTH, P., MILES, S. M., A Model of Process Documentation to Determine

Provenance in Mash-ups. Transactions on Internet Technology TOIT, 2009, p. 1-31.

GRUBER, T. R. A translation approach to portable ontology

specifications. Knowledge acquisition, v.5, n.2, p.199-220, 1993. Disponível em:

<http://tomgruber.org/writing/ontolingua-kaj-1993.pdf>. Acesso em: 19 mai. 2014.

HASEGAWA, F. M., AIRES, J. P. Proposta de um Padrão de Metadados Para

Imagens Médicas. ERI-Escola Regional de Informática, Guarapuava, PR, 2007.

ISO/IEC 25010, Software engineering – Software product Quality Requirements and

Evaluation (SQuaRE) – Software and quality in use models. Quebec, 2008. p. 40.

Disponível em: <http://miageprojet2.unice.fr/@api/deki/files/2222/=ISO_25010.pdf>.

Acesso em: 13 jun. 2014.

ISO/IEC 25022:2012, Systems and software engineering - Systems and software Quality

Requirements and Evaluation (SQuaRE) – Measurement of quality in use. 2012. p.

67. Disponível em: <http://standardsproposals.bsigroup.com/home/getpdf/1785>. Acesso

em: 13 jun. 2014.

KAHAN, José et al. Annotea: an open RDF infrastructure for shared Web

annotations. In: Proceedings of the 10th international conference on World Wide Web

(WWW '01). ACM, New York, NY, USA, 2001, p. 623-632.

KIRYAKOV, A. et al. Semantic annotation, indexing, and retrieval. In: Journal Web

Semantics: Science, Services and Agents on the World Wide Web, v. 2, n. 1, 2004, p. 49-

LEBO, T., SAHOO, S. S., MCGUINNESS, D. PROV-O: The PROV Ontology, 2013.

Disponível em: <http://www.w3.org/TR/prov-o/>. Acesso em: 25 jun. 2014.

MANNENS, E. et al. Automatic metadata enrichment in news production. In: 10th

Workshop on Image Analysis for Multimedia Interactive Services – WIAMIS 09, Lodon,

UK, 2009. p. 61-64.

MENDONÇA, R. R., Uma abordagem para coleta e publicação de dados de

proveniência no contexto de Linked Data, 2013. 143 f. Dissertação de mestrado,

Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013.

MOREAU, L. et al. Special Issue: The First Provenance Challenge. Concurrency and

computation: practice and experience, v. 20, n. 5, p. 409-418, 2008.

MySQL 5.6 Reference Manual. Including MySQL Cluster NDB 7.3 Reference Guide.

Disponível em: <http://dev.mysql.com/doc/refman/5.6/en/index.html>. Acesso em: 07 jul.

NIELSEN, J., LANDAUER, T. A mathematical model of the finding of usability

problems. In: Proceedings of the INTERACT '93 and CHI '93 Conference on Human

Factors in Computing Systems, ACM, New York, NY, USA,, 1993. p. 206-213.

Disponível em: <http://dl.acm.org/citation.cfm?id=169166>. Acesso em: 29 set. 2014.

NOLL, R.; SACCOL, D. B.; EDELWEISS, N. Uma proposta para análise de

similaridade entre documentos XML e ontologias em OWL. In: Simpósio Brasileiro de

Banco de Dados, SBBD. 2007. p. 47-50.

OREN, E. et al. What are Semantic Annotations? Technical Report. Digital Enterprise

Research Institute, National University of Ireland, Galway; 2006. Disponível em:

<http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf>. Acesso em: 19

mai. 2014.

POLITO A. G, Michaelis - Dicionário Moderno da Língua Portuguesa. 1ª edição,

Melhoramentos, 2004.

POPOV, B. et al. Towards semantic web information extraction. In: Human Language

Technologies Workshop at the 2nd International Semantic Web Conference (ISWC2003),

WORLD WIDE WEB CONSORTIUM - W3C. RDF Primer, 2004: Disponível em:

<http://www.w3.org/TR/2004/REC-rdf-primer-20040210/>. Acesso em: 19 mai. 2014.

SORRENTINO, S. et al. Semantic Annotation and Publication of Linked Open Data.

In 13th International Conference – ICCSA 2013, Ho Chi Minh City, Vietnam, 2013. p.

462-474.

TANNENBAUM, A.; FOREWORD B. A. Metadata solutions: using metamodels,

repositories, XML, and enterprise portals to generate information on demand.

Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2001.

UREN, V. et al, Semantic Annotation for Knowledge Management, 2006. In:

ARANTES, L. O. Documentação Semântica no Apoio à Integração de Dados e

Rastreabilidade. Dissertação de mestrado, Universidade Federal do Espírito Santo, 2010.

VAZ, M. S. M. G. Meta Mídia - Um Modelo de Metadados na Indexação e

Recuperação de Objeto Multimídia, Tese de Doutorado, Universidade Federal de

Pernambuco, Recife, 2000.

VCGE - Vocabulário Controlado do Governo Eletrônico. Padrões de

Interoperabilidade do Governo Eletrônico, 2011. Disponível em:

<http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroes-de-

interoperabilidade/vcge>. Acesso em: 25 jun. 2014.

ZENG, M. Linguagens de Marcação Específicas por Domínio e Metadados

Descritivos: Funções para a descoberta de recursos científicos. Edição Especial

"Investigação em Sistemas de Informação", 2010 - UFSC, p. 177-191.

APÊNDICE A – RESULTADO DO QUESTIONÁRIO PARA MÉTRICA DE

SATISFAÇÃO

Este apêndice apresenta os resultados dos questionários que foram submetidos aos

usuários após a realização dos experimentos, para avaliação do grau de satisfação do

protótipo.A seguir temos um modelo do questionário.

Prezado usuário esta pesquisa está vinculada ao estudo de Márcio Angelo Bezerra

de Lira, com o tema: “Uma Abordagem para Enriquecimento Semântico de

Metadados”, como uma das exigências para obtenção do grau de Mestre pelo Programa

de Pós-Graduação em Ciência da Computação da UFPE sob a orientação da

professora Dra. Bernadette Farias Lóscio.

Este questionário tem caráter subjetivo onde avalia sua opinião em relação às

funcionalidades do protótipo Open Metadata. Com finalidade de auxiliar o usuário na

geração de Metadados Semanticamente Enriquecidos.

Baseado na escala do tipo Likert bipolar de 1 a 7. Desta forma assinale 1 para

classificação mais baixa e 7 para classificação mais alta, conforme características abaixo:

1. Satisfação:

Você está satisfeito com o software?

1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )

2. Confiança:

Você acha o software confiável?

1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )

3. Facilidade de uso:

O software tem boa usabilidade?

1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )

4. Utilidade:

Você considera uma ferramenta útil?

1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )

APÊNDICE B - FICHA DE COLETA DOS DADOS DA AVALIAÇÃO

Este apêndice apresenta os resultados calculados conseguidos pelos usuários

durante a realização dos experimentos. A seguir temos um modelo da Ficha de Coleta.

Perfil:

Tempo de atividade:

Instituição:

Data realização:

Regras:

Será marcado um tempo para realização de cada tarefa;

Cada tarefa terá tempo máximo de execução de 20min;

Para cada tarefa concluída com sucesso será atribuído um valor de 100%.

Para cada ocorrência de erro ou falha, serão deduzidos 20% do valor de

eficácia. Entende-se como erros ou falha: falhas de execução do protótipo,

campos vazios e descrição não coerente com o metadado.

FICHA DE COLETA DOS DADOS PARA EFICÁCIA E EFICIÊNCIA

Métricas TAREFAS REALIZADAS (%)

X= A/B

TEMPO DE REALIZAÇÃO DA TAREFA

EFICIÊNCIA DA TAREFA (%) X= M1 / T

Tarefas

MÉDIA

Obs.: Para os valores de “X” devem ser observadas as definições abaixo.

X= A/B, onde A = número de tarefas concluídas e B = número total de

tentativas para concluir a tarefa;

X = 1 - ∑ Ai| X>0, Onde Ai = valor proporcional de cada erro na saída da

tarefa;

X= M1 / T, onde T = Tempo gasto para realizar cada tarefa, M1= refere-se ao

valor obtido pela proporção de tarefa concluída, calculado na métrica de

eficácia da tabela anterior.

UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE METADADOS …‡… · Estes metadados oferecem...

Documents

Transcript of UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE METADADOS …‡… · Estes metadados oferecem...

Metadados, apresentação

JRebel para desenvolvedores

SISTEMAS AUTOMATIZADOS EM URINÁLISE: APLICAÇÃO ...

Desenvolvendo Bons Testes Automatizados

Importancia dos testes automatizados

[DevOps Carioca] Testes Automatizados

Falando sobre testes automatizados

SEO Para Desenvolvedores

Definição de metadados 2013

Alimentação de Metadados em Repositórios …...Surgimento dos Metadados O termo “metadados” surge no contexto do crescimento acelerado e caótico da Web. Era a ordem do dia

Python para Desenvolvedores

METADADOS DIGITAIS

Testes automatizados - Agile Day

Catalogação de metadados: descrição de metadados de ... · Metadados de negócios existem desde que o homem montou o primeiro negócio. Então todos os metadados de negócio existiram

Grupo UFRGS e UNISINOS Padrão OBAA Metadados. Metadados OBAA Especificação dos metadados baseada em padrões internacionalmente reconhecidos como IEEE-LOM,

Introdução a testes automatizados

Ux para desenvolvedores

Definição de metadados 2012

Desenvolvedores Software Livre!

Intro a Testes Automatizados