Post on 04-Jul-2020
Pós-Graduação em Ciência da Computação
“UMA ABORDAGEM PARA
ENRIQUECIMENTO SEMÂNTICO DE METADADOS
PARA PUBLICAÇÃO DE DADOS ABERTOS”
Por
MÁRCIO ANGELO BEZERRA DE LIRA
Dissertação de Mestrado
Universidade Federal de Pernambuco
posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
RECIFE, 2014
Universidade Federal de Pernambuco
Centro de Informática
Pós-graduação em Ciência da Computação
MÁRCIO ANGELO BEZERRA DE LIRA
UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE
METADADOS PARA PUBLICAÇÃO DE DADOS ABERTOS
RECIFE, 2014
Trabalho apresentado ao Programa de Pós-graduação
em Ciência da Computação do Centro de Informática da
Universidade Federal de Pernambuco como requisito
parcial para obtenção do grau de Mestre em Ciência da
Computação.
Orientadora: Profa. Bernadette Farias Lóscio
Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571
L768a Lira, Márcio Angelo Bezerra de. Uma abordagem para enriquecimento semântico de
metadados para publicação de dados abertos / Márcio Angelo Bezerra de Lira. – Recife: O Autor, 2014.
94 f.: il., fig., tab. Orientador: Bernadette Farias Lóscio. Dissertação (Mestrado) – Universidade Federal de
Pernambuco. CIN. Ciência da Computação, 2014. Inclui referências e apêndices.
1. Banco de dados. 2. Web semântica. I. Lóscio, Bernadette Farias (orientadora). II. Título. 025.04 CDD (23. ed.) UFPE- MEI 2014-158
Dissertação de Mestrado apresentada por Márcio Angelo Bezerra de Lira à Pós Graduação
em Ciência da Computação do Centro de Informática da Universidade Federal de
Pernambuco, sob o título “UMA ABORDAGEM PARA ENRIQUECIMENTO
SEMÂNTICO DE METADADOS PARA PUBLICAÇÃO DE DADOS ABERTOS”
orientada pela Profa. Bernadette Farias Lóscio e aprovada pela Banca Examinadora
formada pelos professores:
______________________________________________
Prof. Kiev Santos Gama
Centro de Informática/UFPE
______________________________________________
Profa. Damires Yluska de Souza Fernandes
Gerência Educacional de Informática / IFPB
_______________________________________________
Profa. Bernadette Farias Lóscio
Centro de Informática /UFPE
Visto e permitida a impressão.
Recife, 2 de setembro de 2014.
___________________________________________________
Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do
Centro de Informática da Universidade Federal de Pernambuco.
Dedico este trabalho a minha mãe, por todo amor e esforço dedicado na minha educação, e a
minha esposa e filhos que confiam sempre nos meus propósitos.
AGRADECIMENTOS
Inicialmente agradeço a ti Senhor Deus e a nossa mãe Maria, que atendeu meus
pedidos e orações, concedendo esta oportunidade de receber o título de Mestre por uma
Instituição tão conceituada. Sem tuas ações nada disso seria possível. Muito obrigado!
Neste caminho de conquistas várias pessoas me apoiaram e, portanto, fazem parte
dessa vitória.
Obrigado minha mãe, Dona Luiza, pela criação, educação e incentivo. Sempre
falou que seu sonho era ver os filhos serem “fera federal”, ou seja, alunos formados nessa
instituição de ensino, respeitada em todo o país.
À minha esposa Aline, e aos meus filhos, Gabriel e Thiago, que sempre
depositaram confiança em mim e sentimentos de orgulho para com este marido e pai,
mesmo sem saberem estavam alimentando meu ego e auto estima nos momentos de
fraqueza e dúvida.
À minha irmã Liliana, que me motivou e incentivou com sua experiência
acadêmica, me auxiliando nos momentos de dúvidas e insegurança, apontando o caminho
certo.
À minha irmã Iviana pelas orações e pensamentos positivos na vitória, com
palavras de tranquilidade e motivação.
Um agradecimento especial à minha orientadora querida, professora Bernadette
Farias Lóscio, que além de ter me ensinado tudo o que era necessário para poder
desenvolver este valioso trabalho, é uma pessoa muito inteligente, atenciosa, paciente e
franca. Uma orientadora como nunca tive.
Agradeço também as minhas diretoras Dra. Terezinha Ferraz, Dra. Ivânia Barros
Melo e Dra. Gisele Diniz, todas vocês colaboraram com o meu crescimento acadêmico e
profissional, concedendo meios e recursos que permitiram minha evolução nessa
caminhada.
Aos meus amigos prof. Clóvis Holanda e Antônio Júnior pelas aulas de orientação
a objeto, sem a ajuda de vocês seria ainda mais difícil.
Aos meus professores do CIn: Ana Carolina, Fernando da Fonseca e Robson
Fidalgo, pelos ensinamentos, sugestões e confiança.
E a todos meus colegas de classe e pesquisa pela colaboração e apoio nos
momentos de dúvida e inexperiência.
RESUMO
A publicação de Dados Abertos vem alcançando cada vez mais adeptos, principalmente
no domínio de dados governamentais. Um dos fatores do sucesso da publicação dos dados
em formato aberto seria a disponibilização de metadados capazes de descrever os dados de
forma satisfatória. Estes metadados oferecem meios para que usuários, desenvolvedores e
sistemas automatizados possam compreender e processar os dados. Porém, apesar da sua
importância, a ausência de metadados tem sido um problema comum no cenário atual de
publicação de dados abertos. Além da ausência de metadados, outro fator crítico diz
respeito ao reuso de metadados. Uma vez que os metadados são publicados, é importante
que possam ser reutilizados, a fim de facilitar o processo de publicação de dados de
maneira geral. Neste contexto, este trabalho propõe uma abordagem para o
enriquecimento semântico de metadados para descrição de dados abertos. A abordagem
proposta tem como objetivo facilitar tanto a publicação quanto o reuso de metadados. Para
isso, são usadas anotações semânticas e vocabulários padrões. Dessa forma, espera-se que
os metadados possam ser facilmente compreendidos e processados. Para avaliação da
abordagem proposta, foi desenvolvido um protótipo e foram realizados alguns
experimentos.
Palavras-chaves: Dados Abertos. Metadados. Reuso. Enriquecimento Semântico.
Anotação Semântica.
ABSTRACT
There is an increasing interest on the publication of Open Data, especially in governmental
data domain. One of the success factors of publishing data in open format would be the
availability of metadata able to describe the data. These metadata provide means for users,
developers and automated systems to understand and process the data. However, despite its
importance, the absence of metadata has been a common problem in the current scenario of
open data publication. In addition, another critical factor is about the reuse of
metadata. Since metadata are published it is important they can be reused for facilitating the
process of publishing data in general. In this context, this work proposes an approach for
semantic enrichment of metadata for open data publication. One of the main goals of the
proposed approach is to facilitate the publishing as well as the reuse of metadata. For this,
semantic annotations and standard vocabularies are used. Thus, it is expected that metadata
can be easily understood and processed. A prototype was developed and some experiments
were conducted in order to evaluate the proposed approach.
Keywords: Open Data. Metadata. Reuse. Semantic Enrichment. Semantic Annotation
LISTA DE FIGURAS
Figura 2.1 Relacionamento entre as classes e propriedades da categoria Starting Point. ........ 29
Figura 2.2 Exemplo de enriquecimento de metadados com mapeamentos para recursos
disponíveis na Web. .................................................................................................................. 31
Figura 3.1 Abordagem para o enriquecimento semântico de metadados ................................. 39
Figura 3.2 Exemplo de conjunto de metadados anotados na sintaxe XML/CSV .................... 47
Figura 3.3 Exemplo de triplas RDF. ......................................................................................... 48
Figura 3.4 Comparação e reuso de metadados com auxílio do repositório .............................. 50
Figura 3.5 Relacionamento dataset x metadados...................................................................... 51
Figura 3.6 Modelo lógico do repositório de metadados ........................................................... 53
Figura 3.7 Recorte de um dicionário de dados do Portal de Dados do Recife ......................... 54
Figura 3.8 Trecho de código RDF/XML do metadado enriquecido......................................... 56
Figura 4.1 Arquitetura do Enriquecedor Semântico de Metadados – Open Metadata............. 60
Figura 4.2 Diagrama de Caso de Uso do protótipo Open Metadata. ........................................ 62
Figura 4.3 Tela inicial do Open Metadata ................................................................................ 64
Figura 4.4 Tela de anotação semântica dos metadados. ........................................................... 65
Figura 4.5 Tela de pré-visualização das anotações semânticas ................................................ 66
Figura 4.6 Modelo de qualidade para a métrica qualidade em uso. ......................................... 69
Figura 4.7 Trecho dos metadados semanticamente enriquecidos na sintaxe XML.................. 76
Figura 4.8 Desempenho dos usuários ....................................................................................... 82
LISTA DE TABELAS
Tabela 2.1 Os quinze elementos básicos do Dublin Core. ....................................................... 24
Tabela 2.2 Classes e propriedades da categoria Start Point da ontologia PROV-O ................ 28
Tabela 2.3 Exemplo de Anotação Semântica ........................................................................... 33
Tabela 2.4 Resumo dos trabalhos relacionados ........................................................................ 36
Tabela 3.1 Descrição dos atributos dos metadados enriquecidos ............................................. 44
Tabela 3.2 Metadados enriquecidos do dataset "Áreas de Riscos - REC" .............................. 55
Tabela 3.3 Quadro comparativo entre trabalhos relacionados e abordagem sugerida ............. 58
Tabela 4.1 Quadro de métricas definidas na avaliação ............................................................ 70
Tabela 4.2 Métricas para avaliação da característica Eficácia. ................................................ 71
Tabela 4.3 Métricas para avaliação da característica Eficiência. ............................................. 71
Tabela 4.4 Métricas para avaliação da característica Satisfação. ............................................. 72
Tabela 4.5 Atributos dos participantes no processo de avaliação ............................................ 73
Tabela 4.6 Coleta de dados do grupo de estudantes para a tarefa 1. ........................................ 78
Tabela 4.7 Coleta de dados do grupo de profissionais para a tarefa 1. .................................... 78
Tabela 4.8 Coleta de dados do grupo de estudantes para a tarefa 2. ........................................ 79
Tabela 4.9 Coleta de dados do grupo de profissionais para a tarefa 2. .................................... 79
Tabela 4.10 Coleta de dados do grupo de estudantes para a tarefa 3. ...................................... 80
Tabela 4.11 Coleta de dados do grupo de profissionais para a tarefa 3. .................................. 80
Tabela 4.12 Resultado da análise combinada das tarefas referente ao Grupo 01. .................... 81
Tabela 4.13 Resultado da análise combinada das tarefas referente ao Grupo 02. .................... 81
Tabela 4.14 Resultados coletados de satisfação do software ................................................... 82
SUMÁRIO
1. INTRODUÇÃO ............................................................................................................... 13
1.1. Motivação .................................................................................................................. 13
1.2. Caracterização do Problema ...................................................................................... 15
1.3. Objetivos .................................................................................................................... 16
1.4. Contribuições ............................................................................................................. 17
1.5. Estrutura da Dissertação ............................................................................................ 17
2. FUNDAMENTAÇÃO TEÓRICA ................................................................................. 18
2.1. Dados Abertos ............................................................................................................ 18
2.2. Metadados .................................................................................................................. 22
2.3. Vocabulários e Ontologias ......................................................................................... 25
2.4. Proveniência ............................................................................................................... 26
2.5. Enriquecimento Semântico ........................................................................................ 29
2.6. Anotação Semântica .................................................................................................. 31
2.7. Trabalhos relacionados .............................................................................................. 33
2.8. Considerações finais .................................................................................................. 37
3. UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE
METADADOS ........................................................................................................................ 38
3.1. Visão geral da abordagem para enriquecimento semântico de metadados ................ 38
3.2. Metadados enriquecidos ............................................................................................ 43
3.3. Uso de anotações semânticas para descrição dos metadados enriquecidos ............... 46
3.4. Repositório de metadados .......................................................................................... 49
3.5. Exemplo ..................................................................................................................... 53
3.6. Comparação com trabalhos relacionados................................................................... 57
3.7. Considerações finais .................................................................................................. 58
4. IMPLEMENTAÇÃO, EXPERIMENTOS E ANÁLISE DOS RESULTADOS ........ 59
4.1. Apresentação da Arquitetura ..................................................................................... 59
4.2. Funcionalidades do Open Metadata ........................................................................... 61
4.3. Tecnologias utilizadas na implementação do protótipo ............................................. 63
4.4. Objetivo e contexto de avaliação ............................................................................... 65
4.5. Métricas de avaliação ................................................................................................. 67
4.6. Compilação dos dados e análise dos resultados ......................................................... 77
4.7. Considerações finais .................................................................................................. 83
5. CONCLUSÃO ................................................................................................................. 84
6. REFERÊNCIAS .............................................................................................................. 87
APÊNDICE A – RESULTADO DO QUESTIONÁRIO PARA MÉTRICA DE
SATISFAÇÃO ........................................................................................................................ 93
APÊNDICE B - FICHA DE COLETA DOS DADOS DA AVALIAÇÃO ........................ 94
13
1. INTRODUÇÃO
Este capítulo tem como finalidade abordar de maneira geral o entendimento de que
trata esta pesquisa, apresentando o domínio no qual esta dissertação está inserida com uma
visão introdutória sobre o tema estudado. Inicialmente, é mostrada a motivação pela qual
se decidiu por realizar este estudo, bem como a definição do problema abordado. Depois,
são elencados os objetivos pretendidos, seguindo por uma discussão sobre as
contribuições esperadas deste trabalho. Por fim, é apresentada a descrição da estrutura
organizacional desta dissertação.
1.1. Motivação
O tema Dados Abertos vem ganhando destaque nos últimos anos, sobretudo após
os governos de países como Estados Unidos, Reino Unido, Canadá e Nova Zelândia
anunciarem iniciativas pioneiras com o objetivo de tornar seus dados públicos
(DIETRICH et al., 2012). Dados abertos (Open Data) correspondem à ideia de que os
dados devem estar disponíveis para que todos usem e publiquem, sem restrições de
direitos autorais e patentes ou qualquer outro mecanismo de controle.
No Brasil, desde a publicação da Lei 12.527, também chamada de Lei de Acesso à
Informação1, os Dados Abertos estão se tornando uma fonte de informação indispensável
para muitos cidadãos e profissionais de diversas áreas (COSTA et al., 2013). Esses dados
são considerados relevantes principalmente para aqueles interessados em acompanhar e
monitorar a gestão dos governantes e gestores públicos.
Segundo a OKF - Open Knowledge Foundation2, os dados oriundos dos governos
são públicos e devem ser colocados à disposição da sociedade de forma a tornar possível
não apenas sua leitura e acompanhamento, mas também sua reutilização em novos
projetos, serviços e aplicativos. Motivados por uma crescente onda de consumo e geração
de dados abertos, os órgãos públicos passaram a disponibilizar seus dados na Web,
oferecendo esses dados aos cidadãos, empresas ou qualquer instituição interessada, de
forma gratuita e facilitada.
1 http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
2 https://okfn.org/
14
Contudo, para garantir o sucesso das iniciativas de Dados Abertos, é fundamental
que os dados possam ser facilmente compreendidos e reutilizados, com o intuito de gerar
novas informações, aplicações e serviços que serão consumidos pela sociedade de forma
geral.
Um dos principais entraves encontrados no consumo e reutilização dos dados
abertos diz respeito às dificuldades apresentadas pelos usuários na identificação e
interpretação dos dados. Os dados de uma instituição governamental, por exemplo, podem
conter particularidades que dificultam a adequada compreensão e interpretação dos dados,
seja por um agente inteligente (software) ou mesmo por algum desenvolvedor externo.
Nesse contexto, identifica-se a importância da utilização dos metadados no
processo de publicação dos dados abertos. De maneira geral, metadados são definidos
como “dados que descrevem outros dados” e podem ser utilizados para descrever objetos
ou tornar pública sua existência (BENACCHIO et al., 2008). Segundo Hasegawa e Aires
(2007), os metadados são utilizados na identificação de recursos (dados e informação) e
no auxílio da filtragem de uma busca, além de facilitar a recuperação de um registro.
Adicionalmente, são importantes para facilitar a compreensão do dado, bem como sua
manutenção e compartilhamento (CARDINAELS et al., 2005). Por meio dos metadados é
possível compreender melhor o dado e, assim, facilitar sua utilização e reuso. Dessa
forma, a geração de metadados agrega maior valor semântico aos dados, permitindo uma
melhor compreensão da informação que está sendo disponibilizada. Por exemplo, a partir
dos metadados é possível saber quem é o criador dos dados, quando o dado foi gerado ou
sofreu atualizações, além de obter informações sobre a proveniência e qualidade dos
dados.
Uma característica muito valorizada nos metadados está relacionada ao uso dos
metadados para descrição de informações de proveniência dos dados. Metadados com
função de proveniência permitem gerar informações que determinam a origem dos dados
e de outros metadados, apresentando informações relacionadas à criação, processos e
agentes envolvidos na produção e disponibilização dos dados e metadados. Assim,
metadados com essa finalidade são imprescindíveis para determinar se os dados ou
metadados são confiáveis, como podem ser consumidos ou simplesmente atribuir crédito
aos seus autores (GIL et al., 2010).
A correta documentação e disponibilização dos metadados contribui para
enriquecer a semântica do dado que está sendo descrito. Em geral, quando dados abertos
15
são publicados apenas com uma descrição simples ou nenhuma descrição é muito difícil
de reusá-lo.
Apesar de não ter sido feito um levantamento formal, é comum encontrar
metadados ou dicionários de dados nos Portais de Dados Abertos brasileiro, com poucas
informações sobre o dado, por exemplo: informações relativas ao tamanho, tipo e uma
breve descrição dos dados. Isso pode levar a um entendimento precário ou mesmo errado
dos dados.
O sucesso no consumo e reutilização de dados abertos depende muito da qualidade
e da consistência da informação descritiva, disponível para a compreensão do dado. Dessa
forma, quanto mais rica for a descrição de um determinado dado, melhor será o seu
reaproveitamento em diferentes contextos e com diferentes propósitos.
Porém, é importante ressaltar que, além da descrição dos dados propriamente dita,
também é importante disponibilizar informações que descrevam os metadados.
Considerando as dificuldades encontradas nos processos de criação e disponibilização de
metadados para descrição de dados abertos, o reuso de metadados também é algo
desejável. O reuso de metadados evita a redundância de metadados, colabora com a
padronização da informação e facilita o processo de enriquecimento, uma vez que
descrições previamente definidas poderão ser recuperadas e reutilizadas.
Nesse contexto, torna-se fundamental não apenas oferecer metadados capazes de
descrever os dados, mas também prover informações que descrevem os metadados,
facilitando, dessa forma, a compreensão e o reuso de dados e metadados.
1.2. Caracterização do Problema
A dificuldade na publicação e reuso de metadados para Dados Abertos, bem como
sua publicação inadequada nos portais de dados em formato aberto, que pouco contribuem
para a compreensão dos dados, são problemas que merecem ser pesquisados e que neste
trabalho serão descritos com detalhes. A carência de recursos e informações mais
detalhadas sobre metadados para descrição de dados em formato aberto gera obstáculos
que estão relacionados ao consumo e distribuição dos dados abertos, por exemplo: (i)
dificuldade na criação de aplicações para localizar e coletar estes dados automaticamente;
e (ii) problemas na manipulação dos dados, uma vez que seus metadados pouco auxiliam
na compreensão do conteúdo devido à falta de descrição semântica formalmente definida.
16
Como cenário para exemplificação, suponha que órgãos públicos de um
determinado município sejam orientados a disponibilizar em seus sites ou portais os
orçamentos e despesas de suas secretarias. Neste caso, ao fornecerem seus dados com
metadados que oferecem pouca informação semântica sobre os dados, dificilmente um
consumidor externo, que não conhece a nomenclatura usada pelo governo para descrição
de orçamentos e despesas, conseguirá consumir estes dados facilmente. Se o usuário
precisar responder a perguntas como: Qual o bairro que possui o maior volume de
despesas no município? ou Qual a secretaria mais onerosa ao município? Certamente,
terá que processar e interpretar os datasets ou conjunto de dados3 para isso e sem os
metadados para orientar e colaborar com seu entendimento será ainda mais difícil.
Assim, baseado neste contexto de publicação e reuso de metadados para dados
abertos, constataram-se dificuldades em disponibilizar e gerar estes metadados para
melhor descrever os dados, motivando o desenvolvimento de soluções para facilitar estas
ações. Estas soluções buscam oferecer meios para prover descrições de metadados que
sejam facilmente compreensíveis tanto por humanos quanto por máquinas, contribuindo,
dessa forma, para facilitar a publicação e o reuso de metadados. Tais soluções são o objeto
de estudo desta dissertação, cujos objetivos e contribuições serão descritos nos itens
subsequentes.
1.3. Objetivos
Este trabalho tem como principal objetivo propor uma abordagem para o
enriquecimento semântico de metadados, visando facilitar a compreensão e o reuso de
dados e metadados publicados em formato aberto. Para isso, durante o processo de
enriquecimento semântico de metadados, serão utilizadas anotações semânticas e
vocabulários já existentes, a fim de agregar maior significado aos metadados. Isso implica
também em gerar novos metadados que descreverão os metadados originais. É importante
mencionar que os metadados enriquecidos são disponibilizados em formato compreensível
por máquina, ou seja, em formato estruturado, facilitando seu processamento e
manipulação.
3 Datasets ou conjunto de dados são comumente entendidos como uma coleção de dados agrupados de forma
estruturada, tabular (linhas e colunas) ou não tabular, por exemplo, CSV ou XML.
17
Como objetivos específicos desta dissertação, destacam-se:
Definir atributos capazes de descrever de forma significativa os metadados
utilizados tradicionalmente para descrever os dados;
Especificar uma abordagem para facilitar o processo de publicação e reuso
de metadados, bem como permitir a geração de metadados enriquecidos;
Implementar um protótipo para avaliação da abordagem proposta, o qual
poderá ser usado para auxiliar gestores ou analistas de dados no
enriquecimento dos metadados de forma semiautomática.
1.4. Contribuições
Como principal contribuição, este trabalho propõe uma abordagem para facilitar o
processo de enriquecimento semântico de metadados para dados abertos. Outra
contribuição a ser destacada é a implementação de um protótipo capaz de realizar ações
semiautomáticas, abstraindo toda a complexidade do processo de enriquecimento
semântico.
A partir da abordagem proposta, o publicador de dados abertos poderá gerar
metadados enriquecidos de forma semiautomática com a atribuição de outros metadados
específicos, para melhor descrever os metadados originais contidos nos conjuntos de
dados públicos disponíveis na Web.
1.5. Estrutura da Dissertação
O restante desta dissertação está organizado como se segue. No capítulo 2 é
apresentada a Fundamentação Teórica referente aos conceitos básicos para o
entendimento deste trabalho. No Capítulo 3 será descrita a abordagem proposta para o
processo de enriquecimento semântico de metadados para dados abertos. No Capítulo 4
destacam-se os aspectos de implementação do protótipo, experimentos e análise dos
resultados da abordagem empregada. Finalmente, o Capítulo 5 apresenta as considerações
finais sobre esta pesquisa, juntamente com a proposta de trabalhos futuros e alguns pontos
limitantes encontrados durante o desenvolvimento deste trabalho.
18
2. FUNDAMENTAÇÃO TEÓRICA
Os usuários e desenvolvedores que têm interesse em consumir informações
disponíveis na Web, em geral, esperam obter dados e metadados que facilitem a
compreensão e o processamento da informação que está sendo disponibilizada. Nesse
sentido, o enriquecimento de metadados pode ser utilizado para que esses objetivos sejam
atingidos. Assim, para compreendermos os fundamentos associados a esse tipo de
processo, neste capítulo serão abordados os conceitos básicos relativos ao tema desta
dissertação.
A Seção 2.1 apresenta uma breve história e descrição dos principais conceitos sobre
Dados Abertos. A Seção 2.2 apresenta os conceitos básicos sobre metadados e a sua
importância neste trabalho. Na Seção 2.3, são explanadas as características e as definições
sobre vocabulários e ontologias, além de um comparativo entre suas similaridades e
diferenças. A Seção 2.4 apresenta conceitos relacionados à proveniência dos dados e
metadados. Na Seção 2.5 são abordados os conceitos que definem o Enriquecimento
Semântico. Na Seção 2.6 encontram-se as definições sobre Anotação Semântica. A Seção
2.7 apresenta uma breve descrição dos trabalhos relacionados e um quadro comparativo
entre eles, permitido assim uma melhor interpretação da literatura relacionada. Por fim,
são apresentadas as conclusões e algumas considerações finais na Seção 2.8.
2.1. Dados Abertos
O tema Dados Abertos vem recebendo atenção especial desde 2007 quando a
mídia internacional, principalmente nos Estados Unidos, Reino Unido e Canadá, passou a
divulgar a abertura dos dados desses governos atraindo adeptos pelo mundo todo,
inclusive no Brasil que passou a debater o assunto um pouco mais tarde, a partir de 2009.
Nos anos seguintes, vários eventos foram divulgados e promovidos no Brasil, os quais
contaram com o apoio do W3C4, do Ministério do Planejamento e Orçamento do Governo
Federal. Atualmente, é comum encontrar eventos como concursos para desenvolvimento
de aplicações e serviços com uso de Dados Abertos, bem como fóruns de discussão sobre
o tema. Porém, apenas estas ações não são suficientes para transformar a iniciativa de
Dados Abertos em um movimento popular e de fácil acesso.
4 http://www.w3c.br
19
O tema “Dados Abertos” envolve “a ideia de que dados devem estar disponíveis
gratuitamente para todos que quiserem usá-los e publicá-los, sem restrições de direitos de
autoria, patentes ou outros mecanismos de controle” (AUER et al., 2007). De forma
semelhante, Dietrich et al. (2012) cita que: “Dados Abertos são dados que podem ser
usados livremente, reutilizados e redistribuídos por qualquer pessoa, estando sujeito a no
máximo, a exigência de creditar sua autoria e compartilhamento pela mesma licença.”.
A utilização e distribuição dos Dados Abertos, na prática, nem sempre configura
um procedimento simples. Algumas diretrizes foram criadas no intuito de tornar o
processo de divulgação e publicação mais organizado e fundamentado, de forma que
rejeitar essas normas pode criar barreiras na publicação e popularização desses dados. De
acordo com a definição da OKF5 - Open Knowledge Foundation, três diretrizes regem os
Dados Abertos:
Disponibilidade e acesso: o dado precisa estar disponível para download a um
custo mínimo, de preferência na Web, em um formato estruturado capaz de ser
interpretado por máquina;
Reuso e redistribuição: os dados precisam ser fornecidos em condições que
permitam reutilização, redistribuição e o cruzamento com outros conjuntos de
dados;
Participação universal: Disponível a todos para usar, reutilizar e redistribuir,
não havendo discriminação contra áreas de atuação, pessoas ou grupos.
Além das diretrizes citadas, segundo a OKF, os Dados Abertos precisam seguir
alguns princípios, incluindo:
Completos: o dado público não pode estar sujeito a restrições de privacidade,
segurança ou outros privilégios;
Primários: devem ser brutos, tal como colhidos na fonte, com o menor nível
possível de granularidade, sem agregação ou modificação;
Atuais: quanto mais recentes, mais úteis serão para seus usuários. Os dados
devem ser publicados o mais rápido possível para preservar seu valor, seguindo
uma periodicidade;
Acessíveis: os dados devem ser de fácil acesso para todos e assim atender a
maior quantidade possível de pessoas com os mais diferentes propósitos;
5 http://opendatahandbook.org/
20
Compreensíveis por máquina: os dados devem estar estruturados e legíveis
por máquinas, possibilitando seu processamento de forma automática (por
exemplo, uma tabela em formato estruturado, como CSV ou XML, é
processada mais facilmente por softwares e sistemas);
Não discriminatórios: os dados devem estar disponíveis para qualquer pessoa,
sem necessidade de cadastro ou qualquer outro procedimento que impeça o
acesso;
Não proprietários: os dados devem ser oferecidos sem exclusividade de
nenhuma entidade ou organização;
Livres de licenças: dados não devem estar submetidos a copyrights, patentes,
marcas registradas ou regulações de segredo industrial.
No Brasil, a iniciativa de Dados Abertos está intimamente ligada à Lei de Acesso à
Informação nº 12.527, cujo propósito é de regulamentar o direito constitucional de acesso
dos cidadãos às informações públicas. É importante ressaltar que, aos poucos, a
publicação de dados abertos vem se tornando parte da rotina dos órgãos públicos.
Segundo Dietrich et al. (2012), “Dados Abertos Governamentais são dados
produzidos pelo governo e colocados à disposição das pessoas de forma a tornar possível
não apenas sua leitura e acompanhamento, mas também sua reutilização em novos
projetos, sites e aplicativos”.
É possível utilizar os dados abertos governamentais para a criação de novos
serviços com o objetivo de melhorar a qualidade de vida da população, facilitando a
descoberta de soluções para problemas econômicos, de saúde, segurança, educação,
mobilidade entre outros.
No território brasileiro, apesar de alguns portais estarem disponibilizando seus
dados, o movimento ainda é discreto. De acordo com o Censo Internacional sobre Dados
Abertos Governamentais6, organizado pelo Open Knowledge Fundation no início de 2013,
verificou-se que uma parcela mínima de portais e instituições brasileiras está engajada
neste projeto.
Após o exposto, é possível observar que alguns obstáculos devem ser superados,
tanto de caráter técnico quanto de caráter político, uma vez que implicam diretamente na
evolução da publicação e consumo dos dados em formato aberto.
6 http://national.census.okfn.org
21
De acordo com o Censo Internacional sobre Dados Abertos Governamentais e
análises feitas em alguns portais de âmbito nacional e regional, como: portal de Dados
Abertos brasileiro7, portal de dados de Pernambuco
8 e da cidade do Recife
9, alguns
problemas são comuns no processo de publicação de Dados Abertos, entre eles estão:
Dados disponibilizados em arquivos com formatos indesejáveis, ou seja, que
não estão de acordo com as diretrizes dos Dados Abertos;
Falta de dicionário de dados adequados ou metadados que ajudem na
compreensão dos dados.
Dentre estas dificuldades, destaca-se a falta de dicionário de dados ou metadados
como um ponto crítico, uma vez que sua utilização é fundamental para o entendimento
dos dados.
Muitos órgãos e departamentos públicos estão disponibilizando seus dados na Web
e permitindo que usuários e cidadãos comuns cultivem o interesse por acessar e consumir
dados. Além disso, eles podem reutilizar seu conteúdo gerando aplicações, serviços e
novas informações. Entretanto, disponibilizar dados públicos apenas para cumprir o que se
pede na Lei de Acesso à Informação e não ter a sensibilidade de explicar seu conteúdo,
não faz muito sentido. Se o usuário não sabe como utilizar os dados e nem a qual domínio
pertencem, será muito difícil reusá-lo de forma adequada. Assim, o dicionário de dados ou
um conjunto de metadados torna-se relevante. Dicionário de dados pode ser definido
como informação que descreve o dado usado para facilitar sua compreensão, melhorando
a integração e manutenção deste dado (CARDINAELS et al., 2005).
No entanto, é comum acessar um portal de dados e encontrar dificuldades para
localizar e entender o conteúdo de um dataset, principalmente, se desejar criar uma
aplicação que vasculhe este ambiente em busca de dados de forma automática sem uma
API bem definida. Adicionalmente, após coletar o dado é preciso fazer um grande esforço
para entender e decifrar seu conteúdo. Uma vez observadas estas limitações e dificuldades
para compreender e processar o dataset é possível que o usuário se sinta motivado a
descartar este dataset, podendo até mesmo abandonar aquele portal de dados.
Os dados de uma instituição podem ter particularidades de termos e nomenclaturas
que apenas os agentes daquela instituição são capazes de compreender. Nesse caso, sem
7 http://dados.gov.br
8 http://www.dadosabertos.pe.gov.br/
9 http://dados.recife.pe.gov.br
22
uma descrição justa e coerente, o conteúdo poderá ser mal compreendido pelo usuário ou
desenvolvedor externo. Esse fato pode conduzir a uma reutilização inconsistente e falsa
compreensão. Segundo Tannenbaum et al. (2002) ter conhecimento sobre a origem dos
dados que estão disponíveis e entendimento sobre seu contexto são informações
necessárias para se tomar decisões mais precisas.
2.2. Metadados
O uso de metadados enriquece o conteúdo dos dados, permitindo a geração de
novas informações, associando semântica a eles (ARANTES, 2010).
Comumente, metadados podem ser definidos como sendo dados capazes de
descrever outros dados (VAZ, 2000). Eles são responsáveis por fornecer um significado
real e plausível aos dados. Segundo Hasegawa e Aires (2007), os metadados são utilizados
na identificação de recursos e no auxílio da filtragem de uma busca, além de facilitar a
recuperação de um registro. Benacchio e Vaz (2008), destacam que os metadados podem
ser utilizados para descrever objetos ou tornar pública sua existência. Eles disponibilizam
informações, descrevem dados e auxiliam as pessoas e sistemas a compreender os dados,
transformando-os em conhecimento.
É pelo uso dos metadados que se alcançam conteúdos que interessam. Esse recurso
é indispensável para a implementação de aplicações e serviços. Os metadados fornecem
significado real para um dado ou conjunto de dados, auxiliando os motores de buscas na
recuperação da informação e facilitando a integração com outros recursos. Desta forma,
torna-se um elemento imprescindível, para atribuir semântica aos dados na Web. Os
metadados devem ter fácil compreensão, caso contrário, o conceito de reusabilidade de
dados e metadados pode ser meramente teórico.
Metadados possuem um alto potencial de aplicação, pois permitem o
desenvolvimento de aplicações inovadoras que podem ser empregadas em diversas áreas
tais como: Sistemas de Informação Geográfica, Educação a Distância, Data Warehouses,
Web Semântica, Serviços Web e TV Digital (ALVES et al., 2006). Assim, podemos citar
algumas formas de utilização de metadados, como: (i) interoperabilidade entre objetos
distribuídos em plataformas distintas; (ii) padronização de objetos de aprendizagem; (iii)
descrição dos serviços e conteúdo dos dados; e (iv) representação de informações
contextuais e de proveniência.
23
Vários esquemas de metadados foram criados ao longo dos anos para atender
propósitos específicos, dando origem aos padrões de metadados (ZENG, 2010). Um
esquema de metadados ou padrão de metadados pode ser definido como sendo um
conjunto de atributos definidos para atender uma determinada finalidade (BENACCHIO
et al., 2008).
Quando se trabalha com metadados devem-se utilizar padrões de metadados já
homologados, pois estes já possuem uma garantia de qualidade promovida pelos órgãos de
controle e comunidades que utilizam estes padrões. É importante salientar que fazer uso
de um padrão apropriado ao domínio do dado permitirá uma definição dos termos mais
precisa e adequada. Consequentemente, essa ação ajudará no processo de descrição e
qualidade da informação. Quando se utilizam padrões de metadados já existentes, a troca
de dados torna-se mais fácil possibilitando maior número de agregações entre as fontes de
dados.
Dentre os padrões de metadados propostos na literatura, destaca-se o Dublin Core.
Segundo a DCMI10
, este padrão se destaca pela simplicidade, interoperabilidade
semântica, consenso internacional e extensibilidade de metadados.
O Dublin Core popularizou a ideia de "metadados" para descrições de recursos
simples e genéricos. Assim, a partir do ano de 2000, a comunidade Dublin Core focada
em "perfis de aplicação", juntamente com outros vocabulários especializados,
desenvolveram a ideia de um modelo de dados genérico para metadados.
O Padrão Dublin Core foi desenvolvido pela Dublin Core Meta data Initiative
(DCMI) e pode ser definido como um grupo de atributos utilizado por autores e
produtores de dados para descrever seus próprios recursos na web.
O conjunto Dublin Core Metadata11
é um vocabulário de quinze propriedades,
observados na Tabela 2.1, para uso na descrição de recursos.
10
http://dublincore.org/about-us/ 11
http://dublincore.org/documents/dces/
24
Tabela 2.1 Os quinze elementos básicos do Dublin Core.
Fonte: O Autor, baseado na documentação Dublin Core.
Os elementos, apresentados na Tabela 2.1, fazem parte de um conjunto ainda
maior de vocabulários de metadados e especificações técnicas. O conjunto completo de
vocabulários DCMI Metadata Terms12
também inclui conjuntos de classes de recursos,
tipo de vocabulário DCMI-TYPE, esquemas de codificação de vocabulário e esquemas de
codificação de sintaxe.
Os termos do Dublin Core oferecem ampla oportunidade de uso para descrição de
vários tipos de recursos envolvendo os mais variados formatos de dados. Instituições
envolvidas na organização da informação no ambiente Web desenvolvem recursos como a
construção de bibliotecas digitais, base de dados, portais e sites, entre outros serviços, que
necessitam da utilização dos padrões de descrição para seus recursos eletrônicos.
Além do padrão Dublin Core, existem outros padrões com importância equivalente
para descrição de dados e metadados. Entre eles podemos citar o vCard 13
e o Foaf14
.
12
http://dublincore.org/documents/dcmi-terms/ 13
http://www.w3.org/TR/vcard-rdf/ 14
http://xmlns.com/foaf/spec/
Elementos Definição
contributor Uma entidade (pessoa ou organização) responsável por colaborar com um recurso.
coverage Corresponde a área que abrange o recurso, jurisdição em que o recurso é relevante.
creator Entidade responsável pela criação do recurso.
date Período de tempo associado a um evento no ciclo de vida do recurso
description Uma descrição do que se trata o recurso.
format O formato de arquivo, meio físico ou as dimensões do recurso.
identifier Uma referência não ambígua ao recurso dentro de um dado contexto.
language Corresponde à linguagem em que o recurso se encontra
publisher Entidade responsável por tornar o recurso disponível.
relation Descreve um recurso relacionado.
rights Informações sobre os direitos existentes e relacionados ao recurso.
source Um recurso relacionado a partir do qual o recurso descrito é derivado.
subject Assunto de que trata o recurso.
title Nome dado ao recurso.
type Determina a natureza ou gênero do recurso.
25
2.3. Vocabulários e Ontologias
Vocabulários são usados para classificar os termos que podem ser usados em um
domínio particular, caracterizar possíveis relações entre esses termos e definir possíveis
restrições sobre o uso desses termos. Segundo o W3C15
, na Web Semântica, vocabulários
definem conceitos e relacionamentos entre termos e são utilizados para descrever e
representar uma área de interesse. Um vocabulário também pode ser considerado como
uma forma especial de ontologia ou como uma coleção de URIs com uma descrição do
significado.
Ontologias são consideradas um dos pilares da Web Semântica, mesmo não tendo
uma definição aceita universalmente. Segundo Gruber (1993) “Uma ontologia é uma
especificação formal e explícita de uma conceituação compartilhada”.
Segundo Breitman, (2010) vocabulários são usados principalmente por
indexadores para facilitar a recuperação da informação como: homônimos, sinônimos,
hierarquia e associação entre os termos. Já ontologias são usadas principalmente na troca e
compartilhamento de conceitos entre agentes automatizados (sistemas inteligentes),
organizada por classes e propriedades.
Um dos principais objetivos na utilização de vocabulários é auxiliar no processo de
descrição e integração de dados. Por exemplo, quando existirem ambiguidades de termos
nos diferentes conjuntos de dados, ou ainda, quando um conhecimento adicional é
atribuído para proporcionar a descoberta de novas relações.
Vocabulários podem ser empregados para organizar o conhecimento em
bibliotecas, museus, jornais, portais governamentais, empresas, aplicações de redes sociais
e outras comunidades que gerenciam grandes coleções de livros, por exemplo. Além
disso, um vocabulário pode ser usado para veicular notícias, descrever glossários de visita,
entradas de blog e outros itens.
Ontologias também podem ser utilizadas em qualquer área de conhecimento, no
domínio de saúde, por exemplo, quando os médicos usam termos específicos para
representar o conhecimento sobre os sintomas, doenças e tratamentos. Similarmente, uma
empresa farmacêutica usa ontologias para representar informações sobre drogas, dosagens
e alergias, por exemplo. Assim, as ontologias são usadas para criar uma descrição comum
entre as áreas, associando o conhecimento das comunidades médicas e farmacêuticas,
juntamente com dados de pacientes. É possível permitir uma ampla gama de aplicações
15
http://www.w3.org/standards/semanticWeb/ontology
26
inteligentes, tais como: (i) ferramentas de apoio à decisão que buscam possíveis
tratamentos; (ii) sistemas que monitoram a eficácia de determinadas drogas e os seus
possíveis efeitos colaterais; e (iii) ferramentas de apoio à pesquisa epidemiológica.
Trazendo estes exemplos para aplicações inteligentes, alguns sistemas podem optar
por escolher vocabulários simples ou complexos para atribuir informações de descrição
aos termos, criando um mapeamento de conhecimento comum entre as terminologias.
2.4. Proveniência
A palavra proveniência segundo Polito, (2004), possui dois significados. O
primeiro define como sendo o lugar de onde provém, emana ou se deriva algo. No
segundo, bem mais sutil, pode ser entendido como fonte, origem ou procedência.
Na área da Ciência da Computação, a literatura especializada apresenta diferentes
visões de proveniência: (i) proveniência como a documentação do processo que resultou
em um dataset (GROTH et al., 2009); (ii) proveniência representada como um Grafo
Acíclico Dirigido16
(MOREAU et al., 2008); (iii) proveniência como os locais dos quais
foram extraídos cada resultado de uma consulta em um banco de dados (Where-
Provenance) (BUNEMAN et al., 2001).
Para o Grupo de Trabalho em Proveniência do W3C17
, proveniência é um registro
que descreve pessoas, instituições, entidades ou atividades, envolvidos na produção dos
dados. A informação de proveniência é crucial para se determinar a confiabilidade dos
dados, facilitar a integração de diversas fontes e atribuir crédito aos autores em caso de
reutilização do dado.
Em um ambiente aberto e inclusivo, como a Web, é possível encontrar
informações contraditórias e duvidosas. Quando há metadados de proveniência esses
problemas podem ser amenizados.
Ainda sob a ótica do W3C, uma comparação entre informações de Proveniência e
Metadados descritivos é bastante pertinente. Os metadados descritivos são usados para
representar ou descrever as propriedades dos objetos conforme sua formação, muitas
vezes essas propriedades podem se confundir com proveniência. Desta forma, os dois
conteúdos são muitas vezes equiparados.
16
Um grafo acíclico dirigido, é um termo matemático que representa um grafo sem ciclo, ou seja, para qualquer vértice v, não há nenhuma ligação dirigida começando e acabando em v. 17
https://dvcs.w3.org/hg/prov/raw-file/tip/presentations/wg-overview/overview/index.html
27
Metadados descritivos se tornam parte de proveniência quando especificam a
derivação (origem) de um dado. Por exemplo, um dado pode ter uma propriedade que
afirma o seu tamanho, isso não é considerado informação de proveniência, uma vez que
diz respeito à forma. Porém se o dado possui metadados sobre a data de sua criação, isso é
considerado metadado de proveniência.
Em resumo, a proveniência muitas vezes é representada por meio dos metadados,
mas nem todos os metadados são informações de proveniência.
Existem vocabulários que são específicos para essa finalidade, dentre os mais
importantes está o PROV-O18
, uma recomendação do W3C publicada em Abril de 2013.
A PROV-O (PROV Ontology) é uma ontologia usada para representar e auxiliar a
troca de dados de proveniência originados de diferentes sistemas e contextos. Isso ocorre
através de um conjunto de classes, propriedades e restrições (LEBO et al., 2013). Estes
dados de proveniência são muito relevantes para atribuir valor semântico, qualidade e
confiabilidade aos dados de origem.
As classes e propriedades da PROV-O são agrupadas em três categorias: categoria
Ponto de Partida (Starting point terms), categoria Expandida (Expanded terms) e categoria
Qualificada (Terms for qualifying relationships), possibilitando um nível de detalhamento
incremental. A categoria Ponto de Partida proporciona a base para os demais termos da
PROV-O. A categoria Expandida proporciona termos adicionais para descrever, de
maneira mais detalhada, a proveniência relacionada às entidades, atividades e agentes.
Finalmente, a categoria Qualificada é o resultado da aplicação do padrão de modelagem
RDF denominado Relação Qualificada nas propriedades oferecidas pela categoria Ponto
de Partida e pela categoria Expandida (DAVIS et al., 2012).
O Ponto de Partida (Starting Point) é um pequeno conjunto de classes e
propriedades (três Classes e nove Propriedades) que podem ser usados para criar
descrições de proveniência mais simples e iniciais, conforme visualizado na Tabela 2.2.
18
http://www.w3.org/TR/prov-o/
28
Tabela 2.2 Classes e propriedades da categoria Start Point da ontologia PROV-O
Fonte : O Autor, baseado da documentação PROV-O.
Os atributos de proveniência da categoria Ponto de Partida serão utilizados para
descrever os metadados neste estudo e estão ilustradas na Figura 2.1. Nesta figura é
possível observar as relações entre os componentes da categoria Ponto de Partida, onde o
agente pode ser uma pessoa ou orgão público e está identificado por um pentágono, ele se
relaciona com uma atividade através do atributo wasAssocitedWith, representada pelo
retângulo. A entidade, representada na forma de elipse, possui vários atributos para se
relacionar com o agente e a atividade.
Para exemplificação aplicada nesta abordagem, considere o atributo que descreve o
autor do metadado, neste caso podemos usar a propriedade prov:wasGeneratedBy, ela
estaria associada a classe Agente que poderia ser uma empresa ou instituição qualquer que
gerou o metadado. Este agente se relaciona com a classe Atividade chamada geração de
metadados. Outro exemplo poderia usar a propriedade prov:startedAtTime para descrever
o metadado que indica a data de inicio da atividade, como: quando foi publicado um
determinado dado ou metadado?
Classes Propriedades
prov: Entity prov: wasGeneratedBy
prov: Activity prov: wasDerivedFrom
prov: Agent prov: wasAttributedTo
prov: startedAtTime
prov: used
prov: wasInformedBy
prov: endedAtTime
prov: wasAssociatedWith
prov: actedOnBehalfOf
29
Figura 2.1 Relacionamento entre as classes e propriedades da categoria Starting Point.
Fonte: http://www.w3.org/TR/prov-o
O modelo de enriquecimento semântico de metadados idealizado neste trabalho
contemplará algumas das propriedades supracitadas, entre elas: prov:wasAttributedTo e
prov:startedAtTime. Porém para uso e implementação do atributo de sinônimos, que prevê
a utilização de múltiplos vocabulários, as demais categorias do PROV-O, além do Starting
Point, poderão ser utilizadas, para descrever os metadados.
2.5. Enriquecimento Semântico
Segundo Chris Clarke (2009), o enriquecimento semântico pode ser entendido
como um recurso projetado para aumentar a riqueza dos dados.
O enriquecimento semântico também pode ser visto como o processo de atribuir
maior significado aos metadados e dados por intermédio da aplicação de recursos
auxiliares, objetivando facilitar a compreensão, a integração e o processamento dos dados
por pessoas e máquinas. Ou seja, o enriquecimento semântico torna os dados e metadados
mais qualificados, através do uso da semântica atribuída por vocabulários pré-existentes,
sinônimos e informações de proveniência.
30
Para realizar o Enriquecimento Semântico e obter conceitos adicionais, alguns
recursos e técnicas são usados, dentre eles podemos citar: Anotação Semântica,
Vinculação e Mapeamento de Recursos, além da conversão para modelos de dados
semânticos.
Anotação Semântica: Segundo Uren et al. (2006, apud ARANTES, 2010,
p.32), anotação semântica consiste na atribuição de semântica (significado) aos
elementos de um esquema de origem de forma manual ou automatizada por
meio da adição de informação semântica;
Vinculação e Mapeamento de Recursos: consiste em descobrir links entre as
combinações semânticas dos dados e metadados com outros recursos na Web
de dados. Segundo Sorrentino et al. (2013) é muito utilizado para interligar
recursos na nuvem LOD19
;
Conversão para modelos de dados semânticos: Consiste em modelar os
dados num formato semântico e estruturado, como RDF/XML, beneficiando
sua manipulação por aplicações que consomem esses modelos de dados.
A Figura 2.2 apresenta um exemplo que ilustra o enriquecimento de metadados
utilizando recursos semânticos disponíveis na Web. Considere, por exemplo, a manchete
"Barack Obama para presidente dos EUA", essa frase irá resultar em três entidades
nomeadas, “Barack Obama”, “presidente” e “EUA”, juntamente com o seu tipo (ou seja,
pessoa ou localização). Uma vez que as entidades nomeadas foram extraídas, serão
mapeadas para o conhecimento formalizado na Web disponível em locais como
GeoNames20
para informação de localização ou em DBpedia21
para informações das
pessoas, organizações ou eventos. A string “Barack Obama” está mapeada para sua URI
no DBPedia22
e fornece: i) um identificador único para o recurso e ii) o conhecimento
adicional sobre esta pessoa, como sua biografia, carreira e genealogia em vários idiomas.
19
http://lod-cloud.net/ 20
http://www.geonames.org 21
http://dbpedia.org 22
http://dbpedia.org/resource/Barack_Obama
31
Fonte: O Autor, baseando no trabalho de Mannens et al. 2009.
Analisando a literatura, foi possível observar que o processo de enriquecimento
semântico de metadados está fortemente relacionado ao uso das anotações semânticas.
Pelo fato de que as anotações semânticas têm for finalidade valorizar a informação,
atribuindo complemento ao seu significado. Assim o assunto merece uma análise mais
aprofundada sobre seus conceitos e definições.
2.6. Anotação Semântica
Segundo Oren et al. (2006) o termo "anotação" implica, de forma geral, em anexar
dados em algumas partes de outros dados, de acordo com a especificação de cada
domínio.
Sorrentino et al. (2013) descrevem que: “anotação semântica é o processo de
alinhamento explícito de um ou mais significados para o esquema de rótulos de
elementos, como classes e nomes de atributos”. Para Kiryakov e Popov (2004) anotação
semântica consiste em atribuir links às entidades para suas descrições semânticas com a
geração de metadados específicos. Esse processo tem como objetivo permitir novos
métodos de acesso à informação ampliando os já existentes.
Figura 2.2 Exemplo de enriquecimento de metadados com mapeamentos para recursos disponíveis na Web.
32
Uma anotação semântica tem por finalidade prover recursos para que agentes
inteligentes (software) realizem entendimento e processamento do conteúdo dos dados de
forma automatizada.
Para Oren et al. (2006) uma anotação semântica As pode ser representada como
uma quadrupla <as, ap, ao, ac>, onde:
as é o dado (ou sujeito) sendo anotado;
ao é a anotação em si;
ap é o predicado que define o tipo de relacionamento entre o as e ao;
ac é o contexto em que a anotação é feita.
Segundo Popov et al. (2003), anotação semântica é um “esquema específico para
geração e uso de metadados, possibilitando novos métodos de acesso à informação”.
Para se atribuir uma anotação semântica de forma simples, o usuário pode editar o
conteúdo de um dado de forma manual, alterando sua estrutura ou adicionando algum
significado, para que a anotação atribuída seja interpretada por pessoas e processada por
máquinas.
Como exemplo de anotações semânticas observe a Tabela 2.3, onde todas as
colunas que aparecem após a coluna Nome são compreendidas como metadados do
metadado. Estes metadados adicionais fazem o papel de anotação semântica, associando
novos valores de proveniência ao metadado original. Em outras palavras os metadados
originais não apresentam informações como: quem atribui o metadado, qual o domínio de
conhecimento, quem publicou o metadado, quando foi publicado ou modificado. Essas
informações podem ser aplicadas por anotação semântica ao conjunto de metadados
enriquecidos.
Contudo, além da atividade de anotação semântica ser uma atividade desgastante,
ela não é trivial, sua atribuição manual requer muito tempo e pode levar a erros graves
comprometendo a estrutura e o significado real da informação original. Assim, a
utilização de ferramentas e recursos apropriados para o gerenciamento de anotações é
sempre relevante.
33
Fonte: O Autor
Existem várias abordagens e ferramentas disponíveis na literatura e na Web, que
servem para exemplificar a utilização de anotação semântica, dentre elas destacam-se
algumas que utilizam tecnologias semânticas como:
Boemie23
(Bootstrapping Ontology Evolution with Multimedia Information
Extraction) é uma ferramenta baseada em ontologias para anotar arquivos de texto e
páginas da Web (FRAGKOU et al., 2008).
Docss24
(Documentalist Support System) é uma ferramenta baseada em serviços da
Web para gerar anotações classificadas acerca de documentos do Instituto Holandês para
Som e imagem, que visa facilitar a recuperação de tais documentos (BRUGMAN et al.,
2008).
Annotea25
é um projeto desenvolvido pelo Consórcio World Wide Web que
pretende fornecer anotações compartilhadas de páginas da Web (KAHAN et al., 2002).
2.7. Trabalhos relacionados
Nesta seção, são apresentados alguns trabalhos relacionados com a abordagem
proposta para enriquecimento semântico de metadados. São apresentados trabalhos nas
áreas de Dados Abertos e enriquecimento de metadados. Como um dos objetivos da
23
http://www.lrec-conf.org/proceedings/lrec2008/pdf/324_paper.pdf 24
http://www.cs.vu.nl/~schreiber/papers/Brugman08a.pdf 25
http://www.sciencedirect.com/science/article/pii/S1389128602002207
Tabela 2.3 Exemplo de Anotação Semântica
34
abordagem proposta é facilitar a atividade do publicador na geração e publicação de
metadados para Dados Abertos, uma breve análise dos trabalhos relacionados à pesquisa
será realizada.
Sorrentino et al. (2013) apresentam um método ainda em evolução para a
publicação de Dados Abertos semanticamente enriquecidos, interligando os dados
automaticamente com a nuvem LOD26
(Linked Open Data). Para isso eles usaram uma
aplicação automática de anotações semânticas nos elementos do esquema, baseado na
tradução dos conjuntos de dados para RDF. O trabalho trata exclusivamente das ações de
interligação de um dataset, com recursos da Web Semântica, para publicá-los na nuvem
LOD. Sua implementação se dá pela integração de várias ferramentas open source. A
manipulação de várias ferramentas não é trivial, pois o usuário tem que possuir um grau
elevado de entendimento sobre o conjunto de ferramentas. Outra limitação dessa solução é
que ao refazer o processo de enriquecimento para outro dataset, todo o processo deverá
ser repetido por completo, não permitindo a reutilização do que já foi enriquecido.
De forma similar, Mendonça (2013) propõe uma abordagem para coleta e
publicação de dados de proveniência para o processo de publicação de Linked Data27
(dados interligados). Nesse caso, ele utiliza um agente de proveniência para atuar em um
processo de publicação de dados executado através de um workflow de ETL (Extração,
Transformação e Carga). Este agente, denominado Agente Coletor de Proveniência,
coleta, interliga e armazena temporariamente os dados de proveniência, durante a
execução do processo de publicação de dados de acordo com os princípios de Linked
Data. Posteriormente, a proveniência coletada é também publicada como um conjunto de
dados interligados, a fim de que os dados de domínio e seus respectivos dados de
proveniência possam ser explorados conjuntamente, por meio de consultas SPARQL28
.
Algumas limitações da proposta sugerida por Mendonça (2013) podem ser
identificadas. Entre elas estão:
Falta de uma interface gráfica para apoiar a exploração dos dados de
proveniência publicados.
Restrição no tratamento dos dados de proveniência, limitados à etapa de
extração do ciclo de vida de Linked Data.
26
http://lod-cloud.net/ 27
http://www.w3.org/standards/semanticweb/data 28
http://www.w3.org/TR/rdf-sparql-query/
35
Necessidade de uma estratégia para gerenciar o grande volume de dados
gerado pela publicação da proveniência.
Na abordagem proposta neste trabalho, algumas das limitações citadas acima são
tratadas, como: é oferecida uma interface gráfica para apoiar a execução do processo de
enriquecimento, bem como são oferecidos meios para o gerenciamento de metadados e
suas informações de proveniência.
O AutôMeta (Automatic Metadata annotation tool), originado no trabalho de
Fontes (2011), apresenta uma proposta para enriquecer documentos automaticamente com
anotações semânticas, onde os termos do documento são anotados com o auxílio de uma
ontologia de domínio. Esse trabalho explora a inferência ontológica no conceito de meta-
anotação, que visa orientar os usuários e agentes no uso das anotações inferidas através da
informação sobre o raciocínio que as gerou. A meta-anotação é construída como um
mecanismo de anotação semântica multiplataforma e multi-intefarce (Linha de Comandos
e Interface Gráfica), que permite realizar desde uma anotação simples até múltiplas
anotações, também denominadas anotações em lote.
Apesar de se apresentar como uma excelente ferramenta, o AutôMeta não trata
especificamente do enriquecimento dos metadados. Todavia, ele insere informações que
auxiliam na compreensão da informação e atribui de forma automática anotação semântica
nos documentos e gera metadados adicionais. Esta abordagem não prevê o uso de um
módulo de sugestões que auxilie o usuário na hora de atribuir ou associar o conteúdo
semântico (vocabulários) ao dado. Diferentemente, o trabalho aqui proposto visa o
enriquecimento dos metadados através da anotação semântica e reuso de metadados para
facilitar as atividades do publicador de dados.
Adicionalmente, Mannens et al. (2009) descreve o enriquecimento semântico
realizado de forma automática nos metadados de notícias. Através do enriquecimento
automático de metadados de notícia a partir de um conjunto de Dados Abertos interligados
e disponíveis na Web de Dados, o conteúdo das notícias é apresentado dentro de um
amplo contexto. Além disso, disponibiliza um navegador que organiza os assuntos por
característica comuns, fornecendo uma maneira conveniente para explorar notícias com
base em uma ontologia chamada NewsML-G2.
Mannens et al. (2009) também apresentam uma ferramenta que lê a notícia e extrai
algumas entidades como, nome de pessoas, locais e empresas. Além disso, faz um
mapeamento destas entidades com recursos da Web como: GeoNames para identificar
36
locais ou DBpedia para relacionar pessoas, eventos ou empresas. Como estas entidades
estão associadas a uma URI, decorrente do mapeamento, pode-se extrair informações
complementares do DBpedia para enriquecer seu conteúdo.
No entanto, a ferramenta desenvolvida só se aplica a notícias e não a conjuntos de
dados de qualquer domínio. Também não foi identificado um módulo ou recurso que
armazene os metadados para que em um novo procedimento as informações sejam
recuperadas.
A Tabela 2.3 resume as características principais dos trabalhos discutidos
anteriormente.
Tabela 2.4 Resumo dos trabalhos relacionados
Trabalhos Objetivos Uso de
ontologias ou vocabulários
Nível de automação
Repositório Interface Gráfica
Sorrentino et al. (2013)
Interligar os dados semanticamente
enriquecidos com a nuvem Linked Data
Sim Automático Não Não
Mendonça (2013)
Uma abordagem de coleta e publicação de dados de
proveniência para o processo de publicação de
Linked Data
Sim Semi-
automático Sim Não
Fontes (2011)
Um mecanismo de anotação semântica multiplataforma e multi-intefarce, que permite
realizar desde uma anotação simples até múltiplas
anotações semânticas.
Sim Automático Não Sim
Mannens et al. (2009)
Enriquecer semanticamente uma notícia em tempo real, com recursos da Web de
dados.
Sim Automático Não Sim
Fonte: O Autor.
Diante da análise sobre os trabalhos apresentados, observou-se que não foram
encontrados trabalhos que tenham como foco o enriquecimento semântico de metadados
para Dados Abertos. Isso motivou o desenvolvimento de uma abordagem que sugerisse
uma solução para este problema, levando em consideração os recursos de: ontologias ou
vocabulários, nível de automação, repositório de metadados e prototipação com interface
gráfica para o usuário.
37
2.8. Considerações finais
Neste capítulo, foram apresentados aspectos e conceitos referentes à Dados
Abertos e metadados, seguidos de uma breve comparação entre vocabulários e ontologias
e conceitos sobre proveniência. Também foi apresentada uma revisão bibliográfica sobre
os principais conceitos de Enriquecimento Semântico e Anotação Semântica, temas
diretamente relacionados com a abordagem proposta. Uma breve descrição de alguns
trabalhos existentes acerca de Anotação Semântica, bem como, das técnicas e estratégias
existentes também foi discutida. Por fim, foi apresentada uma rápida comparação entre as
características de alguns trabalhos relacionados com esta pesquisa.
38
3. UMA ABORDAGEM PARA ENRIQUECIMENTO SEMÂNTICO DE
METADADOS
Os estudos recentemente reportados na literatura abordam, de forma limitada, o
enriquecimento semântico de metadados para publicação de dados na Web. Os trabalhos,
em sua maioria, não refletem as condições e características necessárias para solucionar a
ausência de metadados, bem como a publicação e reuso de metadados com descrições
adequadas para a compreensão dos dados. Esse fato ressalta a necessidade de facilitar a
publicação e o reuso de metadados, o que pode ser feito por meio do enriquecimento
semântico dos mesmos. Especificamente, buscam-se meios para permitir o reuso de
metadados que são utilizados com o intuito de descrever dados publicados em formato
aberto.
Neste contexto, gerar ou transformar metadados básicos em metadados mais
valiosos e com maior significado, é o intuito do estudo aqui apresentado. Este processo
será realizado por meio da adição de anotações semânticas aos metadados, a fim de fazer a
associação com padrões de vocabulários já existentes, permitindo oferecer informações
sobre a proveniência dos metadados, sinônimos e detalhes sobre seu domínio de
aplicação. Para isso, são usados termos de vocabulários específicos, como PROV-O e DC.
Neste capítulo, a abordagem proposta será apresentada de acordo com as seguintes
seções: a Seção 3.1 apresenta a descrição do processo de enriquecimento semântico. A
Seção 3.2 apresenta os atributos adotados para auxiliar na composição de um metadado
enriquecido. A Seção 3.3 apresenta as definições e utilização de anotações semânticas no
processo de enriquecimento semântico. Na Seção 3.4 está descrito o Repositório de
Metadados e sua finalidade no processo de Enriquecimento Semântico de Metadados. Na
Seção 3.5 apresenta-se uma breve exemplificação do uso de metadados enriquecidos com
o intuito de auxiliar o entendimento da proposta. E, finalmente, a Seção 3.5 aborda
algumas considerações relevantes deste capítulo.
3.1. Visão geral da abordagem para enriquecimento semântico de metadados
O enriquecimento semântico de metadados é visto como uma ação prioritária e
imprescindível para que metadados tenham maior significado e sejam acessíveis e
compreendidos por pessoas e/ou máquinas (sistemas inteligentes).
39
Algumas abordagens para atribuição de anotação semânticas utilizam inserções de
descrições através de tags entre os códigos de arquivos HTML, como no trabalho de
Fontes (2011), ou associação e mapeamento de recursos Linked Data da Web Semântica,
observados no trabalho de Sorrentino et al. (2013). Diferentemente, no estudo aqui
apresentado serão usados os processos de agregação de termos pertencentes a
vocabulários específicos já existentes a fim de descrever os metadados de um dataset de
qualquer domínio.
A Figura 3.1 apresenta a abordagem proposta para o enriquecimento de semântico
de metadados com os principais elementos que a compõem.
Fonte: O Autor.
Na Figura 3.1 é possível observar um conjunto de datasets que devem ser
processados um por vez, de forma automática, por meio da atividade de Extração de
Metadados, gerando um conjunto de metadados. Inicialmente, estes metadados são
denominados de Metadados Básicos, por apresentarem informações mínimas para a
descrição de um dado, como nome do metadado, tipo e tamanho. A etapa de Anotação
Semântica contempla a maior parte dos esforços no processo de enriquecimento
semântico. Isso porque, em alguns casos, é necessária a ação humana na atribuição
Figura 3.1 Abordagem para o enriquecimento semântico de metadados
40
manual das anotações. Nessa etapa, é realizada uma busca no repositório de metadados
para decidir se é possível reutilizar algum metadado já existente ou se é necessária a
intervenção do usuário para realização da anotação semântica dos metadados. Ao final da
atividade de anotação semântica, tem-se um conjunto de Metadados Enriquecidos, os
quais foram obtidos a partir da inclusão de anotações semânticas ou reutilização de
anotações no conjunto de metadados básicos. É importante ressaltar que a saída do
processo (conjunto de metadados enriquecidos) segue as normas e diretrizes que regem a
publicação e geração de dados abertos. Ao final de todo o processo, o conjunto de
metadados enriquecidos com anotações semânticas são armazenados em um repositório de
metadados, para que possam ser reutilizados posteriormente, e um arquivo XML/CSV é
gerado para exportação e publicação dos metadados enriquecidos.
Um dos pontos fortes da abordagem proposta está em permitir a reutilização dos
metadados enriquecidos e suas anotações. Numa visão colaborativa, várias instituições
públicas ou setores de um mesmo órgão podem gerar metadados enriquecidos, armazenar
e recuperar metadados do mesmo repositório. Dessa forma, o repositório de metadados
pode funcionar como um banco de vocabulários ou dicionário de dados específico,
semelhante ao VCGE29
, uma vez que as descrições dos termos e nomenclaturas estarão
disponíveis em um único local. Este recurso tem considerável importância, principalmente
no momento de descrever os metadados, porque sugere conteúdo relevante de forma
padronizada, na qual várias pessoas e entidades compartilharão do mesmo conceito.
O enriquecimento semântico de metadados sugerido nesta abordagem, para os
casos de reuso, é assistido pela análise de similaridade, representada pelo losango, na
Figura 3.1. Este processo de comparação é realizado entre o nome do metadado que está
sendo processado com os nomes dos metadados que estão armazenados no repositório.
Caso o metadado que está sendo processado também possua uma informação sobre o seu
domínio, esta informação também será considerada no processo de comparação, para que
a similaridade seja a mais próxima possível. Por exemplo, caso existam dois ou mais
metadados chamados endereço no repositório, porém com descrições diferentes, será
analisado as informações adicionais como o domínio de aplicação tipo saúde, segurança
ou finanças ao qual os metadados estão inseridos ou também o nome de dataset. Estas
comparações visam apresentar descrição igual ou equivalente.
29
VCGE é um vocabulário controlado para indexar informações (documentos, bases de dados, sites, etc.) no governo federal. Disponível em: <http://vocab.e.gov.br/2011/03/vcge#esquema>.
41
A similaridade vem sendo alvo de constantes pesquisas e segundo Madhavan et al.
(2001, Apud Noll R. et al. 2007), sugerem três passos para avaliação da similaridade:
Normalização: esta etapa consiste em mapear os termos equivalentes conforme
seu significado, porque pode haver termos com nomes diferentes em outros
esquemas. Dessa forma é aconselhável fazer uso de Tesauro para relacionar os
termos comuns ou referencias domínio específico.
Categorização: esta ação tem por finalidade organizar os termos em classes,
com o objetivo de reduzir a quantidade de comparações entre os termos
diferentes.
Comparação: este passo consiste em definir um ponto de similaridade, entre os
termos e suas respectivas categorias.
Neste trabalho, a análise de similaridade não considerou o passo de Normalização
e nem o passo de Categorização, pelo fato de não se utilizar um tesauro e nem separar os
termos por categoria, ou seja, foi considerada apenas a etapa de Comparação.
A análise de similaridade pode ser feita de duas formas:
Análise de similaridade léxica.
o Edit Distance: avalia duas sequências de caracteres pelo número
mínimo de operações necessárias para transformar uma cadeia em outra
(LEVENSHTEIN, 1966 apub NOLL et al. 2007);
o Stemmer: avaliação de sequência de caracteres pela redução de uma
palavra ao seu radical (STEMMER, 2007 apub NOLL et al. 2007).
Análise de similaridade semântica. A segunda perspectiva corresponde à
avaliação semântica entre os termos. Durante o passo de normalização, sugere-
se a utilização de um tesauro para avaliar relações terminológicas entre
conceitos.
Apesar da análise de similaridade semântica sugerir um tesauro para sua
aplicação, nesta abordagem ela foi seguida com algumas adaptações. A similaridade foi
aplicada fazendo uma comparação de sintaxe entre os termos armazenados no repositório,
por exemplo: o nome do metadados, o nome do dataset e/ou seu domínio de aplicação.
42
Os metadados enriquecidos são apresentados ao usuário com descrições e
características associadas aos vocabulários e às informações de proveniência, com
semântica mais clara quando comparados ao metadado original (básico).
A abordagem proposta para o enriquecimento semântico possui algumas
características peculiares apresentadas a seguir:
Facilita a atividade dos publicadores ou analistas de dados abertos, com
automação parcial do processo de anotação semântica e reuso na geração de
metadados enriquecidos;
Proporciona maior credibilidade aos metadados, uma vez que permite a
publicação de metadados com informações de proveniência;
Promove maior usabilidade dos dados e metadados, uma vez que os metadados
são enriquecidos com anotações que fazem uso de padrões de vocabulários já
existentes e ontologias específicas.
Pensando nessas características a abordagem prevê um bloco de sinônimos para
utilização e associação de múltiplos vocabulários que estão dispostos no repositório. Estes
vocabulários são sugeridos ao usuário de acordo com o domínio dos metadados. A
abordagem permite a agregação de vocabulários sem limite máximo conhecido, quanto
maior o número de vocabulários inseridos, melhor.
Outra contribuição prevista nesta abordagem é a disposição de atributos para
descrição de proveniência. Estas informações colaboram para o processo de reuso dos
metadados, uma vez que a descrição de proveniência explicita informações de origem e
histórico dos metadados, atribuindo maior credibilidade aos dados e metadados.
Esta abordagem tem um perfil semiautomático, uma vez que várias ações para o
enriquecimento dos metadados são realizadas de forma automatizada, por exemplo: a
extração dos metadados, realizada por meio de um script de manipulação dos datasets em
formato XML, que vasculha o dataset e apresenta os metadados ao publicador.
Este script de manipulação é um trecho de código que realiza a leitura de um
documento XML e analisa toda sua estrutura com o intuito de identificar quais metadados
estão sendo usados para descrever os dados. Em seguida, seleciona as tags que
representam os metadados, apresentando para o usuário os metadados básicos que até o
momento ainda não eram conhecidos.
43
Na etapa de enriquecimento semântico, o processo de anotação é feito de forma
semiautomática uma vez que é sugerido ao usuário reusar metadados. No entanto o
usuário é quem valida e decide se aceita ou não as sugestões. Esta automação, mesmo que
de forma parcial, possibilita que os metadados enriquecidos sejam gerados e
disponibilizados no formato XML, para serem publicados juntamente com seus conjuntos
de dados.
A principal ideia por trás do enriquecimento semântico é fazer o reuso de
metadados para facilitar a atividade do publicador em gerar os metadados e publicar estes
metadados nos Portais juntamente com os datasets. Além disso minimiza o problema da
ausência de metadados ou metadados com pouca descrição semântica, sabendo que é a
partir dos metadados que se pode entender os dados.
3.2. Metadados enriquecidos
Ao final do processo de enriquecimento semântico, é obtido um conjunto de
metadados enriquecidos descritos por meio de anotações, onde cada elemento do conjunto
descreve um item de metadado.
Um conjunto de metadados enriquecidos deve apresentar algumas características
como: (i) maior quantidade de atributos semânticos, que contenham um significado claro,
capaz de descrever melhor os dados; (ii) facilidade de interpretação e processamento do
conteúdo dos datasets , uma vez que o metadado estará em linguagem estruturada, ou seja,
definida de forma que pode ser processada por máquina; (iii) termos de vocabulários
padrões associados, que permitirá ao metadado se integrar a outros dados e recursos na
Web.
A descrição de um item de metadado enriquecido é composta por três blocos
principais: bloco básico, bloco de sinônimos e bloco de proveniência. Cada um dos blocos
é composto por um conjunto de atributos, conforme está descrito na Tabela 3.1. Cada um
dos atributos que compõem a descrição do metadado enriquecido está associado a um
termo que pertence ao vocabulário padrão Dublin Core30
ou a alguma das propriedades
contidas na Ontologia PROV31
. Os atributos que descrevem estes metadados são
30
http://dublincore.org/documents/dcmi-terms/ 31
http://www.w3.org/TR/prov-o/
44
considerados como meta-metadados, uma vez que geram informação e descrição adicional
ao metadado e não aos seus conjuntos de dados.
A Tabela 3.1 apresenta detalhes sobre os atributos que compõem cada um dos
blocos descritos.
Bloco básico
Este bloco é composto por atributos extraídos diretamente dos datasets de origem,
ou são descritos pelo publicador caso estes atributos não estejam presentes no dataset,
são eles: nome, descrição, tipo e tamanho. É possível que, excepcionalmente, alguns
outros atributos possam ser incluídos nesta descrição. Estes metadados dizem respeito às
informações estruturais dos metadados, ou seja, apresentam descrições relacionadas aos
dados que são publicados. Por exemplo, o valor "2014" pode ser descrito pelo seguinte
conjunto de metadados: (nome: ano, descrição: ano corrente e tipo: inteiro).
Tabela 3.1 Descrição dos atributos dos metadados enriquecidos
Divisão
Atributos Termos Descrição
Bloco básico
nome dct:title Define o nome do metadado
descrição dct:description Uma descrição do que se trata o metadado
tipo dct:type Define a natureza (tipo) do metadado
tamanho dct:format Define as dimensões em caracteres do metadado
Bloco de sinônimos
sinônimo dct:replaces Um termo de algum vocabulário relacionado que é um sinônimo
para o metadado descrito.
Bloco de
proveniência
proprietário prov:wasAttributedTo A qual entidade o metadado está atribuído
domínio dct:subject
Define o assunto ou domínio tratado pelo metadado.
publicador dct:publisher Quem é responsável por tornar o metadado público
data_publicação prov:startedAtTime Quando se iniciou a atividade de publicação do metadado
data_atualização dct:modified Representa a data em que o metadado foi alterado
Fonte: o Autor.
Bloco de sinônimos
Este bloco é representado pelo atributo sinônimo e diz respeito às informações de
mapeamento entre as similaridades do nome do metadado com os vocabulários padrões
45
existentes. Em outras palavras, procura-se estabelecer relações de sinonímia
(equivalência) entre o metadado e o termo de um vocabulário correspondente.
Os sinônimos podem mapear os metadados para outras bases de dados ou fontes
correspondentes. Por exemplo, o metadado cujo nome é "Endereco" poderia ter como
sinônimo a palavra "Logradouro" em outra base ou associado a termos de vocabulários já
conhecidos na Web, como VCGE32
, FOAF33
ou VCARD34
, utilizados para descrever
metadados referentes a pessoas e organizações de forma padronizada.
A ideia é que sejam identificados vocabulários relacionados ao domínio que está
sendo descrito e que sejam oferecidos como sugestões para o publicador. Esta abordagem
prevê a utilização de múltiplos vocabulários, contribuindo para que os metadados sejam
relacionados a outras descrições contidas nestes vocabulários padrões.
Bloco de proveniência
Este bloco é composto por atributos que permitem descrever a origem do
metadado, permitindo identificar informações de sua procedência e ciclo de vida, gerando
maior credibilidade e confiabilidade aos dados e metadados.
Os metadados de um recurso só se tornam informações de proveniência quando
indicam uma característica de sua origem ou do seu processo de produção. Por exemplo, o
metadado que informa o tipo do dado não é considerado um metadado de proveniência,
uma vez que não indica uma característica de origem ou produção do dado. Já o metadado
que informa a data de criação do arquivo é considerado um metadado de proveniência
relevante. Dessa forma, alguns metadados considerados em nosso modelo são:
proprietário, domínio_de_aplicação, publicador, data_de_publicação e
data_de_atualização.
É importante ressaltar que a proveniência dos dados é um ponto crucial para
decidir se os dados são confiáveis, tendo em vista a possibilidade de serem integrados com
outras fontes de informação, além de permitirem atribuir crédito aos seus autores. Nos
casos de informações contraditórias ou questionáveis, aplicativos podem se beneficiar da
representação explícita da proveniência para realizar o julgamento da qualidade e da
confiabilidade das informações consumidas (GIL et al., 2010).
32
http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroes-de-interoperabilidade/vcge 33
http://xmlns.com/foaf/spec/ 34
http://www.w3.org/TR/vcard-rdf/
46
Em nossa abordagem, estamos interessados em capturar informações relacionadas
especificamente à proveniência dos metadados, uma vez que buscamos facilitar o reuso de
metadados. Por exemplo, o metadado "ano" foi publicado pela instituição EMPREL em
Julho de 2013.
3.3. Uso de anotações semânticas para descrição dos metadados enriquecidos
Anotações Semânticas são usadas como recurso na atribuição de novas
informações e descrições aos metadados básicos.
O modelo adotado para representação das anotações semânticas é uma adaptação
do modelo definido por Oren et al (2006), de tal forma que uma anotação semântica
corresponde a uma tripla <as, ap, ao>, onde as é o dado (sujeito), ap é o predicado que
define o tipo de relacionamento entre o sujeito e o objeto, e ao é o objeto, valor anotado.
Neste trabalho não será utilizado o elemento ac, contemplado no modelo original
referente a informações contextuais, tendo em vista que os predicados que representam
informações de proveniência oferecem uma função similar ao que seria oferecido pelo
elemento de contexto.
Uma vez que nosso modelo passa a considerar a definição de Anotação Semântica
como uma tripla <as, ap, ao>, podemos utilizar os seguintes conceitos para nortear as
características desta abordagem, onde:
as: recebe como valor o identificador único referente a cada item de
metadado extraído do dataset. Como exemplo, o sujeito poderia ser a URL:
http://dados.recife.pe.gov.br/dataset/defesa-civil/metadado01;
ap: recebe como valor um dos atributos que representam as propriedades dos
metadados enriquecidos, de acordo com os atributos definidos na Tabela 3.1.
Como exemplo teria o atributo Publicador com o termo relacionado
dct:publisher;
ao: representa o valor associado a uma propriedade ap para um recurso as.
Por exemplo: o valor relacionado a propriedade dct:publisher seria
EMPREL.
47
Figura 3.2 Exemplo de conjunto de metadados anotados na sintaxe XML/CSV
Fonte: o Autor
Algumas linguagens foram desenvolvidas para permitir a descrição semântica de
informações. Dentre elas está o XML35
(Extensible Markup Language), outra sugestão
poderia ser RDF36
(Resource Description Framework), mas por motivos praticidade optou-
se por XM, embora em RDF a semântica estaria mais evidente. É por meio do XML que
representamos as anotações semânticas que serão aplicadas aos metadados enriquecidos
nesta abordagem. A Figura 3.2 ilustra um exemplo do metadado enriquecido no formato
XML.
No exemplo da Figura 3.2, é definido um elemento chamado Metadado, com seus
meta-metadados, representando informações estruturais, de sinônimo e os cinco últimos
são anotações que definem a proveniência dos metadados.
Assim, os metadados podem ser descritos através dos elementos de XML,
favorecendo a manipulação e processamento por máquina.
Além de representação em XML o metadado enriquecido pode se basear na
construção de triplas RDF, usado como referência para vários modelos de representação
semântica, um deles foi descrito por Oren et al. (2006) citado anteriormente. Desta forma,
35
http://www.w3.org/TR/xml 36
http://www.w3.org/RDF/
48
um exemplo de tripla utilizando esta notação para descrever um metadado
semanticamente enriquecido seria: Na interpretação humana “O metadado, é chamado
Endereço, foi publicado por Emprel na qual realizou a atividade em 31-07-2014”, esta
afirmação no formato de tripla utilizando sintaxe RDF/XML ficaria:
<rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-
civil/metadado01”><dct:title> “Endereco” </dct:title></rdf:Description>;
<rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-
civil/metadado01”> <dct:publisher> “Emprel”
</dct:publisher></rdf:Description>;
< rdf:Description rdf:about=“http://dados.recife.pe.gov.br/dataset/defesa-
civil/metadado01”> <prov:startedAtTime> “31-07-2014”
</prov:startedAtTime></rdf:Description>.
Utilizando uma notação gráfica, estas triplas são representadas conforme a Figura
3.3. Nesta Figura um recurso correspondente a URI
“http://dados.recife.pe.gov.br/dataset/defesa-civil/metadado01”, é representado pela elipse
azul, que possui uma propriedade chamada dct:title, representada por uma reta com valor
“Endereço”. O mesmo recurso também possui outra propriedade representada pelo termo
dct:publisher, com valor anotado “Emprel” que realizou a atividade de publicação do
metadado em 31-07-2014.
Figura 3.3 Exemplo de triplas RDF.
Fonte: o Autor
49
Continuando com as descrições desta abordagem, a seção seguinte trata dos
aspectos e funcionalidades do Repositório de Metadados, item fundamental no processo
de enriquecimento, implementado neste trabalho.
3.4. Repositório de metadados
O repositório de metadados é utilizado como fonte comum de metadados que
oferece uma visão organizada, padronizada e única dos termos contidos nele. Esta visão
de repositório compartilhado e colaborativo, com vários órgãos e instituições públicas é de
fato possível.
Na Figura 3.4 é possível ter uma ideia do papel do Repositório de Metadados
previsto na abordagem proposta.
Quando um dataset é processado, uma análise comparativa é feita no repositório
de metadados, com o auxílio do analisador de similaridade que recebe as informações de
nome do metadado e nome do domínio do dataset. De posse dessas informações, o
analisador checa no repositório se os metadados já foram previamente enriquecidos e,
portanto, já estão armazenados no repositório. Em caso afirmativo, os dados são
recuperados e apresentados ao usuário.. Por exemplo, um publicador carrega um dataset
de domínio na área de saúde, se os metadados que estiverem no repositório possuírem os
mesmos nomes e domínio dos metadados extraídos, os metadados armazenados serão
recuperados e sugeridos ao usuário. Caso exista mais de uma combinação, serão
recuperadas as descrições mais atuais.
Esta comparação da similaridade entre as sintaxes do nome e domínio dos
metadados não utiliza mapeamento pré-definidos entre termos de vocabulários, uma vez
que os metadados não são previamente conhecidos.
Ao final do processo de anotação semântica, os metadados enriquecidos são
persistidos no repositório de metadados.
50
Figura 3.4 Comparação e reuso de metadados com auxílio do repositório
Fonte: O Autor
Na literatura, os repositórios de dados em geral podem ser tratados com um
conjunto de recursos e implementações sofisticadas. Segundo Benacchio (2008), um
repositório de metadados deve prover funcionalidades que permita integração e acesso
independente para manipular dados e a estrutura de metadados. Para Tannenbaum et al.
(2002 apud Benacchio, 2008) o desenvolvimento de um repositório deve abordar três
aspectos em sua arquitetura:
• Base de Dados
• Metamodelos
• Software de Manipulação do Repositório
Uma das maiores contribuições do repositório é facilitar o reuso de metadados. Isto
diminui consideravelmente o esforço do usuário na publicação de metadados, uma vez que
permite a padronização nas descrições dos metadados. Por exemplo, caso o publicador
deseje atualizar e publicar os metadados de um dataset, já processado, todas as
informações serão recuperadas automaticamente. No caso do meta-atributo
data_modificacao, este já vem descrito com data atual de geração, restando ao publicador
apenas confirmar para atualizar e exportar os metadados.
51
Ao reusar os metadados é possível fazer atualização ou modificação de sua
descrição quantas vezes achar necessário. No entanto, antes de persistir as informações no
repositório, uma análise será feita na anotação, comparando seus atributos antes de
concluir o processo. Essa análise verifica se o nome do metadado que será alterado é
proveniente do mesmo dataset do qual faz reuso, se a condição for verdadeira a descrição
atual sobrepõe às informações anteriores, mas se a condição for negativa uma nova
inserção é feita no repositório com as novas descrições, associadas a outro dataset.
Uma vez que as anotações são processadas seguem para armazenamento no
repositório. O repositório é uma fonte única e padronizada de metadados comuns entre
órgão públicos e instituições do mesmo domínio, não é recomendável que o mesmo
metadado esteja associado a descrições variadas.
Implicitamente os metadados enriquecidos estarão associados a um registro com o
nome do dataset que o originou. Isso é fundamental para garantir a consistência dos
metadados no repositório e indexar estes metadados para permitir seu reuso.
Fonte: O Autor
Fonte: O Autor
Figura 3.5 Relacionamento dataset x metadados
52
A Figura 3.5(A) ilustra um exemplo de relacionamento entre metadados e datasets
associados, observe que cada metadado está relacionado a um ou mais datsets. Um
metadado enriquecido pode pertencer a mais de um dataset, como exemplo o metadado
MD1 que está ligado a três datasets diferentes. Neste caso existirá uma duplicação do
metadado, cada um com descrições distintas relativas ao seu domínio de aplicação. Eles
são agrupados por dataset, para que possam manter o registro dos metadados de mesmo
nome, associados ao seu dataset de origem, garantindo um histórico e proveniência das
informações. Esta vinculação evita problemas de perda das anotações já realizadas nos
casos de alteração ou remoção de um dataset. Além de facilitar o processo de reuso, uma
vez que os conjuntos de anotações semânticas estão organizados por domínio de aplicação
e dataset.
A Figura 3.5(B) ilustra o fato de que metadado MD1 está replicado em três
datasets diferentes DS1, DS2 E DS3, ou seja, uma instância de metadado para cada
dataset, isolando os registros de uma possível modificação ou alteração em um dataset
específico.
A Figura 3.6 apresenta o modelo lógico do repositório de metadados, e descreve os
dados que são armazenados no repositório de metadados, contendo as características
citadas nas seções anteriores. Os conjuntos de anotações semânticas ficam armazenados
na Tabela chamada metadado, e por meio dela se realiza a consulta sobre as descrições
existentes, para aplicação de reuso e apresentação ao usuário. Na Tabela
vocabularios_valor, estão contidos os termos de vocabulários pré existentes, conhecidos
como vocabulários de domínio que auxiliarão na descrição do atributo de sinônimo
sugerido ao usuário no momento da anotação. Na Tabela de dataset, estão as informações
de catalogação dos datasets que já foram processados.
É importante salientar que os conjuntos de anotações armazenadas no repositório
somente são geradas no formato XML no momento de geração dos metadados
enriquecidos para exportação e publicação.
53
Figura 3.6 Modelo lógico do repositório de metadados
Fonte: o Autor
A seção seguinte tem por objetivo expor um exemplo da transformação dos
metadados básicos para metadados enriquecidos, a fim de esclarecer a aplicação das
funcionalidades descritas neste capítulo.
3.5. Exemplo
Para ilustrar a importância do uso de metadados enriquecidos semanticamente,
considere o cenário onde uma determinada instituição governamental realiza um concurso
para criação de aplicações que consomem dados recentemente publicados no Portal de
Dados Abertos do Recife.
Para que os desenvolvedores tomem conhecimento do conteúdo disponível nos
conjuntos de dados, eles precisam, inicialmente, interpretar seus metadados (dicionários
de dados), para conhecer o conteúdo e o domínio de aplicação dos dados. Porém, é
comum não encontrar metadados para descrição dos datasets e, nos casos em que estão
54
disponíveis, seu formato não é estruturado, impossibilitando o processamento automático
dos dados.
No caso do Portal de Dados Abertos do Recife37
, os dados dizem respeito à
domínios diversos e estão distribuídos em vários conjuntos de dados. Um dos conjuntos,
denominado "Áreas de Riscos - REC" apresenta dados sobre as áreas de riscos de
desabamento do município do Recife.
Fonte: http://dados.recife.pe.gov.br/dataset/defesa-civil.
O quadro apresentado na Figura 3.6 ilustra o conjunto de metadados, atualmente
disponível no Portal de Dados Abertos do Recife, que descreve estes dados. Como
podemos observar, apenas o nome do metadado no atributo campo, juntamente com
informações sobre descrição, tipo e tamanho são disponibilizadas. Além disso, estas
informações estão disponíveis em formato pdf, o que dificulta consideravelmente o seu
reuso. Para ilustrar a abordagem proposta, considere a Tabela 3.2 que apresenta o
conjunto de metadados enriquecidos obtido após a aplicação do processo de
enriquecimento semântico nos metadados que descrevem o dataset "Áreas de Riscos -
REC".
Ao contrário do arquivo pdf, os metadados enriquecidos gerados de forma
semiautomática por meio de nossa abordagem, podem ser representados em formatos
estruturados e que podem ser processados por máquina, ampliando, dessa forma, as
possibilidades de uso e reuso dos metadados.
37
http://dados.recife.pe.gov.br/dataset/defesa-civil
Figura 3.7 Recorte de um dicionário de dados do Portal de Dados do Recife
55
Tabela 3.2 Metadados enriquecidos do dataset "Áreas de Riscos - REC"
Fonte: O Autor.
56
Além da apresentação e disponibilização dos metadados enriquecidos em XML,
também é possível simular como a abordagem sugerida trata os metadados enriquecidos
em outros formatos com possibilidades semânticas ainda maiores com o modelo RDF. A
Figura 3.7 apresenta um clássico exemplo da sintaxe RDF/XML, utilizando apenas dois
metadados do exemplo de metadados enriquecidos na Figura 3.2. As primeiras quatro
linhas correspondem aos namespaces, que no modelo apresentado anteriormente
equivalem ao link dos vocabulários utilizados pelas propriedades associadas aos
metadados. As linhas seguintes correspondem às triplas formadas pelas combinações entre
metadado (sujeito), predicado (propriedades) e objeto (valor).
Fonte: O Autor.
Figura 3.8 Trecho de código RDF/XML do metadado enriquecido.
57
O sujeito é a URL: http://repositorio.com.br/metadado, o predicado pode ser termo
dct:description e para fechar temos objeto que no exemplo equivale a descrição do
metadado: “ A Defesa Civil possui 6 Escritórios...”.
3.6. Comparação com trabalhos relacionados
No quadro apresentado pela Tabela 3.3 é descrito um breve comparativo entre os
trabalhos relacionados e a nossa abordagem. A intensão de nossa proposta é permitir um
enriquecimento que utilize os melhores recursos já existentes, como: vocabulários de
domínios, reutilização de metadados e descrições semânticas.
Nossa abordagem foi direcionada à oferecer características facilitadoras e
modernas para a ação de publicar e reusar metadados. Dessa forma, elencamos alguns
recursos encontrados nos demais trabalhos e os que foram implementados de forma
personalizada no nosso trabalho, dentre os recursos estão: ontologias e/ou vocabulários,
nível de automação, uso de repositório de metadados e prototipação com interface com o
usuário.
Na comparação com os demais trabalhos percebe-se o quão importante é o recurso
do Repositório de Metadados para o sucesso da abordagem proposta, uma vez que uma
das principais contribuições está no reuso de metadados e anotações semânticas já
processadas.
58
Fonte: O Autor
3.7. Considerações finais
Este capítulo apresentou a abordagem proposta para o enriquecimento semântico
de metadados. Foram descritos os atributos que compõem a descrição do metadado
enriquecido, bem como a utilização da Anotação Semântica para descrever os metadados
enriquecidos juntamente com algumas contribuições propostas pela abordagem. Também
foi discutido o papel do repositório de metadados e sua importância. Além disso, foi
apresentado um exemplo que ilustra o processo de enriquecimento semântico, utilizando
um conjunto de metadados, disponível no Portal de Dados Abertos do Recife. Por fim,
uma breve análise comparativa entre esta abordagem e trabalhos relacionados. No
próximo capítulo, será apresentada a implementação do protótipo desenvolvido para
avaliação desta abordagem, bem como os resultados e testes realizados.
Tabela 3.3 Quadro comparativo entre trabalhos relacionados e abordagem sugerida
59
4. IMPLEMENTAÇÃO, EXPERIMENTOS E ANÁLISE DOS RESULTADOS
A maneira mais simples de se inserir anotações semânticas nos dados é adicioná-
las de forma manual ou com o apoio de ferramentas de anotação. Entretanto, esse método
não é aconselhável, por consumir um tempo considerável e permitir que o publicador ou
analista cometa erros durante o processo. Por esses motivos, existe a necessidade de se
implementar uma rotina de automação, mesmo que de forma parcial, para auxiliar o
processo de anotação. Adicionalmente, é interessante promover um nível de transparência
para o usuário abstraindo toda a complexidade das anotações na geração de metadados
enriquecidos.
A dissertação aqui descrita consiste em propor uma abordagem para geração de
anotações semânticas baseadas em vocabulários padrões pré-existentes, informações de
proveniência e sinônimos, associadas aos metadados. Este procedimento foi realizado
seguindo um modelo pré-definido, permitindo que as instâncias criadas a partir desse
modelo fossem semanticamente enriquecidas com a intervenção mínima do publicador.
Dessa forma, o intuito é oferecer uma colaboração semiautomática na geração dos
metadados enriquecidos.
Com o objetivo de avaliar a abordagem proposta, um protótipo, denominado Open
Metadata, foi implementado. Esta ferramenta permite ao usuário realizar anotações
semânticas sobre metadados básicos, originados de conjuntos de dados abertos, além de
armazenar estas informações para reuso posterior. Na Seção 4.1, apresentamos a
arquitetura proposta para o Open Metadata. Na Seção 4.2 tem-se uma breve descrição das
funcionalidades de cada módulo. Na Seção 4.3 descrevemos as tecnologias utilizadas na
implementação do protótipo. A Seção 4.4 descreve o objetivo e contexto onde os
experimentos foram realizados. Além disso, na Seção 4.5 apresentaremos a definição das
métricas de avaliação e descrição da norma utilizada que referencia este processo, bem
como uma explicação das formas de aplicação. Prosseguindo, teremos as discussões
relevantes sobre os resultados encontrados e as principais dificuldades na Seção 4.6. Por
fim, a Seção 4.7 apresenta as considerações finais deste capítulo.
4.1. Apresentação da Arquitetura
O trabalho propõe uma abordagem para auxiliar e suprir algumas limitações
observadas nos trabalhos anteriores, tendo como maior contribuição a geração de
60
metadados semanticamente enriquecidos baseados em padrões de vocabulários e
informações de proveniência. Assim, os primeiros passos foram dados em direção da
concretização deste objetivo. Uma arquitetura foi modelada com a finalidade de direcionar
os passos necessários na implementação de um protótipo que comtemplará as
funcionalidades previstas na abordagem proposta.
A Figura 4.1 mostra a arquitetura proposta utilizada como referência para o
desenvolvimento do protótipo para o enriquecimento semântico de metadados.
Fonte: O Autor.
Inicialmente a atividade de Carregamento e Extração dos Metadados recebe o
dataset no formato XML, mas isso apenas para efeito de testes, pois na concepção da
abordagem outros formatos são previstos como CSV e JSON. Nesta atividade o dataset é
identificado e processado para que sejam extraídos os metadados que serão enriquecidos.
O Enriquecedor Semântico recebe os metadados básicos, extraídos pela ação
anterior e, em seguida, solicita o apoio do Analisador de Similaridade, que consultará o
repositório de metadados. Caso algum metadado não tenha sido favorecido com a ação de
reuso seguirá para inserção das anotações semânticas adicionadas pelos usuários.
O Repositório de Metadados é responsável por armazenar o conjunto de
anotações semânticas associadas aos metadados enriquecidos e estarão disponíveis para
Figura 4.1 Arquitetura do Enriquecedor Semântico de Metadados – Open Metadata
61
serem resgatados, caso o processo necessite fazer reuso na atribuição das descrições aos
metadados básicos. Este recurso é indispensável para o sucesso da geração de metadados.
Já o componente do Repositório de Vocabulários é base específica indicada para
armazenar os vocabulários padrões, que servirão de suporte para alimentação do atributo
“sinônimo” usados para agregação de informação por anotação semântica.
A atividade de Seleção pode realizar duas ações: a primeira sugere ao publicador
opções de termos de vocabulários disponíveis no repositório de vocabulários, e a segunda
sugere reuso da descrição originalmente atribuída ao vocabulário padrão. Se o termo de
vocabulário for equivalente ao metadado processado, será associado no atributo de
sinônimo.
O Analisador de Similaridade foi implementado especialmente para esta
abordagem e corresponde a um trecho de código de programação utilizado para
comparação sintática de termos. Este módulo faz uma análise entre o nome do metadado
carregado e o os nomes de metadados armazenados no repositório, verificando se o
mesmo já foi processado, caso a condição seja positiva o processo de reuso dos registros é
acionado. Para cada processamento de um novo dataset, aumenta o grau de reuso, uma
vez que cada novo metadado descrito será mais um item enriquecido no repositório,
amplificando as chances de haver uma similaridade entre os termos.
4.2. Funcionalidades do Open Metadata
A Figura 4.2, apresenta um diagrama de Caso de Uso que ressalta as principais
funcionalidades da aplicação.
Anotar metadado: permite que o usuário insira, edite e remova anotações
semânticas aos metadados básicos. Essas anotações são representadas por
meta-atributos que descrevem explicitamente o metadado enriquecido;
Reusar metadados: Está vinculada a atividade de anotação, é uma ação
obrigatória, o protótipo recupera o conteúdo dos metadados já enriquecidos de
forma automática para agilizar e facilitar a execução da funcionalidade de
anotação. A recuperação do metadado já enriquecido se dá pela verificação de
similaridade entre o nome do metadado e o domínio ao qual ele está associado
62
no repositório. Cabe ao usuário aceitar a sugestão fornecida pela aplicação e
decidir se irá permanecer com os metadados recuperados ou não.
Figura 4.2 Diagrama de Caso de Uso do protótipo Open Metadata.
Fonte: O Autor.
Atualizar metadados: Da mesma forma que o publicador pode gerar e anotar
metadados, ele também pode fazer atualizações nas anotações semânticas e
metadados já processados. O processo de atualização leva em consideração o fato
de que os metadados são agrupados por dataset, dessa forma um metadado ou
descrição modificada não afeta uma outra instância de metadado, uma vez que são
geradas réplicas (uma réplica para cada dataset).
Exportar metadados: É a ação final em que o publicador gera os metadado
enriquecidos com as anotações semânticas para que possam publicar os arquivos
juntamente com os datasets em seus portais de Dados Abertos.
63
4.3. Tecnologias utilizadas na implementação do protótipo
O protótipo foi desenvolvido em Java com a tecnologia JSP para plataforma web.
O ambiente utilizado para o desenvolvimento da aplicação foi o Eclipse Java EE IDE for
Web Developers Release 4.3.2. Para o desenvolvimento do protótipo e testes e avaliação
foi usada uma máquina com processador Intel core i3, 3GB de memória RAM e Sistema
Operacional Windows 7 Ultimate. Além destas configurações de hardware e SO, foram
usados outros recursos e tecnologias descritos a seguir:
Extensible Markup Language38
(XML): Linguagem de marcação de texto
flexível, definida pela Norma ISO8879 e desenvolvida pelo W3C (BRAY et
al., 2004);
Java Servlets39
: Servlets é uma tecnologia Java similar à tecnologia Common
Gateway Interface (CGI). São códigos java que adcionam funcionalidades a
um servidor Web;
Web Server Apache Tomcat40
: Servidor Web baseado de uso livre e de
código aberto focado nas tecnologias Java Servlets e JSP (Java Server Pages);
Java Web Services41
: São aplicações cliente e servidor, as quais fornecem um
meio padrão de interoperabilidade entre aplicativos de software em uma
variedade de plataformas e frameworks. Além de possui grande
interoperabilidade e extensibilidade, devido ao uso de XML;
MySQL42
: É o Sistema de banco de dados de código aberto mais popular do
mundo. Com excelente velocidade, confiabilidade e facilidade de uso, o
MySQL se tornou a escolha preferida para a Web, Web 2.0, pois elimina os
principais problemas associados com o tempo de inatividade, manutenção e
administração para as modernas, aplicações online.
38
http://www.w3.org/XML/ 39
http://oracle.com 40
http://tomcat.apache.org/ 41
http://www.oracle.com/technetwork/java/Webservices-136604.html 42
http://www.mysql.com/about/
64
Para permitir uma melhor interação com o usuário, o protótipo Open Metadata
possui uma interface gráfica, que permite ao usuário realizar as atividades de anotação
semântica. Esta interface visa auxiliar o usuário quanto à utilização das principais funções
da ferramenta, fazendo uso intensivo de recursos pré-configurados.
Na tela inicial do Open Metadata, ilustrada na Figura 4.3, o usuário deve indicar o
dataset onde será aplicado o processo de enriquecimento semântico. Se este dataset ainda
não foi processado, será solicitado ao usário para adicionar informações de identificação
do dataset para catalogação. O protótipo está implementado para aceitar datasets nos
formatos XML/CSV, caso o usuário carregue outro formato a aplicação apresentará uma
mensagem acusando que o formato carregado não é o desejado.
Figura 4.3 Tela inicial do Open Metadata
Fonte: O Autor.
Na Figura 4.4 é possível observar a funcionalidade de anotação semântica, onde o
usuário preenche as lacunas com o valor correspondente para cada propriedade do
metadado, alguns campos são previamente peenchidos por reuso facilitando a atividade do
usuário. Após este procedimento o metadado enriquecido é gerado e apresentado em um
documento XML disponível para exportação e armazenamento, conforme apresentado na
Figura 4.5.
65
Figura 4.4 Tela de anotação semântica dos metadados.
Fonte: O Autor.
Na Figura 4.5 uma pré-visualização é apresentada para o usuário realizar uma
conferência das anotações realizadas antes de gerar em definitivo os metadados
enriquecidos. Caso contrário, ele pode voltar e corrigir algum valor, sem precisar refazer
tudo. É possível também fazer uma consulta no repositório para ver as anotações já
armazenadas pelo botão “Consultar Repositório”.
4.4. Objetivo e contexto de avaliação
O objetivo dos experimentos executados nesta seção é avaliar a abordagem
proposta, justificando seu desenvolvimento para facilitar a publicação e reuso de
metadados. Fazendo uso do protótipo projetado exclusivamente para atender esta
necessidade.
66
Figura 4.5 Tela de pré-visualização das anotações semânticas
Fonte: O Autor.
Para aplicação do protótipo e realização dos experimentos foi definido um cenário
de acordo com suposições de uso e atividades de um analista responsável pela publicação
de dados abertos. Salienta-se que a abordagem proposta, pode ser aplicada a metadados e
datasets provenientes de qualquer domínio de conhecimento, sem qualquer distinção. Para
a realização dos experimentos, alguns datasets foram coletados e tiveram seus metadados
enriquecidos com anotações semânticas. Os metadados utilizados no processo são reais e
válidos e podem ser coletados de qualquer Portal de Dados Abertos na Web.
Os experimentos realizados neste trabalho usaram datasets publicados pelo Portal
de Dados Abertos da Cidade do Recife43
. Selecionamos um dataset do grupo de saúde e
outro do grupo de urbanismo. Estes conjuntos de dados foram usados como estudo de caso
uma vez que seus metadados não estão publicados de forma adequada para o reuso e nem
processáveis por máquina.
A ideia é extrair destes volumes os metadados básicos e enriquecê-los. Uma cópia
destes datasets foi convertida em XML para que pudéssemos realizar os testes. Como os
43
http://dados.recife.pe.gov.br.
67
datasets estão em formato estruturado foi possível interpretar e processar as informações
para implementação e ter como saída os metadados enriquecidos no formato de
documento estruturado XML, sintaxe devidamente reconhecida como modelo apropriado
para disponibilização e interoperalização entre dados e metadados na Web.
4.5. Métricas de avaliação
As métricas para avaliação de software são necessárias para avaliar a qualidade e
produtividade do processo de desenvolvimento e manutenção de software, bem como do
produto final construído (ABRAN et al., 2003).
As métricas de software podem ser divididas em duas categorias: medidas diretas e
medidas indiretas. Podemos considerar como medidas diretas, na visão de engenharia de
software, o custo, a manutenção do software e do produto, a quantidade de linhas de
código produzidas e o total de defeitos registrados durante um determinado período de
tempo. Segundo Marco Aurélio, colunista da revista Bate Byte44
, a qualidade e a
funcionalidade do software ou a sua capacidade de manutenção são mais difíceis de serem
avaliadas e só devem ser medidas de forma indireta.
Como a avaliação para este trabalho tem a intenção de medir a eficácia da
abordagem proposta no processo de enriquecimento semântico de metadados, com a
utilização de um protótipo de forma semiautomática, decidiu-se empregar a categoria de
avaliação das medidas indiretas, avaliadas pela ação dos usuários que interagem com o
software.
4.5.1. Metodologia de Avaliação
A metodologia de avaliação para este trabalho foi concebida com base nas normas
ISO/IEC 25022, em conjunto com a norma ISO/IEC 25010. A norma 25010 é uma revisão
da norma ISO/IEC 9126-1:2001 e incorpora as mesmas características de qualidade de
software, com algumas alterações:
Segurança: foi adicionado como uma característica, em vez de uma
subcaracterística de funcionalidade.
Portabilidade foi dividida em transferência e compatibilidade (incluindo
interoperabilidade). 44
http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=88
68
Foram adicionadas as seguintes subcaracterísticas: robustez, utilidade,
acessibilidade técnica, modularidade, reusabilidade e portabilidade.
Qualidade foi dividida em usabilidade, flexibilidade e segurança.
Já a ISO/IEC 25022 substitui a antiga norma ISO/IEC 9126-4, que corresponde a
uma parte da série de padrões SQuaRE. A ISO/IEC 25022 representa exatamente as
características de usabilidade, flexibilidade e segurança.
Estas normas citadas descrevem modelos de qualidade do produto de software,
subdividida nas categorias:
a) qualidade interna e externa;
b) qualidade em uso;
c) qualidade dos dados.
Embora exista uma categoria voltada para avaliação da qualidade dos dados, ela
não se adequava a avaliação da abordagem proposta, uma vez que suas métricas avaliam
os dados de maneira geral e não dados ou metadados semânticos. Deste modo, o modelo
de Qualidade em Uso (Quality in use), foi o que mais se adequou porque visa avaliar as
funcionalidades do protótipo desenvolvido. Esta métrica considera como principal
avaliação a análise feita pelo usuário em um ambiente computadorizado específico de
acordo com seus atributos (ISO/IEC 25022, 2012).
Assim será avaliada a implementação da abordagem e suas funcionalidades, por
meio do protótipo desenvolvido que será usado para facilitar a atividade dos publicadores
na publicação e reuso de metadados para dados abertos.
As sub-características de Usabilidade podem ser agrupadas em quatro categorias:
Eficácia, Eficiência, Satisfação e Usabilidade em Conformidade, devidamente
apresentadas na Figura 4.6.
.
Eficácia (Effectiveness in use): É a capacidade do software de permitir que
usuários atinjam metas especificadas com acurácia (nível de exatidão) e
completude, em um contexto de uso especifico.
Eficiência (Efficiency in use): É a capacidade do software de permitir que
seus usuários empreguem quantidade apropriada de recursos em relação à
69
eficácia obtida. Na nossa abordagem os recursos relevantes para avaliação
foram: tempo para completar a tarefa e esforço do usuário.
Figura 4.6 Modelo de qualidade para a métrica qualidade em uso.
Fonte: ISO/IEC 25022:2012 - (SQuaRE).
Satisfação (Satisfation in use): Capacidade do software de satisfazer as
necessidades dos usuários, em um contexto específico. A satisfação é a
resposta do usuário à interação com o produto e inclui atitudes relacionadas ao
uso do produto.
Usabilidade em conformidade (Usability in use compliance): Avaliar o grau
em que um produto ou sistema reduz o risco potencial com relação à situação
econômica, a vida humana, a saúde e ao meio ambiente.
Neste estudo não foram previstas medições com relação à característica de
Usabilidade em conformidade, uma vez que a implementação não considerou em seu
escopo o grau de risco ou ameaça.
70
4.5.2. Estabelecendo os requisitos de avaliação
Após a definição das características que serão consideradas na Tabela 4.1, um
conjunto de métricas relevantes ao sistema a ser avaliado foi definido de acordo com a
norma ISO/IEC 25010.
Tabela 4.1 Quadro de métricas definidas na avaliação
Características Métricas
1. Eficácia Percentual de tarefa concluída
Grau de Eficácia da tarefa
2. Eficiência Desempenho na realização da tarefa
Eficiência da tarefa
3. Satisfação Nível de Satisfação
Nível de Confiança
Nível de Facilidade de uso
Nível de Utilidade
Fonte: O Autor.
De acordo com as definições elencadas na Tabela 4.1, descrevemos a seguir
algumas características para esclarecer e facilitar o entendimento de como cada métrica
será aplicada no processo de avaliação e execução das tarefas.
Eficácia
Percentual de tarefa concluída: mensura a proporção das tarefas que
foram concluídas corretamente;
Grau de Eficácia da tarefa: mede a proporção das tarefas finalizadas
corretamente.
Eficiência
Desempenho na realização da tarefa: mede o desempenho em relação
ao tempo para se completar uma tarefa;
Eficiência da tarefa: mensura quão eficiente foram os usuários.
Satisfação
Nível de Satisfação: mede o nível de satisfação do usuário com relação à
interação com o protótipo;
Nível de Confiança: mede o nível confiança que o protótipo transmite
aos usuários, com relação às funcionalidades do software;
Nível de Facilidade de uso: mede o nível de usabilidade do software, ou
seja, se o protótipo é intuitivo e de fácil manipulação.
71
Nível de Utilidade: mede o nível de importância do software para auxílio
nas atividades de geração de metadados.
Tabela 4.2 Métricas para avaliação da característica Eficácia.
MÉTRICA DE EFICÁCIA
NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME45
METODO Percentual de
tarefa concluída
E1 Qual a proporção das tarefas que foram
concluídas corretamente?
X= A/B, onde A = número de tarefas concluídas e B = número total de tentativas para concluir a tarefa.
Medição da ação do usuário
Grau de Eficácia da tarefa
E2 Qual o grau dos objetivos alcançados corretamente
de cada tarefa?
X = 1 - ∑ Ai| X>0, Onde Ai = valor proporcional de cada erro na saída
da tarefa.
Medição da ação do usuário
Fonte: ISO/IEC 25022:2012 - (SQuaRE).
Segundo a norma ISSO/IEC 25022, o valor de Ai representa as deduções
ocasionadas por erros ou falha de execução na tarefa, ou seja, será atribuído um percentual
por cada tipo de ocorrência, e este percentual será deduzido de 100% ao se aplicar a
função de medição.
Tabela 4.3 Métricas para avaliação da característica Eficiência.
MÉTRICA DE EFICIÊNCIA
NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME METODO Desempenho na
realização da
tarefa
F1 Qual o tempo gasto para completar uma
tarefa?
X= T, onde T= tempo computado de concluir cada tarefa.
Medição da ação do usuário
Eficiência da tarefa
F2 Quão eficientes foram os usuários em uma
dada tarefa?
X= (Tt – Ta)/Tt, onde Tt = Tempo máximo para se concluir a tarefa e Ta= tempo gasto para realização
da tarefa.
Medição da ação do usuário
Fonte: ISO/IEC 25022:2012 - (SQuaRE).
45
QME - Quality Measure Element
72
Estando as métricas definidas e apresentadas, com base na norma ISO/IEC 25022,
foram criadas as fórmulas de avaliação do software (protótipo), conforme podem ser
visualizadas nas Tabelas 4.2, 4.3 e 4.4. A princípio, para efeito de cálculo das formulas,
todas as medidas de qualidade empregam a função de medição que normaliza os valores
entre 0,0 e 1,0 considerando como valor ideal o que estiver mais próximo de 1.
Tabela 4.4 Métricas para avaliação da característica Satisfação.
MÉTRICA DE SATISFAÇÃO
NOME ID DESCRIÇÃO FUNÇÃO DE MEDIÇAO E QME METODO Nível de Satisfação S1 Qual o nível de
satisfação do usuário?
Escala do tipo Likert
46 de 7 pontos,
onde 1 = pior classificação e 7 = melhor classificação.
Questionário
Nível de confiança S2 O usuário confia no sistema?
Questionário
Nível de Facilidade de uso
S3 O sistema é de fácil usabilidade?
Questionário
Nível de utilidade S4 Qual o nível de utilidade do sistema?
Questionário
Fonte: ISO/IEC 25022:2012 - (SQuaRE).
Estas tabelas ajudam a entender melhor o processo de avaliação, bem como
oferecem um guia para a análise dos resultados. Dessa forma, é possível obter uma
medida que avalie a importância e a contribuição da abordagem proposta e da ferramenta
desenvolvida.
4.5.3. Descrição do grupo de avaliadores participantes
A coleta dos dados foi realizada através de formulários e questionários
desenvolvidos de acordo com as funcionalidades do protótipo. Os experimentos foram
direcionados à dois grupos de usuários. O primeiro grupo com perfil de estudante,
composto por alunos de Pós-Graduação do Centro de Informática da UFPE, considerados
usuários leigos no tema dados abertos e metadados, porém, com considerável
conhecimento em Banco de Dados. Já o segundo grupo foi composto por usuários
chamados profissionais com conhecimento prévio sobre metadados e Dados Abertos.
46
http://thefutureplace.typepad.com/the_future_place/2010/09/the-likert-scale-tarsk-14-things-all-researchers-should-know.html
73
Estes avaliadores são funcionários da Emprel47
- Empresa Municipal de Informática,
responsável pela manutenção e publicação dos dados abertos do Portal de Dados do
Recife.
Como o processo de avaliação tem perfil prático e operacional, a norma ISO/IEC
25022 não cita um número mínimo nem máximo para definição do grupo de avaliação e
entrevistados. Por sugestão e exemplos segundo alguns trabalhos, como Brown et al.
(1999) e Nnielsen et al. (1993), foram definidos dois grupos de participantes avaliadores,
totalizando seis usuários selecionados. Estes grupos foram divididos da seguinte forma:
três usuários leigos e três especialistas na área de Dados Abertos. Algumas informações
dos participantes estão descritas na Tabela 4.5. Todos realizaram as mesmas tarefas de
caráter prático seguindo os mesmos critérios de ação e tempo para execução, sem
qualquer distinção.
A avaliação ocorreu “in loco”, tanto para o primeiro grupo, quanto para o segundo
grupo. Com duração média de cinquenta minutos para cada grupo. A elaboração dos
documentos de apoio à avaliação considerou apenas as funcionalidades do sistema que o
usuário tem acesso. Os formulários e questionários elaborados para esta etapa encontram-
se nos Apêndices A e B deste trabalho.
Os participantes com ID do 1 ao 3 correspondem ao grupo de leigos em Dados
Abertos e são alunos de Mestrado do CIn. A partir do ID 4 ao ID 6, está o grupo dos
profissionais de Dados Abertos com experiência média de 1 ano e 4 meses na área de
Dados Abertos.
Tabela 4.5 Atributos dos participantes no processo de avaliação
ID PERFIL TEMPO DE ATIVIDADE INSTITUIÇÃO 1 Estudante - Cin/UFPE
2 Estudante - Cin/UFPE
3 Estudante - Cin/UFPE
4 Profissional 1 ano e 4 meses EMPREL
5 Profissional 1 ano e 4 meses EMPREL
6 Profissional 1 ano e 3 meses EMPREL
Fonte: O Autor.
47
http://www.emprel.gov.br
74
4.5.4. Descrição das tarefas e cenários para teste
As tarefas executadas pelos usuários foram elaboradas a partir das principais
funções oferecidas pelo sistema e identificadas por:
Tarefa 1: Anotar metadados;
Tarefa 2: Reusar metadados;
Tarefa 3: Atualizar metadados.
As funcionalidades de Carregar e Exportar metadados, observadas no diagrama
Use Case, não foram avaliadas de maneira formal, tendo em vista que elas são atividades
que estão embutidas no processo de enriquecimento como um todo.
Através do um esquema de pontuação para o cálculo dos objetivos alcançados é
possível interpretar as informações atribuídas pelos avaliadores. Para cada tarefa foram
respeitadas as regras de esquema a seguir:
O tempo de cada tarefa realizada utilizando o protótipo foi computado;
Cada tarefa teve um tempo máximo para conclusão de 20min;
Para cada tarefa concluída com sucesso foi atribuído um valor de 100%.
Para cada ocorrência de erro ou falha do sistema, serão deduzidos 20% do
valor de eficácia.
Baseado no modelo sugestivo de exemplo, disponível no documento da Norma
ISO/IEC 25022, (2012), consideram-se erros: i) as ocorrências onde o usuário não
conseguir anotar todas as descrições para os atributos ou ii) se estas descrições não
estiverem coerentes com o metadado anotado e iii) para as falhas de execução, considera-
se qualquer inoperância apresentada pelo sistema, problemas que impeçam o trabalho do
usuário. É importante observar que as deduções somadas que igualem ou ultrapassem
100% serão informadas com 0% de realização do objetivo, ou seja, nível de eficácia
zerado.
Para auxiliar no processo de experimentação, foram utilizados três conjuntos de
dados, dois coletados diretamente do Portal de Dados do Recife e um genérico criado
especialmente para o teste. Selecionamos um dataset do grupo de saúde chamado
“hospitais.xml” e outro do grupo de urbanismo chamado “areasriscoregiaosul2.xml”, a
única relação entre eles são alguns metadados. O terceiro dataset se chama “new.xml”
criado exclusivamente para os experimentos.
75
Tarefa 1: Anotar metadados
Descrição: O analista carrega um dataset inédito, ou seja, que ainda não foi
processado pelo Open Metadata, e realiza as anotações semânticas nos metadados, neste
caso sem reuso de metadados. Após isto os metadados enriquecidos serão salvos no
repositório e, concorrentemente, acontece a geração do metadado enriquecido
disponibilizado em um documento XML para exportação.
Exemplo: O usuário carrega um dataset chamado “hospitais.xml”, dele são
extraídos alguns metadados como: código, endereço e bairro. Estes metadados receberão
novos metadados para sua descrição, tais como “descricao”, “tipo”, “sinonimo”,
“atribuido_por” e “data_publicacao”. Cada metadado receberá um valor e todo o
conjunto de anotações será persistido no repositório de metadados e gerado um arquivo
XML com os metadados anotados.
Tarefa 2: Reusar metadados
Descrição: O analista carrega um dataset que ainda não passou pelo processo de
enriquecimento. Se este dataset possuir metadados que têm equivalência com metadados
que já foram enriquecidos anteriormente, o protótipo irá sugerir ao usuário que tem o
poder de definir se aceita ou não. No entanto o reuso só será realizado se os nomes dos
metadados forem similares e do mesmo domínio.
Exemplo: O analista carrega um novo dataset agora chamado de “escolas.xml”.
Deste dataset são extraídos alguns metadados, como: regional, endereço e telefone.
Observe que o metadado endereço é equivalente ao metadado apresentado no dataset
anterior, poderia ser logradouro e, neste caso, passaria como similaridade. Além disso, é
necessário que o domínio seja o mesmo para que a descrição seja a mais coerente
possível. Neste caso, o Open Metadata recupera os valores do metadado endereço que já
foi processado e oferece como sugestão ao analista.
Tarefa 3: Atualizar metadados
Descrição: O analista pode alterar e atualizar metadados à vontade, no entanto o
protótipo realiza uma verificação e compara se as informações de dataset e metadados são
iguais a do dataset que originou os metadados. Se a condição for positiva ele substitui as
descrições, caso contrário ele duplica o metadado criando uma nova informação associada
ao dataset correspondente. Este processo é necessário para manter o histórico e
consistência das descrições.
76
Exemplo: Neste exemplo o analista carrega um dataset que já foi processado,
“hospitais.xml” ou “escolas.xml” ou um terceiro dataset que possua metadados já
enriquecidos. Ao iniciar o carregamento, os metadados serão recuperados, de acordo com
as combinações de nome e domínio. Depois disso o usuário poderá seguir com as
alterações, inserindo as anotações que desejar. É importante informar que se o dataset for
o mesmo que originou os metadados recuperados, então estas alterações irão substituir as
antigas no repositório de metadados.
Fonte: O Autor
Figura 4.7 Trecho dos metadados semanticamente enriquecidos na sintaxe XML
77
Como resultado dos testes, os publicadores geravam os metadados enriquecidos
em formato XML, representando todas as descrições geradas nos testes e o processo de
anotação semântica e reuso de metadados previstos no enriquecimento semântico. Na
Figura 4.7 é possível visualizar um exemplo dos metadados enriquecidos em XML,
produzido pelo protótipo Open Metadata na etapa de avaliação.
A ideia é que os publicadores passem a publicar estes metadados juntamente com
os seus datasets, uma vez que estes metadados são mais ricos, comparados aos metadados
normalmente disponibilizados originalmente. Quando o publicador disponibilizar seus
datasets, eles poderão de forma semiautomática gerar os metadados correspondentes a
este dataset, e publicá-lo no portal de dados abertos, tendo em vista que muitas vezes os
publicadores não disponibilizam os metadados por ser considerada uma atividade que
demande tempo ou mesmo conhecimento técnico.
4.6. Compilação dos dados e análise dos resultados
Uma vez que as tarefas foram aplicadas no processo de experimentação, avaliou-se
o grau de Eficácia e Eficiência do protótipo para publicação e reuso de metadados
enriquecidos semanticamente, de acordo com a norma ISO/IEC 25022. Também levou-se
em consideração o nível de satisfação dos usuários com relação ao protótipo e suas
funcionalidades.
As Tabelas de 4.6 a 4.13 mostram os resultados coletados para as atividades
realizadas com relação às sub-características de Eficácia e Eficiência. Na Tabela 4.14 são
apresentados os resultados para a sub-característica de Satisfação.
Na tarefa de Anotar metadados semanticamente, os dois grupos de participantes da
avaliação conseguiram concluir a tarefa com apenas uma tentativa, esta tarefa foi a
atividade de maior esforço para os participantes com um tempo médio de 8 minutos e 10
segundos para realização da tarefa, totalizando uma proporção média de desempenho de
60%, com relação ao tempo máximo previsto para conclusão da tarefa.
78
Tabela 4.6 Coleta de dados do grupo de estudantes para a tarefa 1.
Grupo 01 - RESULTADO TAREFA 1: Anotar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
1 100 80 7.48 63
2 100 80 7.47 63
3 100 60 8.46 57
MÉDIA 100 73 7.80 61
MIN 100 60 7.47 57
MÁX 100 80 8.46 63
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Os participantes leigos, representados na Tabela 4.6, encontraram mais
dificuldades na associação de descrição aos metadados, principalmente por não conhecer
o conteúdo dos datasets. Assim verifica-se o nível de eficácia mais baixo, na execução do
experimento de Anotar metadados com o uso do protótipo. De forma contrária aos
usuários leigos, os profissionais de dados abertos obtiveram melhor média de eficácia
nessa atividade, apresentados na Tabela 6.7. Esse fato é justificado pela experiência
prévia com os datasets e preciosismo em preencher todas as descrições para os
metadados, objetivando apresentar uma informação mais coerente.
Tabela 4.7 Coleta de dados do grupo de profissionais para a tarefa 1.
Grupo 02 - RESULTADO TAREFA 1: Anotar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
4 100 100 6.57 67
5 100 80 9.37 53
6 100 100 9.27 53
MÉDIA 100 93 8.40 58
MIN 100 80 6.57 53
MÁX 100 100 9.37 67
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
79
Tabela 4.8 Coleta de dados do grupo de estudantes para a tarefa 2.
Grupo 01 - RESULTADO TAREFA 2: Reusar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
1 100 100 3.29 83
2 100 100 2.27 88
3 100 100 4.54 77
MÉDIA 100 100 3.36 83
MIN 100 100 2.27 77
MÁX 100 100 4.54 88
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Na tarefa 2, tanto o Grupo 1 e Grupo 2, atingiram uma Eficácia de 100% e
Eficiência média de 83%. Essa eficiência diz respeito a conclusão da tarefa em relação ao
tempo de conclusão. Um resultado excelente, neste cenário alguns metadados de mesmo
domínio podem ser reutilizados, uma vez que estão persistidos no repositório de
metadados. Com isso a eficácia e a eficiência atingem altos índices. Assim a ação é
otimizada, atingindo o propósito de facilitar e acelerar o reuso dos metadados.
Tabela 4.9 Coleta de dados do grupo de profissionais para a tarefa 2.
Grupo 02 - RESULTADO TAREFA 2: Reusar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
4 100 100 3.03 84
5 100 100 2.55 87
6 100 100 6.49 67
MÉDIA 100 100 4.02 79
MIN 100 100 2.55 67
MÁX 100 100 6.49 87
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Para a Tarefa 3, os participantes puderam reprocessar um dataset e atualizar seus
metadados, caso estivessem persistidos no repositório. Mais uma vez, todos completaram
a tarefa e, como era esperado, o grupo de profissionais, correspondentes aos participantes
do Grupo 2, atingiram uma Eficiência mais próximo dos 100%, situação ideal.
80
Tabela 4.10 Coleta de dados do grupo de estudantes para a tarefa 3.
Grupo 01 - RESULTADO TAREFA 3: Atualizar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
1 100 100 4.52 77
2 100 100 4.38 78
3 100 100 5.07 74
MÉDIA 100 100 5.05 76
MIN 100 100 4.38 74
MÁX 100 100 5.07 78
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Na Tabela 4.10 estão apresentados os valores coletados do Grupo 1, a média de
tempo para realização desta tarefa é de 5 minutos e 5 segundos. Este valor é quase o
dobro da média do Grupo 2.
Tabela 4.11 Coleta de dados do grupo de profissionais para a tarefa 3.
Grupo 02 - RESULTADO TAREFA 3: Atualizar metadados
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
4 100 80 3.04 84
5 100 100 2.19 89
6 100 80 2.08 90
MÉDIA 100 87 2.43 88
MIN 100 80 2.08 84
MÁX 100 100 3.04 90
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Nas Tabelas 4.12 e 4.13 são apresentados um resumo das médias de cada
participante por grupo, sobre a execução das três atividades. Apesar dos testes serem
realizados por dois grupos bem distintos, os resultados foram bem próximos com uma
leve vantagem para o grupo de profissionais. No entanto a finalidade deste trabalho não é
gerar um ranking de desempenho dos participantes, mas sim avaliar o protótipo como
ferramenta de colaboração para a atividade dos usuários na publicação e reuso de
81
metadados. Os valores dos experimentos mostram que o protótipo é didático na interação
com usuários leigos e usuários com conhecimento avançado em dados abertos.
Tabela 4.12 Resultado da análise combinada das tarefas referente ao Grupo 01.
Grupo 01 - RESULTADO COMBINADO DE DESEMPENHO
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
1 100 93 5.36 74
2 100 93 5.10 76
3 100 86 6.02 69
MÉDIA 100 90 5.49 73
MIN 100 86 2.27 57
MÁX 100 93 8.46 88
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
Tabela 4.13 Resultado da análise combinada das tarefas referente ao Grupo 02.
Grupo 02 - RESULTADO COMBINADO DE DESEMPENHO
ID PARTICIPANTE TAREFAS REALIZADAS
(%) X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA
TAREFA, X= T (min)
EFICIÊNCIA DA TAREFA (%) X = (Tt – Ta)/Tt
4 100 93 4.21 78
5 100 93 5.10 76
6 100 93 6.34 70
MÉDIA 100 93 5.21 75
MIN 100 93 2.08 53
MÁX 100 93 9,37 90
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
O gráfico apresentado na Figura 4.8 ajuda na interpretação dos dados das Tabelas
4.12 e 4.13. Este gráfico ilustra os valores alcançados por cada participante com relação
aos experimentos realizados. Neste gráfico, visualiza-se que todos os usuários
conseguiram realizar as tarefas com sucesso atingindo 100% e que o nível de eficiência
foi acima dos 70% de todos os participantes.
82
Figura 4.8 Desempenho dos usuários
Fonte: o Autor
4.6.1. Resultado de Satisfação
A avaliação dos resultados de satisfação segue o caráter subjetivo. Estes dados
subjetivos são classificações baseadas em escalas do tipo Likert bipolar de 7 pontos, onde
1 = pior classificação e 7 = melhor classificação nas diferentes dimensões indicadas na
Tabela 4.10.
Tabela 4.14 Resultados coletados de satisfação do software
RESULTADO DE SATISFAÇÃO ID
PARTICIPANTE SATISFAÇÃO CONFIANÇA FACILIDADE DE USO UTILIDADE
1 7 6 5 7
2 7 7 6 7
3 6 5 6 7
4 5 6 6 6
5 6 7 5 6
6 4 4 4 4
MIN 4 4 4 4
MÁX 7 7 6 7
Fonte: O Autor, adaptado da ISO/IEC 25022:2012 - (SQuaRE).
1900ral 1900ral 1900ral 1900ral 1900ral 1900ral 1900ral
ID 1
ID 2
ID 3
ID 4
ID 5
ID 6
Gráfico para medir o desempenho dos usuários
EFICIÊNCIA DA TAREFA (%)
EFICÁCIA DA TAREFA (%)
TAREFAS REALIZADAS (%)
83
De acordo com os resultados obtidos, considera-se que a avaliação dos
participantes foi positiva correspondendo às expectativas. O nível de satisfação
apresentado foi bem elevado, com relação ao uso do protótipo, 66% dos participantes
classificaram o Open Metadata com os níveis máximos. Os níveis de confiança foram
equivalentes aos níveis de satisfação. Essa avaliação corrobora para uma análise
satisfatória, uma vez que uma aplicação confiável diminui as possibilidades de falhas no
processo. No entanto os níveis de Facilidade de Uso não atingiram uma classificação
máxima. Apesar de termos um maior número de usuários que classificaram a usabilidade
como nível 6, numa escala de 1 a 7. Dentre todas as avaliações a característica de
Utilidade foi a que obteve a melhor classificação, com um total de 83% dos participantes
declarando níveis máximos entre 6 e nível 7.
4.7. Considerações finais
Neste capítulo, foi apresentado o protótipo Open Metadata que implementa a
abordagem proposta, sua arquitetura e as principais funcionalidades, bem como os
experimentos realizados e os resultados obtidos.
Os experimentos avaliaram se o protótipo de fato apresenta as características
necessárias para gerar metadados enriquecidos com praticidade e reutilização de
metadados, conforme os requisitos estabelecidos nesta abordagem. Estes experimentos
realizados foram satisfatórios, uma vez que os objetivos de anotar metadados e reusar
metadados foram alcançados conforme observados na compilação dos resultados obtidos.
Os resultados obtidos corroboram para a conclusão de que o objetivo previsto de
auxiliar o publicador foi atingido e que o protótipo tem relevância com a proposta desta
abordagem. Desta forma, conclui-se que a abordagem, refletida na criação do protótipo,
auxilia na geração de metadados enriquecidos, facilitando a publicação dos metadados e
promovendo o reuso destes.
84
5. CONCLUSÃO
Neste trabalho, foi apresentada uma alternativa de solução para um problema
muito comum quando dados são publicados em formato aberto: a dificuldade na
publicação de metadados para descrição dos dados abertos. Como consequência dessa
dificuldade, muitas vezes os metadados estão ausentes ou estão disponíveis em formatos
que dificultam seu processamento e reutilização de forma automática. A solução proposta
faz uso de anotações semânticas, com a utilização de vocabulários pré-existentes,
informações de proveniência e atribuição de sinônimos, a fim de facilitar a publicação e
reuso de metadados.
A abordagem proposta tem como principais contribuições possibilitar a geração de
uma estrutura adequada de atributos que melhor descreva os metadados para dados
abertos e auxiliar o publicador na geração de metadados semanticamente enriquecidos.
Para avaliação da abordagem proposta, foi implementado um protótipo capaz de
realizar ações semiautomáticas auxiliando o publicador a gerar e manipular os metadados,
transformando-os em metadados adequados para consumo com formato estruturado.
Outra contribuição é a criação de um Repositório de Metadados com perfil
colaborativo e para uso compartilhado, ou seja, instituições públicas de domínios diversos
podem colaborar com o intuito de criar descrições metadados de maior qualidade, uma
vez que será possível aperfeiçoar descrições já existentes, bem como identificar erros em
descrições previamente informadas. Este compartilhamento contribui para a manutenção
dos metadados e sugere uma base única de metadados, podendo ser utilizado pelos grupos
participantes como uma opção de criação de vocabulários comuns para domínio
específico.
Durante o desenvolvimento deste trabalho, algumas dúvidas e questionamentos
surgiram, entre eles (i) Quais os atributos deveriam compor a estrutura do metadado
enriquecido? (ii) Quais propriedades seriam adotadas para completar o significado dos
metadados? (iii) O repositório de metadados é de uso compartilhado e colaborativo? E
(iv) A abordagem prevê o uso de múltiplos vocabulários? Contudo estas dúvidas foram
superadas e as soluções projetadas para a abordagem foram implementadas no protótipo
de maneira adequada e satisfatória.
Algumas limitações foram encontradas ao longo do desenvolvimento desta
pesquisa, uma delas foi a necessidade de medir a qualidade e a aplicabilidade dos
85
metadados enriquecidos sugeridos pela abordagem e gerados pelo protótipo Open
Metadata, bem como a implementação de outras funcionalidades previstas.
Para a avaliação da abordagem proposta, foram realizados experimentos que
comprovassem a eficácia e eficiência das funcionalidades previstas, com a utilização do
protótipo, simulando a atividade dos publicadores. As métricas utilizadas para avaliação
estão baseadas na norma ISO/IEC 25022, específica para medir a usabilidade de software
sob a perspectiva do usuário, chamada Quality in Use.
Ainda não foi avaliado o grau de reuso em um ambiente genérico com
processamento aleatório de datasets. No entanto, é sabido que independente da quantidade
de metadados apresentados no dataset, todos serão comparados e analisados, a fim de
encontrar similaridade. A proporção de reuso vai depender das combinações existentes no
repositório, quanto maior for o número de termos armazenados maior será a probabilidade
de reuso.
Como resultado final, considera-se que a abordagem para Enriquecimento
Semântico de Metadados está de acordo com a proposta sugerida neste trabalho, quanto ao
objetivo de auxiliar o publicador de Dados Abertos. Os resultados mostram que a meta foi
atingida, na medida em que a geração de metadados enriquecidos foi realizada
corretamente e de forma simplificada pelo o usuário.
A partir da abordagem proposta e com o auxílio do protótipo, os metadados são
gerados com informações mais valorizadas e no formato mais apropriado. Assim podem
ser facilmente consumidos e processados por máquina.
Vale ressaltar que na proposta inicial desta abordagem foram previstos outros
recursos para implementação, os quais poderão ser desenvolvidos por trabalhos futuros.
Dentre as contribuições desejáveis, destaca-se o carregamento e extração de metadados a
partir de outros formatos de dados, como JSON. Também destaca-se a possibilidade de
extração de informações referentes a estrutura e descrição dos metadados, diretamente de
bases do CKAN48
relacionados aos Portais de Dados Abertos que utilizam este catálogo
de dados..
Além disso, existem outras direções que podem ser exploradas possibilitando
novos temas de mestrado futuro, como: (i) Uma avaliação sobre o grau de reuso dos
metadados baseados na similaridade semântica e estrutural, que teria como finalidade
avaliar o quanto é eficiente o reuso para facilitar e padronizar o processo de
48
http://docs.ckan.org/en/ckan-2.2/api.html
86
enriquecimento de metadados e datasets em formato aberto, (ii) Implementação de API
para manipulação de datasets em formato aberto, para extração e reutilização de
metadados e descrição semântica. Por fim, (iii) Uma abordagem para explorar a
capacidade de reuso dos metadados, por meio de repositórios de metadados em RDF.
87
6. REFERÊNCIAS
ABRAN, A. et al. “COSMIC-FFP – Measurement Manual: The COSMIC
Implementation Guide for ISO/IEC 19761:2003", Version 2,2. Montreal, Canadá, 2003.
ALVES, L. G. P. et al. Análise comparativa de metadados em TV digital. In: Anais do
Simpósio Brasileiro de Redes de Computadores. 2006. p. 87-98.
AMERICAN NATIONAL STANDARDS INSTITUTE. Guidelines for the
Construction, format and management of monolingual thesauri. Bethesda, USA:
American National Standards Institute, 2003. (ANSI Z39.19-2003). Disponível em
<http://www.niso.org/standards/index.html>. Acesso em: 14 set. 2014.
ARANTES, L. O. Documentação Semântica no Apoio à Integração de Dados e
Rastreabilidade. 2010. 169 f. Dissertação de mestrado na Universidade Federal do
Espírito Santo, 2010.
AUER, S. R.; BIZER, C.; KOBILAROV, G.; LEHMANN, J. CYGANIAK, R.; IVES, Z.
"DBpedia: A Nucleus for a Web of Open Data". In: 6th International Semantic Web
Conference, 2nd Asian Semantic Web Conference, ISWC 2007 + ASWC 2007, Busan,
Korea, 2007.
BENACCHIO, A. E VAZ, M. S. M. G. Metapadrão - Descrição e Integração de
Padrões de Metadados, RUTI- Revista Unieuro de Tecnologia da Informação, Brasília-
DF, p. 35-40, Maio 2008. ISSN 1984-7211. Disponível em:
<http://www.unieuro.edu.br/sitenovo/revistas/revista_ruti.asp>. Acesso em: 10 out. 2014.
BRASIL. PLANALTO DA PRESIDÊNCIA DA REPÚBLICA. LEI Nº 12.527 - Lei de
Acesso a Informação, 2011. Disponível em:
<http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.html/>. Acesso
em: 18 set. 2013.
BRAY T., PAOLI J., SPERBERG-MCQUEEN C. M. MALER E., YERGEAU F.,
Extensible Markup Language (XML) 1.0 (Third Edition), W3C Recommendation 04
February 2004. Disponível em: <http://www.w3.org/TR/2004/REC-xml-20040204>.
Acesso em: 13 jun. de 2014.
88
BREITMAN, K.K.: Web Semântica: a internet do futuro, Rio de janeiro: LTC, 2010.
BROWN, A., DAVIDSON, C. Common Industry Format for Usability Test Report
v1.1 DiaryMate v1.1. Supersoft Company. Cupertino, 1999. Disponível em:
<http://zing.ncsl.nist.gov/iusr/documents/diarymate_v34.htm>. Acesso em: 29 set. 2014.
BRUGMAN, H. et al. The documentalist support system: a web-services based tool
for semantic annotation and browsing. In: Semantic Web Challenge track of the
International Semantic Web Conference, 2008.
BUNEMAN, P. et al. Why and where: A characterization of data provenance. In: 8th
International Conference London, UK, 2001. p. 316-330.
CARDINAELS, K., MEIRE, M., DUVAL, E. Automating Metadata Generation:
the Simple Indexing Interface. In: Proceedings of the 14th international conference
on World Wide Web, 2005, p. 548-556.
CHRIS C. et al. A resource list management tool for undergraduate students based on
linked open data principles. In: The Semantic Web: Research and Applications. Springer
Berlin Heidelberg, 2009. p. 697-707. Disponível em:
<http://link.springer.com/chapter/10.1007/978-3-642-02121-3_51>. Acesso em: 16 mai.
2014.
COSTA, I. N., ANDRADE, L. E. S., RESENDE, L., PEPE T., COSTA, M., SANTOS, Z.
Manual da Lei de Acesso à Informação para Estados e Municípios, 1ª edição, Brasília
2013. Disponível em:
<http://www.cgu.gov.br/publicacoes/BrasilTransparente/Manual_LAI_EstadosMunicipios
.pdf>. Acesso em: 16 ago. 2014.
DAVIS, I., STEINER, T. RDF 1.1 JSON Serialisation (RDF/JSON), 2012. Disponível
em: <https://dvcs.w3.org/hg/rdf/raw-file/default/rdf-json/index.html>. Acesso em: 18 jul.
2014.
DECKER S., SINTEK M., TRIPLE - A query, inference, and transformation
language for the semantic web. In: First International Semantic Web Conference
Sardinia, Italy, 2002. p. 364-378.
89
DIETRICH, D., GRAY, J., MCNAMARA, T., POIKOLA, A., TAIT J., POLLOCK, R.,
ZIJLSTRA, T. Open Data Handbook Documentation Release 1.0.0, Open Knowledge
Foundation 2012. Disponível em: <http://opendatahandbook.org/>. Acesso em: 21 out.
2014.
DUBLIN CORE METADATA INITIATIVE (DCMI) - Dublin Core Metadata Element
Set, Versão 1.1. Disponível em: <http://dublincore.org/documents/dces/>. Acesso em: 19
mai. 2014.
FONTES, C. A. Explorando Inferência em um Sistema de Anotação, Dissertação de
Mestrado - Instituto Militar de Engenharia - Rio de Janeiro, 2011.
FRAGKOU, P. et al. BOEMIE- Ontology-Based Text Annotation Tool. In:
International Conference on Language Resources and Evaluation - LREC. 2008.
Disponível em: <http://www.lrec-conf.org/proceedings/lrec2008/pdf/324_paper.pdf>.
Acesso em: 04 ago. 2014.
GIL, Y., CHENEY, J., GROTH, P., et al. Provenance XG Final Report, W3C Incubator
Group Report, 2010. Disponível em: <http://www.w3.org/2005/Incubator/prov/XGR-
prov-20101214>. Acesso em: 19 mai. 2014.
GROTH, P., MILES, S. M., A Model of Process Documentation to Determine
Provenance in Mash-ups. Transactions on Internet Technology TOIT, 2009, p. 1-31.
GRUBER, T. R. A translation approach to portable ontology
specifications. Knowledge acquisition, v.5, n.2, p.199-220, 1993. Disponível em:
<http://tomgruber.org/writing/ontolingua-kaj-1993.pdf>. Acesso em: 19 mai. 2014.
HASEGAWA, F. M., AIRES, J. P. Proposta de um Padrão de Metadados Para
Imagens Médicas. ERI-Escola Regional de Informática, Guarapuava, PR, 2007.
ISO/IEC 25010, Software engineering – Software product Quality Requirements and
Evaluation (SQuaRE) – Software and quality in use models. Quebec, 2008. p. 40.
Disponível em: <http://miageprojet2.unice.fr/@api/deki/files/2222/=ISO_25010.pdf>.
Acesso em: 13 jun. 2014.
90
ISO/IEC 25022:2012, Systems and software engineering - Systems and software Quality
Requirements and Evaluation (SQuaRE) – Measurement of quality in use. 2012. p.
67. Disponível em: <http://standardsproposals.bsigroup.com/home/getpdf/1785>. Acesso
em: 13 jun. 2014.
KAHAN, José et al. Annotea: an open RDF infrastructure for shared Web
annotations. In: Proceedings of the 10th international conference on World Wide Web
(WWW '01). ACM, New York, NY, USA, 2001, p. 623-632.
KIRYAKOV, A. et al. Semantic annotation, indexing, and retrieval. In: Journal Web
Semantics: Science, Services and Agents on the World Wide Web, v. 2, n. 1, 2004, p. 49-
79.
LEBO, T., SAHOO, S. S., MCGUINNESS, D. PROV-O: The PROV Ontology, 2013.
Disponível em: <http://www.w3.org/TR/prov-o/>. Acesso em: 25 jun. 2014.
MANNENS, E. et al. Automatic metadata enrichment in news production. In: 10th
Workshop on Image Analysis for Multimedia Interactive Services – WIAMIS 09, Lodon,
UK, 2009. p. 61-64.
MENDONÇA, R. R., Uma abordagem para coleta e publicação de dados de
proveniência no contexto de Linked Data, 2013. 143 f. Dissertação de mestrado,
Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013.
MOREAU, L. et al. Special Issue: The First Provenance Challenge. Concurrency and
computation: practice and experience, v. 20, n. 5, p. 409-418, 2008.
MySQL 5.6 Reference Manual. Including MySQL Cluster NDB 7.3 Reference Guide.
Disponível em: <http://dev.mysql.com/doc/refman/5.6/en/index.html>. Acesso em: 07 jul.
2014.
NIELSEN, J., LANDAUER, T. A mathematical model of the finding of usability
problems. In: Proceedings of the INTERACT '93 and CHI '93 Conference on Human
Factors in Computing Systems, ACM, New York, NY, USA,, 1993. p. 206-213.
Disponível em: <http://dl.acm.org/citation.cfm?id=169166>. Acesso em: 29 set. 2014.
91
NOLL, R.; SACCOL, D. B.; EDELWEISS, N. Uma proposta para análise de
similaridade entre documentos XML e ontologias em OWL. In: Simpósio Brasileiro de
Banco de Dados, SBBD. 2007. p. 47-50.
OREN, E. et al. What are Semantic Annotations? Technical Report. Digital Enterprise
Research Institute, National University of Ireland, Galway; 2006. Disponível em:
<http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf>. Acesso em: 19
mai. 2014.
POLITO A. G, Michaelis - Dicionário Moderno da Língua Portuguesa. 1ª edição,
Melhoramentos, 2004.
POPOV, B. et al. Towards semantic web information extraction. In: Human Language
Technologies Workshop at the 2nd International Semantic Web Conference (ISWC2003),
2003.
WORLD WIDE WEB CONSORTIUM - W3C. RDF Primer, 2004: Disponível em:
<http://www.w3.org/TR/2004/REC-rdf-primer-20040210/>. Acesso em: 19 mai. 2014.
SORRENTINO, S. et al. Semantic Annotation and Publication of Linked Open Data.
In 13th International Conference – ICCSA 2013, Ho Chi Minh City, Vietnam, 2013. p.
462-474.
TANNENBAUM, A.; FOREWORD B. A. Metadata solutions: using metamodels,
repositories, XML, and enterprise portals to generate information on demand.
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2001.
UREN, V. et al, Semantic Annotation for Knowledge Management, 2006. In:
ARANTES, L. O. Documentação Semântica no Apoio à Integração de Dados e
Rastreabilidade. Dissertação de mestrado, Universidade Federal do Espírito Santo, 2010.
p.32.
VAZ, M. S. M. G. Meta Mídia - Um Modelo de Metadados na Indexação e
Recuperação de Objeto Multimídia, Tese de Doutorado, Universidade Federal de
Pernambuco, Recife, 2000.
92
VCGE - Vocabulário Controlado do Governo Eletrônico. Padrões de
Interoperabilidade do Governo Eletrônico, 2011. Disponível em:
<http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroes-de-
interoperabilidade/vcge>. Acesso em: 25 jun. 2014.
ZENG, M. Linguagens de Marcação Específicas por Domínio e Metadados
Descritivos: Funções para a descoberta de recursos científicos. Edição Especial
"Investigação em Sistemas de Informação", 2010 - UFSC, p. 177-191.
93
APÊNDICE A – RESULTADO DO QUESTIONÁRIO PARA MÉTRICA DE
SATISFAÇÃO
Este apêndice apresenta os resultados dos questionários que foram submetidos aos
usuários após a realização dos experimentos, para avaliação do grau de satisfação do
protótipo.A seguir temos um modelo do questionário.
Prezado usuário esta pesquisa está vinculada ao estudo de Márcio Angelo Bezerra
de Lira, com o tema: “Uma Abordagem para Enriquecimento Semântico de
Metadados”, como uma das exigências para obtenção do grau de Mestre pelo Programa
de Pós-Graduação em Ciência da Computação da UFPE sob a orientação da
professora Dra. Bernadette Farias Lóscio.
Este questionário tem caráter subjetivo onde avalia sua opinião em relação às
funcionalidades do protótipo Open Metadata. Com finalidade de auxiliar o usuário na
geração de Metadados Semanticamente Enriquecidos.
Baseado na escala do tipo Likert bipolar de 1 a 7. Desta forma assinale 1 para
classificação mais baixa e 7 para classificação mais alta, conforme características abaixo:
1. Satisfação:
Você está satisfeito com o software?
1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )
2. Confiança:
Você acha o software confiável?
1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )
3. Facilidade de uso:
O software tem boa usabilidade?
1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )
4. Utilidade:
Você considera uma ferramenta útil?
1( ), 2( ), 3( ), 4( ), 5( ), 6( ), 7( )
94
APÊNDICE B - FICHA DE COLETA DOS DADOS DA AVALIAÇÃO
Este apêndice apresenta os resultados calculados conseguidos pelos usuários
durante a realização dos experimentos. A seguir temos um modelo da Ficha de Coleta.
Id:
Perfil:
Tempo de atividade:
Instituição:
Data realização:
Regras:
Será marcado um tempo para realização de cada tarefa;
Cada tarefa terá tempo máximo de execução de 20min;
Para cada tarefa concluída com sucesso será atribuído um valor de 100%.
Para cada ocorrência de erro ou falha, serão deduzidos 20% do valor de
eficácia. Entende-se como erros ou falha: falhas de execução do protótipo,
campos vazios e descrição não coerente com o metadado.
FICHA DE COLETA DOS DADOS PARA EFICÁCIA E EFICIÊNCIA
Métricas TAREFAS REALIZADAS (%)
X= A/B
EFICÁCIA DA TAREFA (%) X = 1 - ∑ Ai
TEMPO DE REALIZAÇÃO DA TAREFA
(min)
EFICIÊNCIA DA TAREFA (%) X= M1 / T
Tarefas
01
02
03
MÉDIA
Obs.: Para os valores de “X” devem ser observadas as definições abaixo.
X= A/B, onde A = número de tarefas concluídas e B = número total de
tentativas para concluir a tarefa;
X = 1 - ∑ Ai| X>0, Onde Ai = valor proporcional de cada erro na saída da
tarefa;
X= M1 / T, onde T = Tempo gasto para realizar cada tarefa, M1= refere-se ao
valor obtido pela proporção de tarefa concluída, calculado na métrica de
eficácia da tabela anterior.