Thiago J. T. Á[email protected] Uma proposta de modelo de processo para publicação de...

36
Thiago J. T. Á[email protected] al.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico Thiago José Tavares Ávila Mestrando Mestrado em Modelagem Computacional do Conhecimento Instituto de Computação – Universidade Federal de Alagoas Orientador Prof. Dr. Ig Ibert Bittencourt 20/10/2015

Transcript of Thiago J. T. Á[email protected] Uma proposta de modelo de processo para publicação de...

Page 1: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais

Estudo empírico

Thiago José Tavares ÁvilaMestrando

Mestrado em Modelagem Computacional do ConhecimentoInstituto de Computação – Universidade Federal de Alagoas

OrientadorProf. Dr. Ig Ibert Bittencourt

20/10/2015

Page 2: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

2

Agenda• Contextualização• Motivação• Modelo de Processo• O Estudo Empírico

Page 3: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

3

• 40 trilhões de gigabytes de dados em 2020• Volume irá dobrar 40x entre 2012-2020 (EMC, 2012)

Figura 1 – Perspectiva de crescimento da oferta de dados digitais até 2020 [EMC, 2012).

Oferta de Dados no mundo em 2020

Page 4: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

4

• 434 Catálogos de Dados Abertos Governamentais no mundo até hoje

Figura 2 – Mapa Mundi dos Catálogos de Dados Abertos Governamentais (DataPortals, 2015)

Oferta de Dados Governamentais - 2015

Page 5: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

5

E.U.A.+150.000 conjuntos de dados

UNIÃO EUROPÉIA+30.000 conjuntos de dados

ÍNDIA+3.500 conjuntos de dados BRASIL

+1.000 conjuntos de dados

REINO UNIDO+25.000 conjuntos de dados

JAPÃO+13.000 conjuntos de dados

Oferta de Dados Governamentais - 2015

Page 6: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

6

Acesso à Informação

Figura 04 – Mapa dos países que possuem Lei de Acesso à Informação na América Latina e Caribe

Lei 12.527/2011 - Art. 8 § 3º

II - possibilitar a gravação de relatórios em diversos formatos eletrônicos, inclusive abertos e não proprietários, tais como planilhas e texto, de modo a facilitar a análise das informações; [...]

Lei 12.527/2011 - Art. 8 § 3º

III - possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina [...]

Page 7: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

PÚBLICO-ALVO EXEMPLOS DE INFORMAÇÃO PÚBLICA FINALIDADESetor Produtivo - Indicadores Sociais, Econômicos, Demográficos, Planos de

Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.

- Projetos de Consultoria- Expansão e/ou Manutenção de Negócios- Desenvolvimento ou aprimoramento de produtos e serviços

Setor Acadêmico

- Indicadores Sociais, Econômicos, Demográficos, Planos de Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.

- Artigos Científicos, Trabalhos Acadêmicos- Projetos de Pesquisa- Monografias, Dissertações, Teses- Projetos de Pesquisa e Extensão- Projetos para captação de recursos em instituições de fomento

Setor Público - Indicadores Sociais, Econômicos, Demográficos, Planos de Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.- Pesquisas acadêmicas, estudos e análises, relatórios de tendência, projeções de cenários.

- Diagnósticos governamentais, diagnósticos sobre áreas ou demandas específicas (ex: problemas ambientais)- Formulação de planos e programas de governo, execução de ações, monitoramento e avaliação governamental.- Publicidade de ações governamentais- Projetos para captação de recursos em instituições de fomento

Imprensa - Dados orçamentários e financeiros- Pesquisas e indicadores socioeconômicos- Dados Populacionais- Relatórios de Monitoramento e Acompanhamento de Ações Governamentais

- Matérias e investigações jornalísticas- Publicidade de ações governamentais- Denúncias de não-conformidades em ações governamentais

Sociedade em Geral

- Dados orçamentários e financeiros- Pesquisas e indicadores socioeconômicos- Dados Populacionais

Monitoramento e Controle Social do GovernoElaboração de Projetos para captação de recursos

Tabela 1 – Exemplos de informações públicas e respectivas finalidades por público-alvo (Elaborado pelo autor)

Page 8: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Mas problemas existem ...• Quão reutilizáveis estes dados são ?• Quão confiáveis ?• Quão duplicados estão estes dados ao longo da web ?• Estes dados estão de acordo com a legislação vigente ?• Estão licenciados ?• É possível gerar conhecimento a partir destes dados ? Eles

possuem algum elemento semântico ?

• Destes 434 catálogos de dados, seria possível extrair respostas para perguntas como:

• “Quantas universidades existem em cada país que oferta dados abertos governamentais ?”

Page 9: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Identificar os dados

Modelar e enriquecer os

dados

Tornar os dados mais

“encontráveis” na web

Conectar os dados

Dados Conectados: Um caminho para resolver ...

Figura 6 – Princípios dos dados conectados (Berners-Lee, 2006)

Page 10: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Esquema 5-Estrelas: Um caminho evolutivo

Figura 6 – Esquema 5-estrelas dos Dados Abertos (Berners-Lee, 2006)

Page 11: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

• Evolução: Dados -> Dados Abertos Conectados • Vantagens, Requisitos de qualidade, etc.

• Dados Abertos Conectados -> Dados Abertos Governamentais

• Agregam enorme potencial nestes dados (Heath and Bizer, 2011);

• Situação verificada:• Existem processos que apoiam a publicação de dados abertos

governamentais, dados abertos e dados abertos conectados • Desenvolvidos pela comunidade científica e por órgãos

governamentais;• Poucos processos apoiam a publicação de dados abertos

conectados governamentais

Motivação

Page 12: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

• Problemática:• Potencial prejudicado – Dados Abertos Conectados

Governamentais -> Ausência de condições para transformar dados brutos em dados altamente qualificados (Linked Open Data) em larga

escala (Maali, Cyganiak and Peristeras, 2010).• Produção e publicação de dados abertos conectados ->

Desenvolvidos sem um conjunto comum e claro de etapas que permitam a sua geração em escala;

• Ausência de processos detalhados e softwares que apóiem todo o ciclo de vida de publicação de dados governamentais conectados

• Pois os processos que existem são direcionados à desenvolvedores de software, não para agentes governamentais (Villazón-Terrazas et. al, 2011);

• Processos existentes, aparentemente, não consideram o nível de maturidade em gestão e publicação de dados das organizações publicadoras.

Motivação

Page 13: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Um Referencial Comparativo“Melhores Práticas para Publicação de Dados Conectados” (W3C)

1. Prepare Stakeholders

2. Select a Dataset

3. Model the Data

4. Specify an Appropriate License

5. The Role of "Good URIs" for Linked Data

6. Standard Vocabularies

7. Convert Data to Linked Data

8. Provide Machine Access to Data

9. Announce to the Public

10. Social Contract of a Linked Data Publisher

Figura 11 – 10 MelhoresPráticas para publicação de dados conectados estabelecidos pelo W3C (W3C, 2014)

Page 14: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Modelo de Processo“Piece of Cake”

Page 15: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

• Modelo de processo evolutivo (incremental) de publicação de dados abertos governamentais que proporciona o aprimoramento dos dados através das camadas 3,4 e 5 do esquema 5-Estrelas dos Dados Abertos

• Busca reduzir a complexidade para publicação de Dados Abertos Conectados Governamentais (DACG) mediante a incorporação gradual de atividades de maior complexidade

• Considera as “Melhores Práticas para Publicação de Dados Conectados” como grandes etapas para publicação de DACG

• Apresenta um conjunto de atividades obrigatórias e desejáveis a serem desenvolvidas para publicação de DACG nas camadas 3,4 e 5 do esquema 5-Estrelas

Page 16: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

16

Page 17: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

17

Page 18: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

18

Page 19: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

O Estudo Empírico

Page 20: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

20

Escopo do estudo• Objeto de estudo: O objeto de estudo é o processo de

publicação de dados abertos conectados governamentais• Finalidade: Avaliar a publicação de dados abertos

governamentais (DAG) e dados abertos conectados governamentais (DACG)

• Foco da qualidade: Verificar a eficácia na publicação de DACG

Page 21: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

21

Metodologia• 3 equipes formadas por 1 profissional, 1 aluno de pós-

graduação e 4 alunos de graduação em computação• Objetivo de cada equipe:

– Publicar dois arquivos, originalmente no nível sem estrela, como dado conectado (5 estrelas)

– Utilizando o modelo de processo “Piece of Cake”– Documentando as atividades desenvolvidas

• EQUIPE A: experiência alta• EQUIPE B: experiência média• EQUIPE C: pouca ou nenhuma experiência

Page 22: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

22

Metodologia• Material fornecido

– Apresentação e slides sobre publicação de dados abertos conectados governamentais

– Documento com atividades (recomendações) publicação de dados abertos conectados governamentais

– Planilha para apoiar a documentação das atividades– Disponíveis em: https://goo.gl/F3nm5Z

• Duração do estudo– 2 dias úteis (aproximadamente 16 horas)

• Avaliação – Responder questionário com avaliação breve (não-identificada),

disponível aqui: https://goo.gl/cmdPqP

Page 23: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

Atividades sugeridas pelo Modelo de Processo “Piece of Cake”

Page 24: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

24

Page 25: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

1. Preparar Partes Interessadas

Capacitar os envolvidos na publicação dos dados

Definir grupos de usuários dos dados

Definir perfis profissionais a serem envolvidos

Elaborar um plano de ações para publicação dos dados

Identificar as partes interessadas

Identificar os benefícios para a abertura de dados

2. Selecionar Conjuntos de Dados

Analisar a estrutura organizacional da instituição publicadora

Analisar o esforço para abertura de dados

Analisar o nível de sigilo dos dados e informações

Analisar relatórios anuais e documentações da instituição publicadora

Estabelecer diretrizes que orientem a priorização da publicação de dados abertos

Fazer e validar mapa de responsabilidades entre conjuntos de dados e unidades de negócio responsáveis

Identificar e analisar sistemas de informação que poderão ser objeto da abertura de dados

Identificar os dados que serão abertos

Realizar consultas aos usuários sobre a demanda de dados

Page 26: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

3. Modelar os Dados

Anonimizar dados sensíveis

Estabelecer rotinas de conversão de dados para formatos legíveis por máquina

Gerar cópias de segurança das bases de dados que serão abertas

Higienizar os dados

Modelar rotinas automatizadas (ETL)

4. Especificar uma Licença Apropriada

Adotar licenças de uso dos dados não restritivas

Apresentar opções de licenças de dados a serem adotadas

Estabelecer questões-chave para definição de licenças

8. Prover Acesso Automatizado aos Dados

Desenvolver uma API

Disponibilizar bases completas para download (dumps)

Estabelecer um Mapa de Decisões Tecnológicas

Page 27: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

9.Anunciar Conjuntos de Dados

Disponibilizar os dados com o menor custo possível ao usuário, preferencialmente de modo gratuito na internet

Divulgar dados em meios complementares (Catálogos, FTP, Torrent)

Divulgar dados em seções destacadas de sítios de governo

Estabelecer dados tecnicamente e legalmente abertos

Estabelecer recursos de consulta parcial da base de dados como uma API ou webservice

Estabelecer visualizações e demais recursos de exploração dos dados

Publicar metadados junto aos dados

10.Estabelecer um contrato social para os dados publicados

Disponibilizar leis e atos normativos que explicitem aos usuários quanto as obrigações dos governos em publicarem dados com qualidade e disponibilidade

Estabelecer com clareza que o processo de publicação contempla etapas de manutenção e atualização dos dados

Estabelecer espaços para recebimento do feedback do usuário, preferencialmente publicando dados de uma pessoa e/ou telefone de contato para esclarecimento de dúvidas sobre o uso e disponibilidade dos dados

Estabelecer mecanismos de monitoramento e avaliação da oferta de dados disponibilizados ao público

Page 28: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

28

Page 29: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

2. Selecionar Conjuntos de Dados Identificar dados que podem ser conectados

3.Modelar os Dados Analisar se os dados serão conectados ou nãoEstabelecer ou aprimorar documentação de dados (esquemas, vocabulários e ontologias)

Page 30: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

5.Estabelecer bons identificadores universais (URIs) Estabelecer design simplificado de URIsEstabelecer URIs neutrasEstabelecer URIs persistentes, que não se alterem em nenhum momentoProporcionar pelo menos um recurso de dados em formato que seja legível por máquina para cada URIURIs das entidades (conjuntos de dados ou recursos) sejam diferentes das URIs das páginas que apresentam estes recursos para a leitura feita por humanosUsar URIs como nomes para as coisasUsar URIs HTTP para que pessoas e máquinas possam encontra-las via web utilizando estes endereçosUtilizar datas em URIs com moderaçãoUtilizar hashs (#) em URIs cautelosamenteUtilizar identificadores relacionados a informações do mundo realUtilizar URIs para conectar os dados

Page 31: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

6.Utilizar Vocabulários Padrão Criar um esquema de dados para cada conjunto de dadosDeterminar linguagens para expressar esquemas de dadosEstabelecer critérios de escolha de vocabuláriosEstabelecer os metadados obrigatóriosIncentivar o reúso de vocabuláriosPublicar esquemas de dados em arquivos diferentes

7. Converter e Enriquecer Dados Converter dados para múltiplas finalidades e usos

Page 32: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

32

Page 33: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

6.Utilizar Vocabulários Padrão Certificar que os dados estão conectados a outros conjuntos de dados

7. Converter e Enriquecer Dados Permitir o envolvimento de várias pessoas na identificação de como os dados a serem convertidos se relacionam com outros dados

8.Prover Acesso Automatizado aos Dados Desenvolver um endpoint SPARQL

09.Anunciar Conjuntos de Dados Disponibilizar dados conectados em servidores de triplasMelhorar os dados para serem melhor divulgados e encontrados por máquinas

Page 34: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

34

Page 35: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

6.Utilizar Vocabulários Padrão Desenvolver ou utilizar ontologias para estruturar a semântica dos dados

7. Converter e Enriquecer Dados Adotar rotinas ETL para enriquecimento de dados

Page 36: Thiago J. T. Ávilathiago.avila@ic.ufal.br Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico.

Thiago J. T. Ávila [email protected]

36

Muito obrigado !!!

Thiago José Tavares ÁvilaMestrando em Modelagem Computacional do Conhecimento – IC/UFAL

Núcleo de Excelência em Tecnologias Sociais - NEES