Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

8
354 Potencializando o uso de Open Data com a aplicação de ferramentas Big Data – um ensaio Introdução Pode-se usar o termo Big Data (BD) para designar um conjun- to de ferramentas tecnológicas que permite uma nova abordagem para o tratamento e exploração de grandes conjuntos de dados, de diferentes fontes e formatos, para fins de tomada de decisões (BRETERNITZ et al, 2013). Os mesmos autores afirmam que o volu- me de dados vem crescendo de forma exponencial, o que ocorre também com as ferramentas para tratá-los e explorá-los. Os grandes conjuntos de dados podem ter tamanhos da ordem de petabytes (PBs, 1015 bytes) e até exabytes (EBs, 1018 bytes), e serem provenientes desde sistemas convencionais até de sons, imagens e sensores, o que torna complexa e cara sua captura e exploração. Há, no entanto, consenso no sentido de que o processo de tomada de decisões nas organizações vem sendo melhorado por essa disponibilidade de dados (CROSAS et al, 2015), o que justifica a utilização dessas ferramentas. Quanto a Open Data (OD), a ideia é que determinados con- juntos de dados devam ser disponibilizados de maneira gratuita, para uso sem restrições por entes públicos e privados; evidente- mente, alguns, por razões ligadas a privacidade, segurança e in- teresse comercial de seus proprietários devem ser de uso restrito. Vivaldo José Breternitz Profissional originário da área de Computação, pro- fessor da Universidade Presbiteriana Mackenzie e do Centro Universitário Padre Anchieta. É Doutor em Ciências pela Universidade de São Paulo, com pós-doutorado pela Universidade de Lisboa.

Transcript of Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

Page 1: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

354

Potencializando o usode Open Data com a aplicação

de ferramentas Big Data – um ensaioIntrodução

Pode-se usar o termo Big Data (BD) para designar um conjun-to de ferramentas tecnológicas que permite uma nova abordagem para o tratamento e exploração de grandes conjuntos de dados, de diferentes fontes e formatos, para fins de tomada de decisões (BRETERNITZ et al, 2013). Os mesmos autores afirmam que o volu-me de dados vem crescendo de forma exponencial, o que ocorre também com as ferramentas para tratá-los e explorá-los.

Os grandes conjuntos de dados podem ter tamanhos da ordem de petabytes (PBs, 1015 bytes) e até exabytes (EBs, 1018 bytes), e serem provenientes desde sistemas convencionais até de sons, imagens e sensores, o que torna complexa e cara sua captura e exploração. Há, no entanto, consenso no sentido de que o processo de tomada de decisões nas organizações vem sendo melhorado por essa disponibilidade de dados (CROSAS et al, 2015), o que justifica a utilização dessas ferramentas.

Quanto a Open Data (OD), a ideia é que determinados con-juntos de dados devam ser disponibilizados de maneira gratuita, para uso sem restrições por entes públicos e privados; evidente-mente, alguns, por razões ligadas a privacidade, segurança e in-teresse comercial de seus proprietários devem ser de uso restrito.

Vivaldo José BreternitzProfissional originário da área de Computação, pro-fessor da Universidade Presbiteriana Mackenzie e do Centro Universitário Padre Anchieta. É Doutor em Ciências pela Universidade de São Paulo, com pós-doutorado pela Universidade de Lisboa.

Page 2: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

355

Múltiplos olhares na Construção do ConheCiMento Vi

A ideia é radical: dados devem ser abertos por princípio, com as exceções acima mencionadas. O conceito é similar aos relativos a Open Source e Open Access, por exemplo e vem sen-do promovido por inúmeros estudiosos e profissionais, desta-cando-se entre eles Tim Berners–Lee, frequentemente chamado o “pai da World Wide Web” – é muito interessante sua palestra de 2010 que se encontra em http://www.ted.com/talks/tim_ber-ners_lee_the_year_open_data_went_worldwide.

Objetivo e aspectos metodológicosDado esse cenário, decidiu-se desenvolver este ensaio, que

tem como objetivo apresentar os conceitos básicos relativos a Open Data e discutir alguns aspectos relevantes relativos à expansão de seu uso, potencializado pela disponibilidade das ferramentas Big Data, de forma a gerar subsídios para os envol-vidos com o tema, especialmente àqueles ligados às comunida-des acadêmica e de negócios. Não se faz uma apresentação de BD por já estar esse termo consolidado nessas comunidades.

Do ponto de vista metodológico, o ensaio foi produzido a partir de pesquisa de natureza exploratória, que conforme di-zem Selltiz et al (2001), tem como objetivo proporcionar maior familiaridade com o problema, torná-lo mais explícito e cons-truir hipóteses para posterior investigação, buscando principal-mente o aprimoramento de ideias e o despertar de intuições; na maioria dos casos, a pesquisa exploratória envolve levantamen-to bibliográfico, entrevistas com pessoas que tiveram experiên-cias práticas com o problema e a análise de casos, de forma a permitir melhor compreensão do assunto.

À pesquisa exploratória somou-se a experiência profissional e acadêmica de seu autor, gerando o ensaio, que Ortega y Gas-set (2004) define como “ciência sem prova explícita”, qualifican-do-o como um texto literário breve, que expõe ideias, críticas e reflexões a respeito de um dado tema, defendendo um ponto de vista pessoal e subjetivo sobre o mesmo sem se pautar por formalidades como documentos e provas empíricas ou deduti-vas de caráter científico. Meneghetti (2011) diz que o ensaio é uma forma de produção científica que valoriza aspectos rela-cionados às mudanças qualitativas que ocorrem nos objetos ou fenômenos analisados.

Page 3: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

356

Múltiplos olhares na Construção do ConheCiMento Vi

Passa-se agora a apresentar os conceitos básicos e a discu-tir aspectos relevantes relativos ao assunto, conforme o objetivo acima mencionado.

Apresentando Open DataO termo Open Data é relativamente recente, tendo se po-

pularizado com o lançamento de iniciativas na área patrocina-das por governos, especialmente o DATA.GOV (www.data.gov), lançado pelo governo americano em 2009, e que busca incen-tivar o acesso público a dados coletados e gerados pelo poder executivo daquele país – em meados de julho de 2015, estavam disponíveis para acesso cerca de 160 mil datasets.

Os objetivos da iniciativa são, entre outros, reduzir custos públicos e privados, melhorar a eficiência dos serviços públicos e do planejamento em geral, buscar a transparência nas ações dos governos, fomentar a inovação e fortalecer a democracia pelo aumento da participação do povo nos assuntos relativos ao governo. Gurin (2014) conduziu estudos na New York Uni-versity que identificaram 500 companhias americanas que já es-tão utilizando OD provenientes de governos em seus negócios.

Bastante similar, é a iniciativa do governo do Reino Unido, disponibilizada para uso público em 2010 (data.gov.uk). O go-verno federal alemão, através do portal bund.offenerhaushalt.de, fornece dados detalhados acerca dos gastos do governo; há especial preocupação, nesse caso, em apresentar esses dados de forma a facilitar seu processamento por outras plataformas.

Em função de suas origens fortemente ligadas a governos, OD é frequentemente chamado OGD (Open Government Data), pois também de fontes governamentais ainda vem o maior volume de OD – empresas privadas, ao contrário, cada vez mais cientes do valor de seus dados evitam torná-los públicos, buscando manter vantagens competitivas e não dar oportunidade à concorrência.

Apesar de OD ainda estar vivendo sua infância, o simples uso dos dados provenientes de governos permite perceber sua importância para a melhoria do cenário econômico, graças principalmente à sua capacidade de fomentar a inovação, espe-cialmente quando os dados governamentais são combinados com outros de natureza privada, gerando novos produtos/ser-viços, como dizem Hellberg e Hedström (2015).

Page 4: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

357

Múltiplos olhares na Construção do ConheCiMento Vi

Além dos volumes, parte considerável de OD é constituída por dados não armazenáveis na forma convencional, tais como mapas, imagens de satélite e dados obtidos por sensores – isso torna fundamental o uso de ferramentas específicas de BD para seu uso mais eficiente.

Além dos já citados, outros governos e organizações es-tão trabalhando para fomentar o uso de OD; na Alemanha, por exemplo, a OKF (Open Knowledge Foundation, census.okfn.org) vem promovendo "hackathons" para uma grande variedade de pessoas, incluindo profissionais envolvidos com OD, desenvol-vedores de software e até mesmo jornalistas, buscando compar-tilhar ideias acerca da exploração de bases de dados disponíveis e da concepção de novos produtos e serviços, especialmente na forma de apps (DAPP, 2015).

Experiências similares já ocorrem no Brasil, como a criação de aplicativos para smartphones que promovem facilidades de acesso a OD ou combinam OD a outros dados. Exemplo é o aplicativo MOPS - Mapa de Oportunidades e Serviços Públicos, que provê facilidades de busca em dados sobre concursos pú-blicos (MDS, 2015).

Expandindo e organizando o universo ODEm meados de 2013, os países que compõem o G7, gru-

po que reúne os sete países do mundo mais industrializados e desenvolvidos economicamente, assinaram o “Open Data Charter”, documento que estabelece princípios para abertura de seus dados dentro do espírito OD; o documento ressalta a importância desses dados para criar governos e negócios mais responsáveis, eficientes, sensíveis e efetivos, estimulando o crescimento econômico (BARREIROS, 2015).

Esse acordo é coerente com o conteúdo do documento “Ten Principles for Opening Up Government Information”, pu-blicado em 2010 pela Sunlight Foundation (www.sunlight.com), organização norte-americana que trabalha por governos trans-parentes. Os princípios constantes do documento (SUNLIGHT, 2010), que se tornou uma referência na área de OD, preveem basicamente (forma mantidos os nomes atribuídos pela Sunli-ght a cada um dos princípios):

Page 5: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

358

Múltiplos olhares na Construção do ConheCiMento Vi

1. CompletenessAs bases de dados devem ser divulgadas de forma comple-

ta, trazendo informações como metadados, a forma como foi feita sua coleta etc., de forma a que os usuários possam enten-der o escopo dos dados disponíveis e examinar cada item no maior nível possível de detalhes.

2. PrimacyOs dados devem ser capturados na origem, com o maior

grau de granularidade possível, sem agregações ou alteração de formatos.

3. TimelinessOs dados devem ser divulgados o mais rapidamente possí-

vel, de forma que seus valores sejam preservados; atualizações em tempo real podem ser feitas, maximizando seu valor.

4. Ease of Physical and Electronic AccessNão devem existir barreiras físicas ou eletrônicas para aces-

so aos dados. Como barreiras físicas, entende-se a necessidade de presença física do usuário em algum local para solicitação de acesso; como barreiras eletrônicas, por exemplo, exigências quanto ao navegador utilizado. A ideia é que haja "findability”, facilidade em localizar e baixar os dados desejados.

5. Machine readabilityOs dados devem ser armazenados em formatos que per-

mitam seu processamento de forma fácil (machine-friendly for-mats). Deve existir documentação acerca dos formatos utilizados.

6. Non-discriminationOs dados devem estar disponíveis sem que haja necessida-

de de identificação ou registro de quem os acessa.

7. Use of Commonly Owned StandardsOs dados devem ser armazenados em formato que elimine

a necessidade de utilização de um determinado produto de sof-tware para acesso aos mesmos.

Page 6: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

359

Múltiplos olhares na Construção do ConheCiMento Vi

8. LicensingNão devem existir quaisquer restrições ao uso dos dados,

exceto aquelas decorrentes de necessidades de segurança e preservação de privacidade – técnicas de anonymization e/ou pseudonymization devem ser aplicadas nesse caso.

9. PermanenceAs informações devem ser mantidas de forma permanente,

com informações acerca de atualizações.

10. Usage CostsO acesso aos dados deve ser livre de custos, especialmen-

te porque foram coletados para fins de interesse dos governos (quando se trata de dados governamentais), geralmente para cobrança de impostos e planejamento. A imposição de fees para acesso pode dificultar ou até mesmo impedir seu uso.

Indo além dos governosEmbora OD possa cobrir dados de qualquer fonte, na atu-

alidade a expressão é quase sempre utilizada pensando-se em dados provenientes de governos, como se disse.

Essa realidade vem mudando, no entanto: Gurin (2014) relata que cientistas vêm disponibilizando os resultados de suas pesquisas em diversas áreas (astronomia e genômica, por exemplo), objetivando a aumentar a sinergia – outros pesquisa-dores podem, a partir desses dados, chegar a novas conclusões.

Na esfera empresarial, Buchholtz, Bukowski e Śniegocki (2014) estimam que até 2020 o PIB da União Europeia deve crescer um adicional de 1,9% (206 bilhões de euros), apenas pela utilização conjunta de BD e OD – esse percentual é bas-tante significativo em se tratando de uma região desenvolvida.

Esses ganhos derivariam especialmente do aumento da produtividade na manufatura e nos serviços, do incremento à competição e da alocação mais adequada dos fatores de pro-dução, sendo mais sentidos nos países com empresas maiores e mais globalizadas e que usam mais intensivamente as tec-nologias da Informação e Comunicação – é mais um alerta no sentido de que a distância entre países ricos e pobres tende a aumentar e que é muito importante em países mais pobres o

Page 7: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

360

Múltiplos olhares na Construção do ConheCiMento Vi

aumento da educação e conscientização na área de tecnologia da informação, o que é o objetivo deste trabalho.

Considerações finaisNovos estudos poderiam buscar entender a utilização de

OD nos ambientes empresarial e governamental no Brasil, bus-cando especialmente expandir essa utilização.

Também poderiam ser estudadas as dificuldades para utili-zação de OD, especialmente aquelas decorrentes de raramente serem os dados autoexplicativos e facilmente utilizáveis dentro de seu contexto original.

Deve-se observar, porém, que mesmo os dados provenien-tes de governos pioneiros nas iniciativas de OD, como os dos Estados Unidos e do Reino Unido, ainda não são utilizáveis de forma muito simples, conforme relatam Peled e Karine (2015) – há ainda um longo caminho a ser percorrido até que BD e OD, operando conjuntamente, tragam os resultados desejados.

À guisa de encerramento, poderíamos citar Gurin (2014) que diz que, apesar das dificuldades, Big Data e Open Data podem transformar as empresas, os governos e a sociedade, sendo a combinação dos dois especialmente poderosa, pois Big Data nos dá um poder inédito no sentido de que possamos entender e analisar o mundo em que vivemos, enquanto Open Data permite que o poder seja compartilhado, levando-nos a um mundo melhor e mais democrático.

Referências

Barreiros, G. A. A Lei de Acesso à Informação e o Facebook: como a LEI e as redes sociais podem enfrentar uma sociedade desconfiada e a corrupção enraizada? Revista Digital de Direito Administrativo, v. 2, n. 1, 2015.

Breternitz, V. J; Silva, L. A. e Lopes, F. S. O uso de Big Data em Computational Social Science: tema que a sociedade precisa discutir. Revista Reverte, n. 11, 2013.

Buchholtz, S; Bukowski, M. e Śniegocki, A. Big and Open Data in Europe: a growth engine or a missed opportunity? Disponível em www.bigopendata.eu/. Acessado em 20.01.2016.

Page 8: Potencializando o uso de Open Data com a aplicação de ferramentas Big Data

361

Múltiplos olhares na Construção do ConheCiMento Vi

Crosas, M; King, G; Honaker, J. e Sweeney, L. Automating Open Science for Big Data. The ANNALS of the American Academy of Political and Social Science, edição de maio de 2015.

Dapp, T. F. Open Data – unrecognised potential. Disponível em http://www.dbresearch.com/PROD/DBR_INTERNET_EN-PROD/PROD0000000000351090/Open_data_%E2%80%93_unrecogni-sed_potential.PDF, acessado em 20.01.2016.

Gurin, J. Big data and Open Data: what's what and why does it matter? Disponível em http://www.theguardian.com/public--leaders-network/2014/apr/15/big-data-open-data-transform--government, acessado em 22.01.2016.

Hellberg, A-S. e Hedström, K. The story of the sixth myth of open data and open government. Transforming Government: People, Process, and Policy, v. 9, n. 1, 2015.

MDS - Ministério do Desenvolvimento Social. Mapa de Opor-tunidades e Serviços Públicos. Disponível em http://aplicacoes.mds.gov.br/sagi/FerramentasSAGI /Mops/, acessado em 20 de julho de 2015.

Meneghetti, F. K. O que é um ensaio teórico? Revista de Admi-nistração Contemporânea. Curitiba, mar/abr 2011.

Ortega y Gasset, J. Meditaciones del Quijote, in: Obras Comple-tas, vol. I. Madrid: Taurus, 2004.

Peled, A. e Nahon, K. Towards Open Data for Political Accounta-bility: examining the US and UK models. Disponível em iConfe-rence 2015 Proceedings, https://www.ideals.illinois.edu/bitstre-am/handle/2142/73632/101_ready.pdf?sequence=2, acessado em 18.07.2015.

Selltiz, C; Wrightsman, L. S. e Cook, S. W. Métodos de pesquisa nas relações sociais. São Paulo: EPU, 2ª ed., 2001.

Sunlight. Ten Principles for Opening Up Government Informa-tion. Disponível em file:///C:/Users/usuario/Downloads/Ten%20Principles%20for%20Opening%20Up%20Government%20Data.pdf, acessado em 18.07.2015.