Webinar de Dados Abertos na AWS

37
© 2015, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados. Dados Abertos na Amazon Web Services Webinar Alex Coqueiro Arquiteto de Soluções na Amazon Web Services @alexbcbr @AWSBrasil 24 de Novembro de 2015

Transcript of Webinar de Dados Abertos na AWS

© 2015, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.

Dados Abertos na Amazon Web Services Webinar Alex Coqueiro Arquiteto de Soluções na Amazon Web Services @alexbcbr @AWSBrasil 24 de Novembro de 2015

Agenda

•  Uso de Dados Abertos pelo mundo •  Implementação de plataforma •  Banco de Dados Públicos •  Portais de Dados Abertos •  Recomendações

Definição de Dados Abertos ‘Open Data’?

“Dados abertos são dados que podem ser usados por qualquer pessoa para qualquer

finalidade sem custo.” See more at: http://opendefinition.org

Localização digital em iRideNYC.info

O Departamento de Transporte de Nova York usa uma estratégia de desenvolvimento ”mobile first" e "codifique uma vez, execute em qualquer lugar" que permite desenvolver aplicativos móveis de baixo custo voltados para dados. Sem a instalação do aplicativo em nenhum dispositivo, você pode encontrar metrôs e pontos de ônibus MTA, estações do CitiBike e locais de interesse em http://iRideNYC.info

Localização digital em iRideNYC.info

O iRideNYC.info aproveita a linguagem de design direcionada a dados da WalkNYC, que cria mapas baseados em camadas de dados.

Localização digital em iRideNYC.info

A MTA fornece APIs de dados abertos que permitem ao iRideNYC.info exibir em tempo real o horário de chegada de metrôs e ônibus. A API do CitiBike também é usada para obter o status da estação e a disponibilidade de bicicletas.

Salvando vidas com dados do censo

"Só em 2013, os EUA passaram por 1,24 milhão de incêndios, resultando em quase 20 mil mortos ou feridos e gerando mais de US$ 11 bilhões em danos materiais. Tragicamente, muitas dessas mortes são evitáveis: três em cada cinco mortes em casa devido a incêndio ocorreram em edifícios sem alarmes de fumaça em funcionamento." http://blog.enigma.io/open-data-and-public-safety/

Salvando vidas com dados do censo

Como determinar se é necessário um novo alarme de incêndio? "...um analista no Escritório de Desempenho e Responsabilidade (OPA) de Nova Orleans construiu um modelo de regressão logística utilizando o American Housing Survey (AHS) de 2011... Com essa iniciativa, o Corpo de Bombeiros de Nova Orleans e o OPA mudaram: em vez de entregar passivamente alarmes de fumaça para salvar vidas, passaram a alcançar ativamente os moradores mais vulneráveis de Nova Orleans, tudo graças a uma união da experiência dos bombeiros com insights extraídos de dados abertos." http://blog.enigma.io/open-data-and-public-safety/

Salvando vidas com dados do censo

A Enigma utilizou os resultados de Nova Orleans e criou um produto de análise para prever deficiências de alarme de incêndio em várias cidades dos Estados Unidos. Eles usam a AWS para compartilhar a infraestrutura e os dados subjacentes usados para criar a ferramenta. https://github.com/enigma-io

BuildSmartDC

Eficiência, custo e rastreamento de emissões em 400 edifícios, totalizando 30MM pés2. Produz mais de 50.000 pontos de dados por dia. O Amazon EC2 é usado para: •  Acessar APIs externas •  Servir às APIs internas que alimentam o

BSDC O S3 hospeda: •  Ativos da web estáticos •  Mais de 1600 arquivos CSV atualizados

diariamente e publicamente acessíveis com informações de uso dos edifícios

BuildSmartDC

Implementando a sua plataforma de Dados Abertos na AWS

Bucket doAmazon S3

AmazonEMR

AmazonEC2

AWSLambda

AmazonRedshift

AmazonDynamoDB

O poder dos dados abertos na nuvem

Tornar os dados na AWS abertos permite mais inovação, disponibilizando os dados para acesso rápido por nossos recursos de computação flexíveis e de baixo custo.

Dados abertos como uma plataforma

Enriquecimento de dados

Faz

sent

ido

Dados em repouso(armazenamento de objetos)

APIs básicas

APIs complexas

Aplicativos para consumidores

Políticaalgoritmica

Jornalismobaseado em dados

Catálogos de dados

Painéis voltadospara datos

Modelospreditivos

Visualizações

Custo de conhecimento menor(eficiência)

Criação dedados

Dados abertos como uma plataforma

Enriquecimento de dados

Faz

sent

ido

AmazonKinesis

AmazonEC2

AmazonEC2

AWS DataPipeline

AmazonS3

AmazonRDS

AmazonEMR

AmazonRedshift

AmazonDynamoDB

AWSLambda

Dados na AWS

A Amazon Web Services fornece um toolkit abrangente para reunir, armazenar, analisar e trabalhar com dados em qualquer escala.

Muitos dos nossos clientes, como a Esri, a The Weather Company e a Climate Corporation, dependem de dados abertos de qualidade tanto quanto dependem de nossos serviços de computação, armazenamento e outros serviços.

Amazon Elastic MapReduce (Amazon EMR) fornece a estrutura de análises Apache Hadoop como um serviço gerenciado fácil de usar.

Amazon S3 permite que você armazene e recupere qualquer quantidade de dados, a qualquer momento, de qualquer local da Web.

Amazon DynamoDB é um serviço de banco de dados NoSQL totalmente gerenciado que torna econômico o armazenamento e a recuperação de qualquer quantidade de dados.

Bancos de dados públicos da AWS

Bancos de dados públicos na AWS Para promover mais inovação, a AWS hospeda alguns bancos de dados que qualquer pessoa pode acessar gratuitamente. Os dados em nossos bancos de dados públicos estão disponíveis para acesso rápido por nossos recursos de computação flexíveis e de baixo custo.

Ciência da Terra Landsat na AWS

Ciências biológicas Projeto 1000 Genomes

Ciência da Internet Corpus para rastreamento comum

O que é o Landsat?

O programa Landsat é um esforço conjunto do Serviço Geológico dos EUA e da NASA. É o programa mais antigo para coletar imagens da Terra do espaço e é considerado o padrão ouro para imagens de satélite de recursos naturais.

Landsat na AWS

Temos o compromisso de tornar até 1 petabyte de imagens do Landsat prontamente disponíveis como objetos no Amazon S3.

Todos as cenas do Landsat 8 desde 2015 estão disponíveis, juntamente com uma seleção de cenas sem nuvens desde 2013 e 2014. Todas as novas cenas do Landsat 8 são disponibilizadas diariamente, muitas vezes algumas horas depois da produção.

Landsat na AWS

Nos primeiros 150 dias: •  3,8 PB de dados acessados

•  560 milhões de visitas de 167 países

•  3,7 milhões de acessos diários em média

•  25 TB de dados transferidos diariamente em média

•  2 novos aplicativos: Snapsat e navegador Astro Digital

•  Alimentando o desenvolvimento de novos produtos de Mapbox, Trimble, Esri, CartoDB, MathWorks e Development Seed

O Landsat é um grande dado aberto

O programa Landsat é um esforço conjunto do Serviço Geológico dos EUA e da NASA. É o programa mais antigo para coletar imagens da Terra do espaço e é considerado o padrão ouro para imagens de satélite de recursos naturais.

Tem sido tradicionalmente demorado e caro para adquirir, armazenar e analisar os dados do Landsat.

O que é o Landsat?

As cenas do Landsat são compostas de vários arquivos, cada um dos quais inclui dados sobre os diferentes tipos de luz refletida da Terra.

O programa Landsat está em operação desde 1972.

Wellington, Nova Zelândia – 29 de junho de 2015

RGB Luz visível

Infravermelho Vegetação

Infravermelho de ondas curtas Áreas urbanas

Snapsat

Uma equipe de cinco programadores iniciantes usou o Landsat na AWS para desenvolver um aplicativo web chamado Snapsat que cria visualizações de dados do Landsat em segundos.

O Snapsat foi desenvolvido durante o programa de treinamento de 8 semanas da equipe no Code Fellows. Eles lançaram apenas alguns meses depois de aprender a escrever código. http://snapsat.org

Esri – Unlock Earth’s Secrets

A Esri criou uma ferramenta para mostrar como o ArcGIS Online pode visualizar rapidamente dados do Landsat para visualização e análise em tempo real dentro do navegador.

"Não são serviços de cache gerados previamente limitados apenas à visualização, eles são serviços de imagem dinâmicos e de alto desempenho que executam processamento imediato e mosaicos dinâmicos de imagens multiespectrais e multitemporais do Landsat."

http://www.esri.com/landsatonaws

MATLAB – Landsat8 Data Explorer

A MathWorks criou uma ferramenta com base no MATLAB com download gratuito para acesso, processamento e visualização de dados do Landsat 8.

A ferramenta permite que os usuários do MATLAB encontrem, analisem e combinem cenas do Landsat 8 com outras fontes de dados do GIS para novas visualizações.

http://blogs.mathworks.com/steve/2015/03/19/matlab-landsat-8-aws/

Astro Digital Browser O Astro Digital usa o Landsat na AWS para criar um navegador e API que permitem aos desenvolvedores procurar o catálogo de imagens do Landsat 8, filtrar por data e cobertura de nuvem e, em seguida, selecionar qualquer imagem.

A imagem é processada imediatamente, reunindo bandas e corrigindo cores, e carregada na nossa API. Em poucos minutos, você terá um e-mail com um link para o ponto de acesso da API que pode ser carregado em qualquer aplicativo web ou móvel.

http://fetch.astrodigital.com

Landsat na AWS como uma plataforma

Portais de Dados Abertos

Portais de dados abertos

Muitos parceiros da AWS oferecem serviços que facilitam a publicação e o uso de dados abertos, incluindo plataformas de catálogos como CKAN, DKAN, Junar, OpenDataSoft e Socrata.

Many of our customers, such as Esri, the Weather Company, and the Climate Corporation rely on quality open data as much as they rely on our computing, storage, and other services.

Recomendações

Uma abordagem da Amazon para dados abertos

•  Trabalhar de forma a identificar o que faz sentido compartilhar com relação ao cliente

•  Eliminar o trabalho que não agrega valor

Trabalhar no que faz sentido

•  Procurar dados valiosos, ouvindo as necessidades dos clientes

•  Considerar os casos de uso do mundo real para os dados

•  Considerar o tamanho da comunidade de usuários ou oportunidade de mercado

Eliminar o que não agrega valor

“…os dados devem ser organizados, bem documentados, formatados de forma consistente e livres de erros. Limpar os dados é muitas vezes a parte mais desgastante da ciência de dados, e representa frequentemente 80% do trabalho.” — Data Driven por DJ Patil e Hilary Mason

Trazendo inovações com dados abertos

Para trazer a inovação com seus dados, você precisa garantir três coisas fundamentais ao compartilhá-los: 1.  Os dados são precisos 2.  Eles são fornecidos com documentação 3.  Eles permanecerão disponíveis aos desenvolvedores

amanhã

Nota: esses não são necessariamente problemas técnicos.

Muito Obrigado!

Alex Coqueiro Arquiteto de Soluções @alexbcbr @AWSBrasil