DWH をモダナイズする Google Cloud のソリューション ·...

Post on 07-Mar-2020

4 views 0 download

Transcript of DWH をモダナイズする Google Cloud のソリューション ·...

Confidential & Proprietary

DWH をモダナイズする

Google Cloud のソリューション#gc_dpday

寳野 雄太 | Yuta Honoスペシャリスト カスタマーエンジニアリング技術リード

Twitter: @yutah_3

1894 年

2010 年テクノロジーは格段に進化

従来のデータ ウェアハウス (DWH)

DWHDWH

DWH

大容量データ処理

Hadoop,Spark...

従来のデータ ウェアハウス (DWH)

DWH

DWH

大容量データ処理

Hadoop,Spark...

ストリーミング

(Kafka etc.) ???

従来のデータ ウェアハウス (DWH)

Cloud

DWH

新しい データ ウェアハウス

Google BigQuery

エンタープライズ向け分析用データ ウェアハウス

エクサバイト規模のストレージとペタバイト規模の SQL クエリ

セキュア、耐久性 メンテナンス フリー

Unique

フルマネージドでサーバレス

Unique

ストリーミング データのリアルタイム分析

Unique

ML と GIS をビルトイン

Unique

ハイスピードでインメモリの BI エンジン

情報資源の有効活用人的資源の活用

BigQuery - ビジネス目線での利点

インフラ設計、運用不要で分析に集中

高速なクエリで分析を繰り返し、より高い生産性

財務的資源の節約

低コストで使った分だけ支払い

Or

定額プランで立てやすい予算計画、低 TCO

社内のデータ流通を促進

全員が同じ 新のデータにもとづいて意思決定可能に

組み込み済み ML や GIS の高度な分析、予測でビジネスを加速

Forrester Research Names Google Cloud a Leader in Cloud

Data Warehouses

お客様は [BigQuery の] 柔軟なインフラ ストラクチャ、実績のあるハイエンド規模とパフォーマンス、強力なAI / ML 機能、そして幅広い分析ユースケースのサポートを望んでいます。

The Forrester Wave™:Cloud Data Warehouse, Q4 2018

BigQuery の経済的な利点

「私たちは他のクラウド分析ツールでも POC を行いました。 グーグルは、 も迅速、柔軟、スケーラブルなソ

リューションとして目を引きました。」

エンタープライズデータウェアハウスのワークロードを BigQuery に移行する経済的なメリット

52%オンプレミスより低い TCO ( 3 年 )

41%レガシーな DWH をパブリッククラウドに載せた場合よりも低い TCO

Source: ESG, The Economic Advantages of Migrating Enterprise Data Warehouse Workloads to Google BigQuery

BigQuery - 価格体系の概要

クエリー計算能力の課金

ストレージの料金

長期保存ストレージの料金

オンデマンド or 定額レート

保存した分だけ課金

90日以上保存したデータは割引

※ ストリーミングインサートなどは別途料金が必要

Google Cloud Data Analytics - お客様事例

Cloud

DWH ストレージ

コンピュート

新しいデータ ウェアハウス

別の BigQuery のお客様が実行したクエリ 5 ペタバイト超 / クラスタ分割無し

ある BigQuery のお客様が保存するデータ250 ペタバイト / クラスタ分割無し

コンピュート と ストレージの分離

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

BigQuery ストレージとコンピュートの接続

● 1300 Tbps total

● CLOS トポロジー

● SDN (Software Defined Network)

ペタバイト級のクエリ : 2016 年実行の履歴

ペタバイト級のクエリ : 2018 年実行の履歴(カラム 日付 パーティション)

ペタバイト級のクエリ : 2019 年実行は?(クラスタリング)

Cloud

DWH ストレージ

コンピュート サーバーレス

新しいデータ ウェアハウス

BigQuery | サーバーレス データ分析

従来のデータ ウェアハウスとの違い

Analysis and insights

BigQuery のサーバーレス分析

パフォーマンスチューニング

モニタリング

信頼性デプロイと設定

利用率の向上

分析と洞察

リソースプロビジョニング

スケールの調整

分析と洞察

高可用性を備えたいままでの解析基盤

VPC

Region 1

Region 2

Availability Zone 1

Source 1

Source 2

Source N

Availability Zone 1

Availability Zone 2

VPC

DNS Service

Orchestration Big Data Cluster

Orchestration Big Data Cluster

Orchestration Big Data Cluster

Queue

Analytics

BigQuery での可用性やメンテナンスは?

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

BigQuery ストレージ | フルマネージド耐久性があり、バックアップも自動実行される永続化ストレージ

3

2

1

3

21 3

2

1

Table 1 Table 2 Table 3

Zone A Zone B Zone C

リージョン

● テーブルは DWH のクエリに適化されたカラムナー

フォーマットで保管される

● それぞれのテーブルは自動で圧縮、暗号化される

● ストレージはフルマネージドで 12 nines の耐久性があり、それぞれのテーブルはゾーンをまたいで複製されている

● スケールもおまかせ

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送

BigQuery での可用性やメンテナンスは?

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

BigQuery コンピュート | サーバーレス

Shuffle

ワーカー

ワーカー

GROUP BY state COUNT(*)

SELECT state

ワーカー

ワーカー

ワーカー

WHERE year...SHUFFLE BY state

分散ストレージ

● クエリ実行時のみコンピュート(コンテナ)が大量に起動される

= 従量制課金を実現

● 一部のゾーンやワーカーが障害でも透過的に割当変更するだけ

= 高可用性

● ワーカーはお客様には透過的にアップデートされる

= メンテナンス, バージョンアップのダウンタイムなし

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送

BigQuery | サーバーレス データ分析

まとめ : お客様でのクラスタ管理は一切、必要ありません

Analysis and insights

BigQuery のサーバーレス分析

パフォーマンスチューニング

モニタリング

信頼性デプロイと設定

利用率の向上

分析と洞察

リソースプロビジョニング

スケールの調整

分析と洞察

Cloud

DWH ストレージ

コンピュート サーバーレス

オープン

新しいデータ ウェアハウス

BigQuerySQL

Hadoop SparkHive

...

データレイクをデータ ウェアハウスに開放

BigQueryストレージ

データレイク

ストレージ

BigQuery 外部データソース (フェデレーション)他のストレージ上のデータを直接クエリー可能

Cloud Storage(オブジェクトストレージ)

ドキュメント:外部データソースの概要

CSV, JSON, Avro, Google スプレッドシート Google Drive

Cloud SQL(マネージド

RDB)

Cloud Bigtable(ワイドカラム NoSQL )

MySQL フェデレーションBeta

Postgres フェデレーションBeta

時系列データなど予測済みレコメンなど

Avro, JSON, CSV, ORC, Parquet (まもなく)

BigQuery 外部データソース(フェデレーション)Hadoop / Spark ジョブのリフトアンドシフトもサポート

Cloud Storage(オブジェクトストレージ)

ドキュメント:外部データソースの概要

Cloud Bigtable(ワイドカラム NoSQL )

Cloud Dataproc(マネージド Hadoop /

Spark)

HBase 互換 API

HDFS の代替コネクタParquet, ORC ...

BigQuery Storage API

BigQuery(Read 専用にアドホック利用)

Cloud

DWH ストレージ

コンピュート サーバーレス

オープン

新しいデータ ウェアハウス

リアルタイム

BigQuery ストリーミング

スケーラブル アーキテクチャ

Cloud Dataflow との連携

拡張性を考慮したデザイン

33

テンプレートにより GUI だけで取り込みパスを構築可能

テーブルあたり 50 GB /秒の取り込み 1M 行 / 秒

重複排除Exactly Once セマンティクス(近日公開予定)

公式ドキュメント : BigQuery へのデータのストリーミング

事例 : テレビ東京様

● 既存アーキテクチャ (Redisベース) より高度な分析を目指し BigQuery を利用

● 収集したストレージから分析ツールのデータ移動が不要に

● 一つのコンテンツが持つ価値の 大化に貢献

Google Cloud Next ‘19 より引用

D1-2-S09: BigQuery を利用した視聴データのリアルタイム ダッシュボード構築

Cloud

新しいデータ ウェアハウス

リアルタイム

セキュリティと信頼

DWH ストレージ

コンピュート サーバーレス

オープン

各種セキュリティ要件に対応

● 東西 2 フルリージョン

● Interconnect による 専用線サポート

● IP 制限、その他各種データ持ち出し防止 (VPC Service Control)

● 国際的コンプライアンス : PCI-DSS, ISO 27001 など

● デフォルト暗号化、 CMEK 、暗号化関数

Blog: 東京 GCP リージョンで BigQuery の提供開始Cloud OnAir 番組レポート : Google Cloud でセキュアにアプリケーションを開発しようGCP を利用したセキュリティ要件対応 : VPC Service Controls を試してみた標準 SQL での AEAD 暗号化のコンセプト

「ワークロードを GCP に移行することで、技

術的収益と経済的収益の両方がもたらさ

れ、世界中に分散している大規模な機関で

イノベーションを促進することができまし

た。」

Darryl WestGroup CIO, HSBC

Cloud

現代のデータ ウェアハウス

セキュリティと信頼

データ共有リアルタイム

DWH ストレージ

コンピュート サーバーレス

オープン

クエリを保存して共有

データセットの共有と保護

BigQuery などのデータを使用して美しいレポートを作成

する

結果を スプレッドシート として共有

BigQuery によるパワーシート

使い慣れたツールや無料の Google サービスを活用し、組織間でデータを活用することで

多様なインサイトを獲得可能に

Partner Tools

BigQuery で データ インサイト を民主化する

データポータル

BigQuery BI Engine の紹介

1 秒未満のクエリ

単純化されたアーキテクチャ

スマート チューニング

40ドキュメント : BigQuery BI Engine

Connected Sheets (Analyze)

スプレッドシートのピボットテーブルが BigQuery で演算

ビッグデータを SQL 不要で分析可能に

Connected Sheets (Beta)

Cloud

現代のデータ ウェアハウス

予測

セキュリティと信頼

リアルタイム

DWH ストレージ

コンピュート サーバーレス

オープン

データ共有

「予測分析は、機械学習を導入した部門の 82% のエグゼクティブにとって も影響力のあ

る分野です。」

Forbes

● 回帰

● 顧客セグメンテーション: K-means クラスタリング

● 製品のレコメンなど : 行列分解

● Tensorflow モデルのインポート し BigQuery で予測

● BigQuery で Tensorflow DNN モデルを作成する

1

2

3

BigQuery からデータを移動

せずに ML イニシアチブを実

開発速度を上げるために

BigQuery で SQL のモデルを

繰り返す

一般的な ML タスクとハイ

パーパラメーター調整を自動

BigQuery ML を使用して AI の基盤を構築する

ドキュメント : BigQuery ML の概要

需要予測

在庫切れ予測

価格 適化

顧客生涯価値

コンバージョンレート、解

約分析

不正予測

その他...

Start with raw tabular data

Channels

Channel ID

Name Category

Features

Supplier

INSTORE

“Navy …” XYZ [“A, B, …”]

Nike

CALL CE

“Running…”

XYZ [“A, B, …”]

Nike

... ... ... ... ...

Geo locations

Geo ID Name Category

Features

Supplier

CA “Navy …” XYZ [“A, B, …”]

Nike

CA “Running…”

XYZ [“A, B, …”]

Nike

... ... ... ... ...

Promotions

Month ID

Name Category

Features

Supplier

2018-1 “Navy …” XYZ [“A, B, …”]

Nike

2017-1 “Women’s…”

XYZ [“A, B, …”]

Adidas

... ... ... ... ...

Products

Product ID

Name Image Features

Supplier

102934 “Navy …” gs://XYZ [“A, B, …”]

Nike

112932 “Women’s…”

gs://XYZ [“A, B, …”]

Adidas

... ... ... ... ...

Sales

Month Channel ID Product ID Geo ID Volume

2018-1 INSTORE 102934 CA102 600

2018-1 INSTORE 112932 CA102 800

2018-1 WEB 901243 AZ203 300

... ... ... ... ...

● 先端のモデルを自

動的に構築

● 幅広いデータプリミティ

ブのための充実した処

理 (#s, text, etc.)

● BigQuery でデータセッ

トを適切に処理 (10 TBまで)

● 完全なコードレス グラ

フィカル UI ML

AutoML Tables

ドキュメント : AutoML Tables

Cloud

DWH ストレージ

コンピュートサーバーレ

オープン

現代のデータ ウェアハウス

リアルタイム

セキュリティと信頼

予測データ共有

Thank you