DWH をモダナイズする Google Cloud のソリューション ·...

47
Confidential & Proprietary DWH をモダナイズする Google Cloud のソリューション #gc_dpday 寳野 雄太 | Yuta Hono スペシャリスト カスタマーエンジニアリング 技術リード Twier: @yutah_3

Transcript of DWH をモダナイズする Google Cloud のソリューション ·...

Page 1: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Confidential & Proprietary

DWH をモダナイズする

Google Cloud のソリューション#gc_dpday

寳野 雄太 | Yuta Honoスペシャリスト カスタマーエンジニアリング技術リード

Twitter: @yutah_3

Page 2: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

1894 年

2010 年テクノロジーは格段に進化

Page 3: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

従来のデータ ウェアハウス (DWH)

DWHDWH

Page 4: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

DWH

大容量データ処理

Hadoop,Spark...

従来のデータ ウェアハウス (DWH)

DWH

Page 5: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

DWH

大容量データ処理

Hadoop,Spark...

ストリーミング

(Kafka etc.) ???

従来のデータ ウェアハウス (DWH)

Page 6: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH

新しい データ ウェアハウス

Page 7: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Google BigQuery

エンタープライズ向け分析用データ ウェアハウス

エクサバイト規模のストレージとペタバイト規模の SQL クエリ

セキュア、耐久性 メンテナンス フリー

Unique

フルマネージドでサーバレス

Unique

ストリーミング データのリアルタイム分析

Unique

ML と GIS をビルトイン

Unique

ハイスピードでインメモリの BI エンジン

Page 8: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

情報資源の有効活用人的資源の活用

BigQuery - ビジネス目線での利点

インフラ設計、運用不要で分析に集中

高速なクエリで分析を繰り返し、より高い生産性

財務的資源の節約

低コストで使った分だけ支払い

Or

定額プランで立てやすい予算計画、低 TCO

社内のデータ流通を促進

全員が同じ 新のデータにもとづいて意思決定可能に

組み込み済み ML や GIS の高度な分析、予測でビジネスを加速

Page 9: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Forrester Research Names Google Cloud a Leader in Cloud

Data Warehouses

お客様は [BigQuery の] 柔軟なインフラ ストラクチャ、実績のあるハイエンド規模とパフォーマンス、強力なAI / ML 機能、そして幅広い分析ユースケースのサポートを望んでいます。

The Forrester Wave™:Cloud Data Warehouse, Q4 2018

Page 10: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery の経済的な利点

「私たちは他のクラウド分析ツールでも POC を行いました。 グーグルは、 も迅速、柔軟、スケーラブルなソ

リューションとして目を引きました。」

エンタープライズデータウェアハウスのワークロードを BigQuery に移行する経済的なメリット

52%オンプレミスより低い TCO ( 3 年 )

41%レガシーな DWH をパブリッククラウドに載せた場合よりも低い TCO

Source: ESG, The Economic Advantages of Migrating Enterprise Data Warehouse Workloads to Google BigQuery

Page 11: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery - 価格体系の概要

クエリー計算能力の課金

ストレージの料金

長期保存ストレージの料金

オンデマンド or 定額レート

保存した分だけ課金

90日以上保存したデータは割引

※ ストリーミングインサートなどは別途料金が必要

Page 12: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Google Cloud Data Analytics - お客様事例

Page 13: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH ストレージ

コンピュート

新しいデータ ウェアハウス

Page 14: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

別の BigQuery のお客様が実行したクエリ 5 ペタバイト超 / クラスタ分割無し

ある BigQuery のお客様が保存するデータ250 ペタバイト / クラスタ分割無し

Page 15: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

コンピュート と ストレージの分離

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

Page 16: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery ストレージとコンピュートの接続

● 1300 Tbps total

● CLOS トポロジー

● SDN (Software Defined Network)

Page 17: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

ペタバイト級のクエリ : 2016 年実行の履歴

Page 18: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

ペタバイト級のクエリ : 2018 年実行の履歴(カラム 日付 パーティション)

Page 19: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

ペタバイト級のクエリ : 2019 年実行は?(クラスタリング)

Page 20: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH ストレージ

コンピュート サーバーレス

新しいデータ ウェアハウス

Page 21: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery | サーバーレス データ分析

従来のデータ ウェアハウスとの違い

Analysis and insights

BigQuery のサーバーレス分析

パフォーマンスチューニング

モニタリング

信頼性デプロイと設定

利用率の向上

分析と洞察

リソースプロビジョニング

スケールの調整

分析と洞察

Page 22: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

高可用性を備えたいままでの解析基盤

VPC

Region 1

Region 2

Availability Zone 1

Source 1

Source 2

Source N

Availability Zone 1

Availability Zone 2

VPC

DNS Service

Orchestration Big Data Cluster

Orchestration Big Data Cluster

Orchestration Big Data Cluster

Queue

Analytics

Page 23: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery での可用性やメンテナンスは?

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

Page 24: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery ストレージ | フルマネージド耐久性があり、バックアップも自動実行される永続化ストレージ

3

2

1

3

21 3

2

1

Table 1 Table 2 Table 3

Zone A Zone B Zone C

リージョン

● テーブルは DWH のクエリに適化されたカラムナー

フォーマットで保管される

● それぞれのテーブルは自動で圧縮、暗号化される

● ストレージはフルマネージドで 12 nines の耐久性があり、それぞれのテーブルはゾーンをまたいで複製されている

● スケールもおまかせ

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送

Page 25: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery での可用性やメンテナンスは?

SQL:2011準拠

ペタビット規模ネットワーク

BigQuery高可用性を備えたコンピュート クラスタ

(Borg)ストリーミングインサート

無料のバルクロード

複製済み、分散ストレージ

(99.9999999999%12 nineの耐久性) REST API

7 言語のクライアントライ

ブラリ

Web UI, CLI分散インメモリ

シャッフル

Page 26: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery コンピュート | サーバーレス

Shuffle

ワーカー

ワーカー

GROUP BY state COUNT(*)

SELECT state

ワーカー

ワーカー

ワーカー

WHERE year...SHUFFLE BY state

分散ストレージ

● クエリ実行時のみコンピュート(コンテナ)が大量に起動される

= 従量制課金を実現

● 一部のゾーンやワーカーが障害でも透過的に割当変更するだけ

= 高可用性

● ワーカーはお客様には透過的にアップデートされる

= メンテナンス, バージョンアップのダウンタイムなし

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送

Page 27: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery | サーバーレス データ分析

まとめ : お客様でのクラスタ管理は一切、必要ありません

Analysis and insights

BigQuery のサーバーレス分析

パフォーマンスチューニング

モニタリング

信頼性デプロイと設定

利用率の向上

分析と洞察

リソースプロビジョニング

スケールの調整

分析と洞察

Page 28: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH ストレージ

コンピュート サーバーレス

オープン

新しいデータ ウェアハウス

Page 29: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuerySQL

Hadoop SparkHive

...

データレイクをデータ ウェアハウスに開放

BigQueryストレージ

データレイク

ストレージ

Page 30: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery 外部データソース (フェデレーション)他のストレージ上のデータを直接クエリー可能

Cloud Storage(オブジェクトストレージ)

ドキュメント:外部データソースの概要

CSV, JSON, Avro, Google スプレッドシート Google Drive

Cloud SQL(マネージド

RDB)

Cloud Bigtable(ワイドカラム NoSQL )

MySQL フェデレーションBeta

Postgres フェデレーションBeta

時系列データなど予測済みレコメンなど

Avro, JSON, CSV, ORC, Parquet (まもなく)

Page 31: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery 外部データソース(フェデレーション)Hadoop / Spark ジョブのリフトアンドシフトもサポート

Cloud Storage(オブジェクトストレージ)

ドキュメント:外部データソースの概要

Cloud Bigtable(ワイドカラム NoSQL )

Cloud Dataproc(マネージド Hadoop /

Spark)

HBase 互換 API

HDFS の代替コネクタParquet, ORC ...

BigQuery Storage API

BigQuery(Read 専用にアドホック利用)

Page 32: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH ストレージ

コンピュート サーバーレス

オープン

新しいデータ ウェアハウス

リアルタイム

Page 33: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery ストリーミング

スケーラブル アーキテクチャ

Cloud Dataflow との連携

拡張性を考慮したデザイン

33

テンプレートにより GUI だけで取り込みパスを構築可能

テーブルあたり 50 GB /秒の取り込み 1M 行 / 秒

重複排除Exactly Once セマンティクス(近日公開予定)

公式ドキュメント : BigQuery へのデータのストリーミング

Page 34: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

事例 : テレビ東京様

● 既存アーキテクチャ (Redisベース) より高度な分析を目指し BigQuery を利用

● 収集したストレージから分析ツールのデータ移動が不要に

● 一つのコンテンツが持つ価値の 大化に貢献

Google Cloud Next ‘19 より引用

D1-2-S09: BigQuery を利用した視聴データのリアルタイム ダッシュボード構築

Page 35: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

新しいデータ ウェアハウス

リアルタイム

セキュリティと信頼

DWH ストレージ

コンピュート サーバーレス

オープン

Page 36: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

各種セキュリティ要件に対応

● 東西 2 フルリージョン

● Interconnect による 専用線サポート

● IP 制限、その他各種データ持ち出し防止 (VPC Service Control)

● 国際的コンプライアンス : PCI-DSS, ISO 27001 など

● デフォルト暗号化、 CMEK 、暗号化関数

Blog: 東京 GCP リージョンで BigQuery の提供開始Cloud OnAir 番組レポート : Google Cloud でセキュアにアプリケーションを開発しようGCP を利用したセキュリティ要件対応 : VPC Service Controls を試してみた標準 SQL での AEAD 暗号化のコンセプト

Page 37: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

「ワークロードを GCP に移行することで、技

術的収益と経済的収益の両方がもたらさ

れ、世界中に分散している大規模な機関で

イノベーションを促進することができまし

た。」

Darryl WestGroup CIO, HSBC

Page 38: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

現代のデータ ウェアハウス

セキュリティと信頼

データ共有リアルタイム

DWH ストレージ

コンピュート サーバーレス

オープン

Page 39: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

クエリを保存して共有

データセットの共有と保護

BigQuery などのデータを使用して美しいレポートを作成

する

結果を スプレッドシート として共有

BigQuery によるパワーシート

使い慣れたツールや無料の Google サービスを活用し、組織間でデータを活用することで

多様なインサイトを獲得可能に

Partner Tools

BigQuery で データ インサイト を民主化する

データポータル

Page 40: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

BigQuery BI Engine の紹介

1 秒未満のクエリ

単純化されたアーキテクチャ

スマート チューニング

40ドキュメント : BigQuery BI Engine

Page 41: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Connected Sheets (Analyze)

スプレッドシートのピボットテーブルが BigQuery で演算

ビッグデータを SQL 不要で分析可能に

Connected Sheets (Beta)

Page 42: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

現代のデータ ウェアハウス

予測

セキュリティと信頼

リアルタイム

DWH ストレージ

コンピュート サーバーレス

オープン

データ共有

Page 43: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

「予測分析は、機械学習を導入した部門の 82% のエグゼクティブにとって も影響力のあ

る分野です。」

Forbes

Page 44: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

● 回帰

● 顧客セグメンテーション: K-means クラスタリング

● 製品のレコメンなど : 行列分解

● Tensorflow モデルのインポート し BigQuery で予測

● BigQuery で Tensorflow DNN モデルを作成する

1

2

3

BigQuery からデータを移動

せずに ML イニシアチブを実

開発速度を上げるために

BigQuery で SQL のモデルを

繰り返す

一般的な ML タスクとハイ

パーパラメーター調整を自動

BigQuery ML を使用して AI の基盤を構築する

ドキュメント : BigQuery ML の概要

Page 45: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

需要予測

在庫切れ予測

価格 適化

顧客生涯価値

コンバージョンレート、解

約分析

不正予測

その他...

Start with raw tabular data

Channels

Channel ID

Name Category

Features

Supplier

INSTORE

“Navy …” XYZ [“A, B, …”]

Nike

CALL CE

“Running…”

XYZ [“A, B, …”]

Nike

... ... ... ... ...

Geo locations

Geo ID Name Category

Features

Supplier

CA “Navy …” XYZ [“A, B, …”]

Nike

CA “Running…”

XYZ [“A, B, …”]

Nike

... ... ... ... ...

Promotions

Month ID

Name Category

Features

Supplier

2018-1 “Navy …” XYZ [“A, B, …”]

Nike

2017-1 “Women’s…”

XYZ [“A, B, …”]

Adidas

... ... ... ... ...

Products

Product ID

Name Image Features

Supplier

102934 “Navy …” gs://XYZ [“A, B, …”]

Nike

112932 “Women’s…”

gs://XYZ [“A, B, …”]

Adidas

... ... ... ... ...

Sales

Month Channel ID Product ID Geo ID Volume

2018-1 INSTORE 102934 CA102 600

2018-1 INSTORE 112932 CA102 800

2018-1 WEB 901243 AZ203 300

... ... ... ... ...

● 先端のモデルを自

動的に構築

● 幅広いデータプリミティ

ブのための充実した処

理 (#s, text, etc.)

● BigQuery でデータセッ

トを適切に処理 (10 TBまで)

● 完全なコードレス グラ

フィカル UI ML

AutoML Tables

ドキュメント : AutoML Tables

Page 46: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Cloud

DWH ストレージ

コンピュートサーバーレ

オープン

現代のデータ ウェアハウス

リアルタイム

セキュリティと信頼

予測データ共有

Page 47: DWH をモダナイズする Google Cloud のソリューション · 「私たちは他のクラウド分析ツールでも POC を行いました。 ... [Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介

Thank you