Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性...

62
2017年10月26日 株式会社富士通研究所 コンピュータシステム研究所 田原 司睦 富士通のディープラーニング 高速化技術のご紹介 Copyright 2017 FUJITSU LABORATORIES LTD. 0 SS研科学技術計算分科会2017年度講演

Transcript of Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性...

Page 1: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

2017年10月26日株式会社富士通研究所コンピュータシステム研究所田原 司睦

富士通のディープラーニング高速化技術のご紹介

Copyright 2017 FUJITSU LABORATORIES LTD.0

SS研科学技術計算分科会2017年度講演

Page 2: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

アウトライン

はじめに

ディープラーニングとは

富士通のAI への取り組み

ディープラーニングの高速化

① Distributed caffe (画像認識)

② 分散並列データ供給技術

③ Deep Tensor (グラフデータ対応)

④ ディープラーニング専用プロセッサ DLU

次世代アーキテクチャ

⑤ 最適化問題専用プロセッサ Digital Annealer

まとめ

Copyright 2017 FUJITSU LABORATORIES LTD.1

Page 3: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニングとは

富士通のAI への取り組み

はじめに

Copyright 2017 FUJITSU LABORATORIES LTD.2

Page 4: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニングとは

Copyright 2017 FUJITSU LABORATORIES LTD.

画像データ 音声データ 文章・文書

学習の過程で自動的にデータの特徴をとらえる、分類用機械学習

ニューラルネットワークを多層にした物

従来の機械学習に比べ、学習処理に必要な計算量が大幅に増加

特徴抽出

分類器

入力・前処理

分類結果

生データ

機械学習

手作業

従来の機械学習

深層学習

機械学習

3

Page 5: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

data 差分

パラメタw

data

ニューロン層1 勾配情報Δw

パラメタw 勾配情報Δw

data 差分

パラメタw 勾配情報Δw

label (正解)

ニューロン層2

ニューロン層3

認識結果 誤差E

入力層

GPUを用いたディープラーニング例

Copyright 2017 FUJITSU LABORATORIES LTD.

各ニューロンの重みパラメタw

多数のニューロンからなる層(Layer)

学習時、一度に複数のデータを処理する。このデータ数をミニバッチサイズと呼ぶ

ボトム側

トップ側

4

Page 6: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ニューロン層1

ニューロン層2

ニューロン層3

GPUを用いたディープラーニング例

Copyright 2017 FUJITSU LABORATORIES LTD.

diff

パラメタw

data

勾配情報Δw

パラメタw 勾配情報Δw

diff

パラメタw 勾配情報Δw

誤差E

入力層

GPU

label (正解)

差分

勾配情報Δw

勾配情報Δw

差分

勾配情報Δw

誤差E

Backward

data / labelストレージ

CPU

data

data

認識結果

Forward

data

data

認識結果

Update

Forward

Backward

学習係数(学習処理1サイクルでの反映量を決めるハイパーパラメタ)をかける

学習処理サイクル

5

Page 7: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニングとは

富士通のAI への取り組み

はじめに

Copyright 2017 FUJITSU LABORATORIES LTD.6

Page 8: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

語源

名前に込めた想い

:疾風迅雷(すばやくはげしいこと)

:人の判断・行動を“スピーディ”にサポートすることで、企業・社会の変革を “ダイナミック”に実現させる

ジンライ

Copyright 2017 FUJITSU LABORATORIES LTD.7

Page 9: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Zinraiのサポートする領域

幅広い領域の AI サービスをサポート

Copyright 2017 FUJITSU LABORATORIES LTD.

ロボティクス

ものづくり

感情・感性理解

機械学習

ディープラーニング

データ統合

脳科学

先端医療

自動分析・自動意思決定

予測最適化

Fintech

ネットワーク自動制御

自然言語理解

感性メディア処理

社会受容性

サイバー攻撃対策

知識ベース 自動車

クラウド運用管理

知識ネットワーク

リアルタイム分析

ソーシャル数理 人の感情・特性モデル化

Zinraiプラットフォーム

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

計算量の多いディープラーニングもサポート

8

Page 10: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

HPC技術をAIに適用

30年に渡るAI研究と、HPCで培った世界最速クラスのディープラーニング技術などの最先端・独自AI技術を結集

Page 11: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニングの特徴

• メリット : 適切な特徴量の自動抽出 人間を超える認識率を実現

• デメリット : 学習に多大な計算量 学習時間の長期化

ディープラーニングアプリの開発

Copyright 2017 FUJITSU LABORATORIES LTD.

仮説・提案

検証・評価

実装分析

検証・評価時に学習を行う

ディープラーニング利用アプリケーション開発プロセス

適用分野の拡大と精度向上のため、学習に必要な演算量が増加

GTC2017 Keynote より

10

Page 12: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニングの検証時間が非常に長く、開発プロセスを回せない

⇒ハードウェア、ソフトウェア両面からの高速化が必要

ディープラーニングアプリ開発の課題

Copyright 2017 FUJITSU LABORATORIES LTD.

課題

GPU 1台 (20 TFLOPS)で100 ExaFLOPSの処理に58日

富士通の取り組み

NIC

CPU

Acc.

メモリ

NIC

CPU

Acc.

メモリ

NIC

CPU

Acc.

メモリ

ストレージ

① Distributed Caffe

③ Deep Tensor

②プリフェッチ技術

④ Deep Learning Unit

⑤ Digital Annealer

分散並列化

アルゴリズム最適化

高速なデータ共有方式

専用ハードウェア

次世代アーキテクチャ

11

Page 13: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

① Distributed Caffe (分散並列化)

Copyright 2017 FUJITSU LABORATORIES LTD.12

Page 14: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Distributed Caffe

Copyright 2017 FUJITSU LABORATORIES LTD.

Caffe : 古参で著名なディープラーニングフレームワーク。オープンソースソフトウェア。ほぼすべてが C++ と CUDA で書かれており高速。主に画像認識用。

GPU は複数利用可能。Berkeley Vision and Learning Center が作成。

富士通が独自に分散並列化

Distributed Caffe : CaffeをMPI で分散並列化したもの。ノード間集約には CPU を使っている。AlexNet (スケーラビリティの悪いニューラルネット)でも、weak scale なら16ノードで15倍以上のスループット。2016年 SWoPPで発表

13

Page 15: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ニューロン層1

ニューロン層2

ニューロン層3

ディープラーニングの分散並列化

Copyright 2017 FUJITSU LABORATORIES LTD.

diff

パラメタw

data

勾配情報Δw

パラメタw 勾配情報Δw

diff

パラメタw 勾配情報Δw

誤差E

入力層

GPU

label (正解)

差分

勾配情報Δw

勾配情報Δw

差分

勾配情報Δw

誤差E

data / labelストレージ

CPU

data

data

認識結果

data

data

認識結果

Update

Forward

Backward

学習処理サイクル

14

Page 16: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ニューロン層1

ニューロン層2

ニューロン層3

入力層

ディープラーニングの分散並列化

Copyright 2017 FUJITSU LABORATORIES LTD.

data 差分

パラメタw

data

勾配情報Δw

パラメタw 勾配情報Δw

data 差分

パラメタw 勾配情報Δw

label (正解)

認識結果 誤差E

data / label

GPU GPU

CPU CPU

勾配情報Δw

勾配情報Δw

勾配情報Δw

ストレージ 勾配情報Δw 勾配情報Δw

All-reduce(ノード間通信)

Update

Backward

Forward

学習処理サイクル

All-reduce

15

Page 17: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

複数ノードで行う学習処理の課題

Copyright 2017 FUJITSU LABORATORIES LTD.

All-reduce処理が加わる事でGPUが動作しない時間が発生

集約処理時間を他のGPU処理時間に隠蔽集約処理時間を短縮

基本的なアイディア

GPU

CPU

Forward Backward

All-reduce

Update

集約処理によるオーバヘッド

時間

「重みパラメタの要素数」が多い場合、増加

「ノード数」増により増加

16

Page 18: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Backward処理時間への隠蔽

Copyright 2017 FUJITSU LABORATORIES LTD.

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

GPU

CPU

隠蔽前集約処理によるオーバヘッド

L2 L3 L2 L1L1 L3

各層のBackward処理が終わる毎に層単位でAll-reduce処理を開始する

方法

GPU

CPU

L2 L3 L2 L1

L3 L2 L1

隠蔽後

L1 L3

2層目以降のBackward処理とAll-reduce処理を並列に実行することでオーバヘッドを短縮

17

Page 19: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Forward処理時間への隠蔽

Copyright 2017 FUJITSU LABORATORIES LTD.

GPU

L2

層単位でUpdate処理

L2 L1

L1

L1L3

L3

L2

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

•集約処理を複数スレッドで実行• Update処理を分割• Forward処理の開始を、層毎に判定

方法

すべての層のAll-reduce処理の完了を待たずに、次のForward処理を開始

CPU

18

Page 20: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

細分化による並列化

Copyright 2017 FUJITSU LABORATORIES LTD.

All-reduce処理

各層のBackward処理

各層のForward処理

• GPUとのデータ転送、ノード間転送、Reduce演算等について、データを細分化して実行

方法

細分化前

GPU

CPU

Update処理

GPU

CPU

細分化後

All-reduceにかかる時間を短縮

19

Page 21: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

評価環境

Copyright 2017 FUJITSU LABORATORIES LTD.

評価環境

九州大学 情報基盤研究開発センター 高性能演算サーバ

東京工業大学 学術国際情報センター TSUBAME2.5

東京工業大学 TSUBAME2.5• 計算ノード: 約1400台 内256台• CPU: 12 core, 54 GB• GPU: Tesla K20X x3• CUDA7.5, cuDNN v4.0• OpenMPI 1.6.3• InfiniBand QDR 4レーン x2(4.0 GB/s x 2)

九州大学 高性能演算サーバ• 計算ノード: 1476台 内16台• CPU: 16 core, 128 GB• GPU: Tesla K20m x1• CUDA7.5, cuDNN v4.0• Intel MPI 4.0.3• InfiniBand FDR 4レーン x1(6.8 GB/s)

Deep Neural Network

AlexNetを使用

•層構成

•畳み込み層 5層

•全結合層 3層

•重みパラメタの総要素数:約6100万

学習用データ

ILSVRC2012画像認識データセット

•学習用 約128万枚、検証用 5万枚

20

Page 22: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

処理速度のスケーラビリティ

30.3

60.4

119.5

216.6

28.4

52.4

86.8

167.2

18.9

32.6

62.3

108.1

18.0

31.7

60.2

10

100

処理速度v

[arb

itra

ry]

ノード数 N(=GPU数)

256

128

64

32

32 64 128 256

Copyright 2017 FUJITSU LABORATORIES LTD.

ノード当たりのミニバッチサイズを64から32とし、ノード数を倍にすると、性能は下がってしまう

ノード当たりのミニバッチサイズ

ノード当たりのミニバッチサイズを256、ノード数を256で実行した場合、処理速度は217倍

ノード当たりのミニバッチサイズを128から64とし、ノード数を倍にすることで、性能を上げられる

v = N

21

Page 23: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ミニバッチサイズの影響

Copyright 2017 FUJITSU LABORATORIES LTD.

0

10

20

30

40

50

60

1000 10000 100000

top1 正解率

[%]

学習処理回数

AlexNetにおける学習の進み方

全画像を20回学習

22

Page 24: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

40.2

45.3 47.3 46.2

44.3

37.1

256 512 1024 2048 4096 8192

ミニバッチサイズ

ミニバッチサイズの影響

Copyright 2017 FUJITSU LABORATORIES LTD.

(1)全画像を20回学習した時のtop 1 正解率to

p1正解率

[%]

ミニバッチサイズが1024で正解率が最大となる ミニバッチサイズが8192を

超えると最終的な正解率が50%を下回る

23

Page 25: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

25.2

4.4 1.71.2 0.9 0.71.0

5.7

14.7

20.3

27.0

(38.8)

0

10

20

30

40

50

0 時間

6 時間

12 時間

18 時間

24 時間

30 時間

1(256) 8(512) 16(1024) 32(2048) 64(4096) 128(8192)

ノード数(ミニバッチサイズ)

① 学習速度の評価

Copyright 2017 FUJITSU LABORATORIES LTD.

(2) top1 正解率が45%に到達するまでにかかる時間と高速化率

学習速度[arbitrary]

24

Page 26: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Distributed Caffeまとめ

1ノードあたり画像256枚のミニバッチでは、64ノードで60倍を超える処理速度

学習の速度では、64ノードの場合、64枚 / ミニバッチ / ノードが最速で27倍

最終到達予測精度もミニバッチあたりの画像枚数による

現状の手法では、分散並列による高速化には上限がある

富士通 Zinraiサービスで提供中

SWoPP2016で発表

2016年8月プレスリリース ( http://pr.fujitsu.com/jp/news/2016/08/9.html )

Copyright 2017 FUJITSU LABORATORIES LTD.25

Page 27: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

②分散並列データ供給技術

Copyright 2017 FUJITSU LABORATORIES LTD.26

Page 28: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

分散並列データ供給技術

Copyright 2017 FUJITSU LABORATORIES LTD.

FEFS: Lustre から派生した分散並列ファイルシステム

Distributed Caffe: 深層学習の分散並列フレームワーク

クライアントのコンピュータ上データをキャッシュすることで、

ストレージへのアクセス時間を軽減

データの一部のコピーを一時的にコンピュータのメモリ上に置いておく方式

全データをメモリ上に置くのは、通常は容量不足で不可能

必要なデータを必要なタイミングでメモリ上に持つことも困難

Dist. Caffe Dist. Caffe

FEFS

OSSFEFS

OSSFEFS

OSS

Dist. Caffe

FEFSClient cache

対象とするケースFEFS

Client cacheFEFS

Client cache

LMDB: メモリマップファイル利用のデータベース(Dist. Caffe のデータ入力に使用)

アクセラレータの高速化により、分散並列実行時のデータ供給速度が問題(nVIDIA Pascal 4枚使用で画像認識の学習(AlexNet) なら300MB/s 程度の処理速度)

27

Page 29: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

課題解決のアイディア

Copyright 2017 FUJITSU LABORATORIES LTD.

分散並列実行時、それぞれのプロセスが連続したデータ領域を担当すればプリフェッチが可能

データベースでのアクセス位置がわかれば、プリフェッチすべき領域がわかる

データアクセスが行われたことをどうやって知れば良いか?

深層学習フレームワークで、

各プロセスが連続領域をアクセス

データファイル

分散並列プロセス 1

データアクセス検知

次に読まれるべきデータ

分散並列プロセス 2

分散並列プロセス 3

28

Page 30: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

分散並列データ供給技術実装案

Copyright 2017 FUJITSU LABORATORIES LTD.

メモリマップファイルなら、‘mprotect’ と ‘signal handling’ でアクセス検知可能

mprotect であらかじめ検出したい領域をアクセス禁止にしておく

アクセスバイオレーションのシグナルを検知し、プロテクトを解除、プリフェッチ

no-protected page

protected page

メモリマップファイル1: protect を張っておく

深層学習プログラム

2: データ読みだし

SIGSEGVシグナル

シグナルハンドラ

3: fault

4: 一時停止

5: プロテクション削減

4: シグナル検出

I/O プロセス6: call

7: プリフェッチ

7: 再開

LMDB

データベース

29

Page 31: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

実装時のパラメータ

Copyright 2017 FUJITSU LABORATORIES LTD.

Protected page

Protected Page

Address X

入力データは、メモリマップファイルのアドレスXからアドレスZまで

Prefetch の契機 -- mprotect で保護されたページにアクセスした時

Prefetch 量 (Size) – 一度に prefetch するデータ量

不感応期間 (Distance) -- すでにプリフェッチした領域を再プリフェッチしないため

Address Z

メモリマップファイル

一度で prefetchするデータSize

一度で prefetchするデータ

Protected Page

Protected Page

Protected Page

Protected Page

Protected Page

初回プリフェッチ

1回目不感応期間(Distance)

2回目プリフェッチ

30

Page 32: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

分散並列データ供給技術評価結果

Copyright 2017 FUJITSU LABORATORIES LTD.

2,045 s

245.73 s

処理時間 87.98% 削減

10.47 倍高速化

176.50 s

処理時間 37.99% 削減

1.89 倍高速化

284.65 s

処理時間 48.82% 削減

2.89 倍高速化

165.23 s

322.86 s

Warm cache: 164.6s

31

Page 33: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

分散並列データ供給技術評価結果

Copyright 2017 FUJITSU LABORATORIES LTD.

本技術導入による処理時間の増加は、測定誤差の範囲で見られなかった

本技術のオーバーヘッドは無視できるほど小さい

本技術適用前 本技術を導入し prefetch を行わない場合

32

Page 34: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

分散並列データ供給技術まとめ

メモリマップファイルの逐次読み出しはプリフェッチで高速化可能

分散ファイルシステム上のファイルでは効果が大きい

Local NVMe RAID では、あらかじめメモリキャッシュに乗せた場合とほぼ同じ

オーバーヘッドは無視できるレベル

今後

逐次読み出しを行う他のアプリケーションへの適用

Linux kernel module メカニズムで prefetch機能の追加を検討

2017年SWoPP発表

Copyright 2017 FUJITSU LABORATORIES LTD.33

Page 35: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

③ Deep Tensor(アルゴリズム高速化)

Copyright 2017 FUJITSU LABORATORIES LTD.34

Page 36: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

グラフデータ ラベル

A

B

Deep Tensor とは

学習時 : 教師あり(ラベル付き)のグラフデータをディープラーニング

推論時 : グラフデータを入力し、分類

高速数値演算ライブラリや GPU により高速動作

Copyright 2017 FUJITSU LABORATORIES LTD.

DeepTensor

• ラベルと部分グラフを関連づけ

• 特徴となる部分グラフは自答抽出

DeepTensor

• グラフデータの類似性で推論

B

35

Page 37: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

グラフデータの課題

Copyright 2017 FUJITSU LABORATORIES LTD.36

Page 38: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Deep Tensor のコア技術

Copyright 2017 FUJITSU LABORATORIES LTD.

技術

座標非依存な情報に変換

37

Page 39: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

グラフデータ学習の応用先

Copyright 2017 FUJITSU LABORATORIES LTD.38

Page 40: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

高速化の必要性と実施

複数特徴精度向上により演算量増加 50倍程度の高速化が必要

1. テンソル処理の高速化

2. 分散並列処理化

可変長データの処理時間をミニバッチ単位で調整

4ノードで3倍程度

Copyright 2017 FUJITSU LABORATORIES LTD.

改善ポイント 対策

冗長な計算 無駄の少ない計算に変更

メモリキャッシュ

メモリキャッシュが活用される演算方式に変更

ライブラリに適切な関数がない

フレームワークの流儀に従って、関数追加

並列度設定 最適な並列度に設定

プロファ

イル取得

遅い原因

特定改善

地道な改善で、20倍以上の高速化 (可読性も維持)

全体で50倍以上の高速化を達成

39

Page 41: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Deep Tensor まとめ

Deep Tensor は、グラフデータをディープラーニングの手法で学習

分類に影響を与える特徴パターンで判定

アルゴリズム改善とロードバランス調整で、可読性を損なわず、50倍以上高速化

2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20.html , http://pr.fujitsu.com/jp/news/2017/09/19-3.html )

Copyright 2017 FUJITSU LABORATORIES LTD.40

Page 42: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

④ディープラーニング専用プロセッサ DLU

Copyright 2017 FUJITSU LABORATORIES LTD.41

Page 43: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ディープラーニング専用チップの必要性

ディープラーニングには高い演算性能が必要

ムーア則の終焉

1チップの性能が伸びない

複数チップによる高性能化

大量の演算で大電力を消費

ディープラーニングに不要な回路を省くことで省電力化

Copyright 2017 FUJITSU LABORATORIES LTD.

Source: Stanford, K. Ruppを元に推測

2000 2010 2020 203019901980

103

102

1

101

104

10nm

20nm

40nm

180nm

250nm

350nm

2025年

2002年

現在

90nm

電力効率性能

[arb

itra

ry u

nit]

Year

半導体微細化技術による電力性能の進化

スケーラビリティのよい、ディープラーニングに特化したプロセッサがベスト

42

Page 44: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Deep Learning Unit (DLU)

Copyright 2017 FUJITSU LABORATORIES LTD.

DLU の特徴 ディープラーニングのためのアーキテクチャデザイン 低消費電力 最適な演算精度 電力あたり処理性能で10倍を目指す

Tofu インターコネクト技術によるスケーラビリティ 大規模ニューラルネットワークを処理できる能力

2018年度から

DLU(Deep Learning Unit)

TM

43

Page 45: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

DLU 向けアーキテクチャとは?

領域特化型、最適な演算精度、高並列

Copyright 2017 FUJITSU LABORATORIES LTD.

従来型アーキテクチャ 新アーキテクチャ

汎用 領域特化型

高精度演算 最適演算精度

逐次 + 並列 高並列

複雑な Out of Order コア 領域特化型コア

倍/単精度浮動小数点 ディープラーニング用整数演算

高機能マルチコア メニーコア44

Page 46: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

DLU アーキテクチャ

Copyright 2017 FUJITSU LABORATORIES LTD.

DLUTM

(Deep Learning Unit)

Host I/F

Inter-chipI/F

HBM2

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPU-0

DPU-1

DPU

DPU

DPU

DPU-n

1. 領域特化型領域に特化したコア

- 新規命令セット

- 簡素化されたマイクロアーキテクチャ

- ソフトウェアから透過、制御可能

- ヘテロジニアスコア

- DPE と大容量レジスタファイル

2. 最適化演算精度Deep Learning Integer

3. 高並列 (Massively Parallel)多数の DPU をチップ上ネットワークで接続

DPU: Deep Learning Processing Unit, DPE: Deep Learning Processing Element

チップ間ネットワークにより大規模なDLUシステムを構成

45

Page 47: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ヘテロジニアスコア

少数のマスターコアと多数の小型実行コア(DPU)により、従来の単一コア構成に比べ、省電力で高いパフォーマンスを実現

Copyright 2017 FUJITSU LABORATORIES LTD.

マスターコア:メモリアクセスとDPUの制御

• DPUとのデータ転送• DPUの実行制御

DPU

マスター

DPU

DPU

DPU

DPU

DPU

DPU

DPU

メモリコントローラ

メモリ

命令とデータ

DPU: 実行

• マスターコアの制御下で• ディープラーニング処理を行う

多数のDPUの利用方法(畳み込みでの例)• DPU毎に1チャンネルの出力• 複数イメージをDPU毎に処理

入力チャンネル

出力チャンネル

46

Page 48: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

DPE と大容量レジスタファイル (RF)

DPUは 16個の DPEからなっている

DPEは大容量RFと多SIMD実行ユニットを有し、効率的なディープラーニング処理を行う

メモリキャッシュ($)とことなり、RFはソフトウェアで制御できるため、ハードウェアのポテンシャルを引き出せる

Copyright 2017 FUJITSU LABORATORIES LTD.

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

レジスタファイル

DPE = 8 SIMD* と大容量RF(通常のCPUコアの100倍)

DPU: 16 DPE* = 128 SIMD

* 単精度浮動小数点

プロセッサ レジスタ、$

UNIX SPARC64 XII RF+$

HPC SPARK64 Xifx RF+セクター$

AI DLU 大容量RF

ソフトウェア制御可能性

47

Page 49: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Deep Learning Integer

ディープラーニングを8~16 bit の整数演算で実現省電力化

16 bit で単精度浮動小数点並みの精度

Copyright 2017 FUJITSU LABORATORIES LTD.48

Page 50: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

DLU のまとめ

ディープラーニングに特化したプロセッサ

演算器の高並列化

キャッシュなし、大量レジスタファイル

演算精度の最適化

高い演算性能と、電力あたり演算性能比を目指す

2017年 ISC 発表

2016年11月プレスリリース (http://pr.fujitsu.com/jp/news/2016/11/29.html)

Copyright 2017 FUJITSU LABORATORIES LTD.49

Page 51: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

次世代アーキテクチャ

Copyright 2017 FUJITSU LABORATORIES LTD.50

Page 52: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

量子コンピュータ

デジタルアニーラ

Copyright 2017 FUJITSU LABORATORIES LTD.

注1: 与えられた条件の中で色々な選択肢の中から一番良い解を選ぶ問題の総称 注2: 巡回セールスマン問題によるベンチマーク評価における 解を求めるまでにかかる時間

デジタルアニーラ

量子現象に着想を得たデジタル回路により、一般的なコンピュータでは解けない組み合わせ最適化問題1を瞬時に解く

プロトタイプ性能評価2において、一般的なコンピュータ比12,000倍に高速化

量子コンピュータを実用性で超える新アーキテクチャーを開発 (2016年10月発表)

MAX-CUT問題 巡回セールスマン問題 ナップサック問題

組み合わせ最適化問題

• 小規模の問題のみ適用• 拡張が困難• 量子状態維持が難しく、大型装置が必要

• 実用規模の問題に適用• 拡張が容易• デジタルのため安定動作、小型化が容易

51

Page 53: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

デジタルアニーラの実問題適用に向けて

Copyright 2017 FUJITSU LABORATORIES LTD.

富士通と1QBit1、量子コンピュータ技術を応用したAIクラウドで協業を

開始(2017年5月)

クラウドでデジタルアニーラのトライアル提供を開始(2017年8月)

注1: 1QB Information Technologies Inc.(本社:カナダ バンクーバー市)

応用領域の明確化が進み、準備段階が完了

デジタルアニーラ

ハード

16年10月発表

組み合わせ最適化問題

基本アルゴリズム

イジングモデルへの変換

1QBit社協業

ソフト

17年5月発表デジタル

マーケティング

リコメンデーション

医療

放射線治療

金融

ポートフォリオ最適化

化学・製薬

分子類似性検索

エネルギー

需給ギャップ調整

52

Page 54: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

実問題への適用における課題

Copyright 2017 FUJITSU LABORATORIES LTD.

組み合わせ最適化手法の根本課題

扱う問題の種類ごとに、数週間単位の長い準備期間がかかる

最適解が得られるパラメーター設定1を、試行錯誤により繰り返し探索

多数のパラメーター設定の中から最適設定を決定

デジタルアニーラ

(基本回路)

数万回以上の繰り返し計算

注1:アニーリング(焼きなまし)法における温度の冷まし方(初期温度、勾配など)

デジタルアニーラ技術を進化させ根本課題を解決

パラメーター1パラメーター2パラメーター3 パラメーターN

応用問題の種類ごとに数週間

53

Page 55: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

新規デジタルアニーラを開発

Copyright 2017 FUJITSU LABORATORIES LTD.

パラメーター探索を不要とする技術により、数週間の準備期間を1日未満に短縮

基本回路を並列動作させ、複数の初期パラメーターを与えて同時探索

各回路の動作状態1に応じて、パラメーターを自動制御

最適解

応用問題の種類ごとに1日未満

状態を観測・制御

新規デジタルアニーラ

新技術により実問題への適用を容易に

注1:アニーリング法における最適化対象となるエネルギーの状態

54

Page 56: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

必要な特性の分子を発見し新材料を設計

Copyright 2017 FUJITSU LABORATORIES LTD.

4000万以上の既知材料から、求める特性の分子を探索デジタルアニーラで50原子規模の分子同士の類似性検索を実現

50原子規模の分子比較1京 x 1京 x 1京 通り以上の組み合わせ

比較元分子デジタルアニーラ

構造特性の比較

新素材開発や創薬への適用を開始

既知材料

既知材料の中からSimilarity Scoreの高い順に出力

55

Page 57: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

ポートフォリオを最適化し投資リスクを削減

Copyright 2017 FUJITSU LABORATORIES LTD.

膨大な組み合わせの中から、価格変動で似た傾向をもつ銘柄同士をクラスタ化し、資産を適切に分散するポートフォリオを構成

金融危機の影響回避、安定運用に適用

銘柄

投資割合

(%)

最適ポートフォリオ

0 100 200 300 4000

0.2

0.4

0.6

0.8

1.0

1.2

500銘柄の並べ替え1京 x 1京 通り以上の組み合わせ

デジタルアニーラにより500銘柄の最適化に成功

0 100 200 300 400

100

200

300

400

銘柄

銘柄

0 100 200 300 400

100

200

300

400

銘柄

銘柄

デジタルアニーラ

銘柄間の相関データ クラスタ化後の相関データ

56

Page 58: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

アニーラーの応用

通常のコンピュータに、量子アニーラーをアクセラレータとして付加する方法

ボルツマンマシンの学習において、パラメータの更新に必要な計算に量子サンプリング結果を利用する方法が提案されている

Copyright 2017 FUJITSU LABORATORIES LTD.

h1

v1

v2

v3

v4

h2

h3

1

1

1

h1

h2

2

2

w11

w11

w43

w32

1

1

2

2

v:入力データw:求めるパラメータ(他に、各ニューロンに割り振られたバイアスも求める)

“Application of Quantum Annealing to Training of Deep Neural Networks”, S.H.Adachi, Maxwell P. Jenderon

57

Page 59: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

デジタルアニーラまとめ

Copyright 2017 FUJITSU LABORATORIES LTD.

最適化問題に特化したプロセッサを開発、効果を検証

問題によっては、汎用プロセッサの1万倍以上の高速化

2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20-1.html ,http://pr.fujitsu.com/jp/news/2017/09/20-2.html )

58

Page 60: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

まとめ

Copyright 2017 FUJITSU LABORATORIES LTD.59

Page 61: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

まとめ

富士通のAI:Human Centric AI 「Zinrai」

AIサービスを加速させるZinraiプラットフォームサービスを提供中

富士通の AI に対する取り組みの紹介

ディープラーニングの高速化

•① Distributed caffe (画像認識プログラムの分散並列化)

•②分散並列データ供給技術

•③ Deep Tensor (グラフデータ学習プログラムのアルゴリズム最適化)

•④ディープラーニング専用プロセッサ DLU

次世代アーキテクチャ

•⑤最適化問題専用プロセッサ Digital Annealer

Copyright 2017 FUJITSU LABORATORIES LTD.

富士通は新しいコンピューティング技術でお客様の課題解決に貢献して行きます

60

Page 62: Fujitsu Standard Tool...2017/10/26  · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Copyright 2017 FUJITSU LABORATORIES LTD.