SIGGRAPH 2009 メモ (Aug. 6)

Artigo
08/06/2009

会場の Ernest N. Morial コンベンションセンターです。ミシシッピー川沿いにあるので、途中を横切る道もなく、端から端までやたら長い会場です。

今日は終日 Beond Programmable Shading に出席しました。この講義録は https://s09.idav.ucdavis.edu/ に公開されています。このブログからもダウンロードできるように、それぞれリンクをつけておきました。

ちなみに昨年の講義録はhttps://s08.idav.ucdavis.edu/ にあるので、比較するのも面白いかもしれません。実感としてはLarrabeeが現実のものになりつつあるにもかかわらず、ソフトウェア側の混沌さは増しているような気がしました。

Beyond Programmable Shading I

Why and How is interactive Graphics Programming Changing ? by Aaron Lefohn @ Intel

インタラクティブグラフィックス技術は、データ並列とタスク並列アルゴリズムとグラフィックスパイプラインのミックスで作られている

どうやって？

固定機能パイプライン
プログラマブルシェーディング
データ＆タスク並列アルゴリズムの追加
グラフィックスパイプラインの拡張・修正

ここで話したいのは...

どのような形式の並列化が使われているのか
どのようなハードウェアが使われているのか＆なぜ？
なぜ現在のパイプラインでは不十分なのか
既存のAPIの将来は？

Beyond Programmable Shading Retrospective by Mike Houston @ AMD

GPGPUのキラーアプリケーションはグラフィックスだった！

インタラクティブグラフィックスのこれまでの歴史

インタラクティブグラフィックスはソフトウェアベースになっていくのか？この柔軟性は生産性を犠牲にするのか？

Running Code at a Tera Flops: Overview of GPU Architecture by Kayvon Fatahalian @ Stanford

GPUとはヘテロなチップを持つマルチプロセッサーであり、グラフィックス用に高度にチューニングされている。GPUを、最大スループット用に最適化されたマルチコアプロセッサーと考えよう。

マルチコア
SIMD（明示的／暗黙的）
スケジューラーによるインターリーブコンテキスト

GPUにとってバンド幅が非常に重要。

Parallel Programming for Interactive Graphics by Tim Foley @ Intel/Stanford

グラフィックスにおける3種類の並列化

データ並列
タスク並列
パイプライン並列

データ並列

複数の要素全体に単一のカーネルを適用、要素ごとの演算は同一。

（フラット）ドメイン

階層ドメイン

非均一ドメイン（不完全な配列）

パイプライン並列

- アルゴリズムはステージの順列
- 各ステージは0以上の処理を発行
- パイプラインはアンバランスを処理する
- ユーザー定義のパイプライン
  - 中間ストレージとスケジューリングアルゴリズムの挑戦
  - PS3では標準的に実践

タスク並列

- 非同期関数呼び出し
- タスク／ジョブシステム
  - PS3では標準的
  - １ワーカースレッド／ハードウェアコンテキスト
  - 協調型スケジューリング
- タスクの粒度
  - 荒いタスク
  - 細かいタスク（細かくするほどスケジューリングがオーバーヘッドに）

3つの並列の合成

探している

アーキテクチャ

ツール

アルゴリズム

Parallel Graphics in Frostbite by Johan Andersson @ DICE

CPU並列とGPU並列のゲームエンジン
ジョブベースの並列化
- システムをジョブに分割
- 編み込み（Braided）並列化（タスク並列とデータ並列の中間）
レンダリングジョブのほとんどはGPUだが...
- 並列コマンドバッファ、D3D11並列ディスパッチ
- 遮蔽カリング
- PS3ジオメトリー処理
- カスタムジオメトリー処理
- デカール投影
- 遅延ライティング／シェーディング
将来のプログラミングモデルでは、コンピュートシェーダストリーム I/Oとしてキューが必要
良い並列モデルは、良いゲームエンジンの性能にとって重要

id Tech 5 Challenges by Van Waveren @ id So

ftware

GPU仮想テクスチャ

テクスチャフィルタリング
テクスチャスラッシング
LODスナップ
テクスチャ管理

性能を得るには以下のソフトウェアアーキテクチャが必要

OSスレッド
ジョブの分解
- 衝突検出
- アニメーションブレンド
- 障害物回避
- 透明性
（GP）GPU上のジョブ
- ジョブを多数の細かいスレッドに分割

Beyond Programmable Shading II

GPU Primitive – Case Study: Hair Rendering by Ulf Assarsson @ Chalmers University

3つのキーコンセプト

ストリーム圧縮（Compaction）
事前合計
ソート

リアルタイムの髪のレンダリングにおける挑戦は、セルフシャドウと半透明

Real-Time Micropolygon Rendring Pipeline is Not Far Away by Kayvon Fatahalian @ Stanford

現在のパイプラインでマイクロポリゴンをレンダリングすることは非効率

テセレーション
- 適応型テセレーション、スプリット – ダイス
- スプリット：プリミティブを再帰的に分割
- ダイス：単純な均一テセレーション
- D3D11テセレータは、スプリットではなくダイスだけ
- DiagSplit：リアルタイムパイプライン用のスプリットーダイス
- 並列テセレーションは活発な分野
ラスタ化
- ラスタライザーの再実装
- マイクロポリゴンのラスタ化は高価
- モーションブラーを可能にするには3倍から7倍
- 焦点のぼかし（DOF）
シェーディング
- REYESスタイルのシェーディング
- 頂点でシェーディング

リアルタイムマイクロポリゴンレンダリングは、将来可能になるだろう。

AMD Case Study by Justin Hensley @ AMD

適応型画像ベースのライティングの近似

合計範囲テーブル（SAT:Summed Area Table）
動的光沢環境反射

Innovating in a Software Graphics Pipeline by Paul Lalonde @ Intel

伝統的なAPI⇔拡張済みパイプライン⇔拡張可能なパイプライン⇔Bare Metal

グラフィックスAPIはイノベーションのボトルネック
伝統的なレンダリングモデル vs ソフトウェアレンダリングモデル
メニーコアグラフィックス
- C/C++並列言語＋Larrabee（LRB）
- WDDM
フレームバッファ RMW（Read, Modify, Write）
- LRB ラスタライザ→ピクセルシェーダ→フレームバッファ2次キャッシュ
- LRBはレンダリング後のフレームバッファをそのまま修正できる
- GPU ラスタライザ→ピクセルシェーダ→ROP→フレームバッファ
半透明
- K Buffer
- レンダーターゲットのリスト（LRT）
- テクスチャのリスト（List<Texture>）
プログラマブルによって解決できる
- フレームバッファのL2キャッシュで画像処理
- テクスチャページングの要求

LRBは拡張可能なパイプラインによって究極のものを提供

NVIDIA Case Study by David Luevke @ NVIDIA Research

レイトレース
REYES

Compartilhar via