MPIを活用した並列GEMMの実装パターンとパフォーマンス特性
分散環境における行列積のデータ配置戦略
大規模行列の一般行列積(GEMM)計算において、逐次実装の計算量O(M×P×N)はプロセッサ数が線形増加しても通信オーバヘッドによってスケールしない。分散メモリシステムでは、演算対象行列をプロセスグリッド上に分配し、通信と並列計算を重叠させるアーキテクチャ設計が必須となる。ここでは1次元ブロック循環型と2次元直交グリッ ...
5月15日 14:54 投稿
奇想天外なアイデアがコードで現実になる場所
5月15日 14:54 投稿