AVX2 permute命令の詳細解説と並列プログラミング・Webフレームワーク・Bashスクリプト・GCC最適化オプション

AVX2におけるpermute命令の使い方 AVX2命令セットには、ベクトル内の要素を再配置するためのpermute系命令が含まれる。整数および浮動小数点データに対して使用可能で、用途に応じて異なる関数が提供されている。 整数用:_mm256_permutevar8x32_epi32 この命令は、インデックスベクタに基づいて32ビット整数要素を再配置する。 #include <immintrin.h> int main() ...

6月10日 21:40 投稿

MPIを活用した並列GEMMの実装パターンとパフォーマンス特性

分散環境における行列積のデータ配置戦略 大規模行列の一般行列積(GEMM)計算において、逐次実装の計算量O(M×P×N)はプロセッサ数が線形増加しても通信オーバヘッドによってスケールしない。分散メモリシステムでは、演算対象行列をプロセスグリッド上に分配し、通信と並列計算を重叠させるアーキテクチャ設計が必須となる。ここでは1次元ブロック循環型と2次元直交グリッ ...

5月15日 05:54 投稿