AVX2 permute命令の詳細解説と並列プログラミング・Webフレームワーク・Bashスクリプト・GCC最適化オプション
AVX2におけるpermute命令の使い方
AVX2命令セットには、ベクトル内の要素を再配置するためのpermute系命令が含まれる。整数および浮動小数点データに対して使用可能で、用途に応じて異なる関数が提供されている。
整数用:_mm256_permutevar8x32_epi32
この命令は、インデックスベクタに基づいて32ビット整数要素を再配置する。
#include <immintrin.h>
int main() ...
6月10日 21:40 投稿
MPIを活用した並列GEMMの実装パターンとパフォーマンス特性
分散環境における行列積のデータ配置戦略
大規模行列の一般行列積(GEMM)計算において、逐次実装の計算量O(M×P×N)はプロセッサ数が線形増加しても通信オーバヘッドによってスケールしない。分散メモリシステムでは、演算対象行列をプロセスグリッド上に分配し、通信と並列計算を重叠させるアーキテクチャ設計が必須となる。ここでは1次元ブロック循環型と2次元直交グリッ ...
5月15日 05:54 投稿