OpenCVとCUDAおよびcuDNNのモジュールコンパイル
概要
ハイパフォーマンスとリソース最適化を同時に達成する必要があるエッジコンピューティングデバイスやリソース制限のある開発ボード上でのYOLOなどの複雑なディープラーニングモデル実行において、C++とOpenCVのGPU加速技術の組み合わせは伝統的なPython環境に比べて顕著な利点があります。このアプローチは実行効率を大幅に向上させるとともにランタイムリソース消費 ...
6月30日 16:28 投稿
VSCodeリモート開発と実験管理の基礎実践
リモートサーバーでのVS Code開発環境構築
ローカルマシンからリモートサーバーにVS Codeで接続する手順を解説します。まず、ローカル側に「Remote - SSH」拡張機能をインストールします。次に、ローカルとリモートのVS Codeバージョンを整合させる必要があります。
バージョン確認とサーバー準備
ローカルVS Codeでバージョン情報を取得します:
Ctrl+Shift+P → "About: A ...
6月7日 20:28 投稿
AIシステムの視点からCUDAを考察する
AIシステムの視点からNVIDIAのエコシステムを再評価すると、多くの参考になる側面が見えてきます。本稿では主にパイプラインスケジューリング、SIMTフロントエンド、分岐予測、およびインタラクション方式について分析し、DSAアーキテクチャと比較しながら、NVIDIA CUDAから学べる点について考察します。
NVIDIAエコシステムの考察ポイント
ソフトウェアとハードウェアアー ...
6月6日 17:16 投稿
YUVからRGBへのCUDA高速変換:Lidar_AI_Solutionによるミリ秒級画像処理の実現
YUVからRGBへのCUDA高速変換:Lidar_AI_Solutionによるミリ秒級画像処理の実現
Lidar_AI_Solutionプロジェクト内のYUVToRGBモジュールは、CUDAを活用した画像フォーマット変換ツールであり、単一のCUDAカーネルを用いてYUVからRGBへのバッチ変換を実行します。これにより、レーザーラーダーと視覚の融合アプリケーションに対し、効率的な画像前処理能力を提供します。この ...
6月6日 16:15 投稿
Darknetフレームワークの基本と使用方法
Darknetフレームワークの概要
DarknetはC言語とCUDAで実装されたオープンソースの深層学習フレームワークです。その主な特徴は、依存関係がほとんどなく(OpenCVすら不要)、インストールが容易で、CPUとGPUの両方をサポートしている点です。また、高い移植性を持ちます。
Darknetを選ぶ理由
TensorFlowほど高機能ではありませんが、このシンプルさがDarknetの利点とな ...
5月31日 21:06 投稿
Tri-MipRF:効率的なアンチエイリアシングのためのTri-Mip表現によるニューラル輝度場
環境構成
Python:3.9.0, Pytorch:1.13.1, Cuda:11.7, Tinycudann:1.7 を使用してインストールしてください。このバージョンに合わせると、tiny-cuda-nnのインストールでエラーが発生しません。
conda create -n trimip python=3.9
conda activate trimip
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://downloa ...
5月30日 03:49 投稿
ARMアーキテクチャ向けONNX Runtime GPU版のソースビルド手順
環境情報
アーキテクチャ: aarch64
OS: Ubuntu 20.04
GPU: NVIDIA T4
前提条件
CUDAが適切にインストール済み
cuDNNが適切にインストール済み
CMakeが適切にインストール済み
ビルド手順
1. ソースコードの取得
git clone --recursive https://github.com/microsoft/onnxruntime.git
cd onnxruntime
2. バージョンの切り替え
git checkout v1.16.3
...
5月29日 15:10 投稿
Horovodを用いた分散ディープラーニング環境の構築
分散ディープラーニングの実装において、異なるGPUを使用するためのフレームワーク統合が重要です。特にTensorFlowやPyTorchなどの多様なフレームワークを一つのプラットフォームで利用できるHorovodは便利です。この記事では、Horovodを使った分散環境のセットアップ方法について説明します。
分散学習アーキテクチャ: PSとRing-Allreduce
Parameter Server (PS) アーキ ...
5月27日 00:34 投稿
CUDA公式ライブラリ:フーリエ変換(CUFFT)関連関数の概要
CUFFTライブラリは高性能なフーリエ変換計算を実現するための主要なツールです。一次元、二次元、三次元の実数および複素数フーリエ変換をサポートし、様々なデータレイアウトとデータ型を扱えます。この記事では、CUFFTライブラリの主要な関数について概説します。
1. FFTハンドル
1.1 cufftHandle
FFT演算の状態とリソースを管理するためのハンドル型です。FFT演算の状態 ...
5月24日 23:16 投稿
PyTorchの旧バージョンのインストール方法(成功例)
目次
インストール手順は以下の通りです:
Anaconda3が正しくインストールされているか確認(システム環境変数の設定済みを前提)
新しい仮想環境の作成
仮想環境の有効化
自分のPCがサポートするCUDAバージョンの確認(重要なステップ)
公式サイトから対応バージョンのインストールコマンドを取得
torchバージョンの確認(補足)
環境:
Windows 11
Anaconda3-2021.05 ...
5月19日 20:11 投稿