Qwen Omni多模态モデルとUnityの統合実装
Qwen Omni多模态モデルの概要
Alibabaが公開したQwen Omniは多模态AIモデルで、テキスト/音声/画像/動画を入力として処理し、テキストと音声を同時出力します。ローカル実行には70GB以上のVRAMが必要ですが、API経由で効率的に利用可能です。
APIインターフェース仕様
基本リクエストはOpenAI形式と互換性があり、modalitiesパラメータで出力形式を制御します。
curl -X ...
6月8日 20:54 投稿