Qwen Omni多模态モデルとUnityの統合実装

Qwen Omni多模态モデルの概要 Alibabaが公開したQwen Omniは多模态AIモデルで、テキスト/音声/画像/動画を入力として処理し、テキストと音声を同時出力します。ローカル実行には70GB以上のVRAMが必要ですが、API経由で効率的に利用可能です。 APIインターフェース仕様 基本リクエストはOpenAI形式と互換性があり、modalitiesパラメータで出力形式を制御します。 curl -X ...

6月8日 20:54 投稿