AlibabaのQwenチームが、0.8B・2B・4B・9Bの4つのデンスモデルからなる「Qwen 3.5 Small」シリーズをリリースした。独自のGated DeltaNetアーキテクチャを採用し、9BモデルがMMLU-Proで82.5を記録。従来の3倍以上の規模を持つQwen 3-30Bをも上回り、オンデバイスAIの新たな到達点を示した。
4つのモデルバリアント
モデル | パラメータ | レイヤー数 | ネイティブコンテキスト | VRAM(BF16) |
|---|---|---|---|---|
Qwen3.5-0.8B | 0.8B | 24 | 262Kトークン | 約1.6GB |
Qwen3.5-2B | 2B | 24 | 262Kトークン | 約4GB |
Qwen3.5-4B | 4B | 32 | 262Kトークン | 約8GB |
Qwen3.5-9B | 9B | 32 | 262K(拡張1M) | 約18GB |
Gated DeltaNetハイブリッドアテンション
Qwen 3.5 Smallの技術的核心は、「Gated DeltaNet」と呼ばれるハイブリッドアテンション機構にある。線形アテンション層とフルソフトマックスアテンション層を3:1の比率で組み合わせ、メモリ効率と推論精度を両立させている。線形アテンション層が一定のメモリ複雑度で長文処理を担い、フルアテンション層が高精度な推論を補完する構成だ。
ベンチマーク結果
最大の9Bモデルは、MMLU-Proで82.5、GPQA Diamondで81.7を記録。いずれもQwen 3-80B(77.2)やGPT-OSS-120B(13.5倍の規模)を上回る。ビジョン面でもMMU-Proで70.1を達成し、GPT-5-Nanoの57.2を大きく引き離した。パラメータ効率という観点で、小型モデルの常識を塗り替える結果と言える。
マルチモーダル対応とネイティブ統合
Qwen 3.5 Smallのもう一つの特徴は、アダプタ方式ではなくアーキテクチャレベルでのマルチモーダル統合だ。DeepStack Vision TransformerとConv3dパッチ埋め込みにより、テキスト・画像・動画のトークンを同じ潜在空間で初期段階から処理する。248Kトークンの語彙で201言語をサポートし、多言語対応も充実している。
オンデバイスAIへの展望
0.8Bモデルは4ビット量子化で約0.5GBのVRAMで動作し、スマートフォンやIoTデバイスでの稼働が現実的だ。Apache 2.0ライセンスのもとHugging FaceとModelScopeで公開されており、vLLM、SGLang、llama.cpp、MLXなど主要な推論フレームワークに対応する。クラウドに頼らないエッジAIの実現に向け、小型モデルの性能向上がどこまで進むか、今後の開発動向が注目される。
参考ソース:MarkTechPost


