Alibaba Qwen 3.5 Small（0.8B〜9B）リリース──9Bモデルが30Bクラスを上回り、オンデバイスAI新時代へ

2026.03.24

AlibabaのQwenチームが、0.8B・2B・4B・9Bの4つのデンスモデルからなる「Qwen 3.5 Small」シリーズをリリースした。独自のGated DeltaNetアーキテクチャを採用し、9BモデルがMMLU-Proで82.5を記録。従来の3倍以上の規模を持つQwen 3-30Bをも上回り、オンデバイスAIの新たな到達点を示した。

4つのモデルバリアント

モデル	パラメータ	レイヤー数	ネイティブコンテキスト	VRAM（BF16）
Qwen3.5-0.8B	0.8B	24	262Kトークン	約1.6GB
Qwen3.5-2B	2B	24	262Kトークン	約4GB
Qwen3.5-4B	4B	32	262Kトークン	約8GB
Qwen3.5-9B	9B	32	262K（拡張1M）	約18GB

Gated DeltaNetハイブリッドアテンション

Qwen 3.5 Smallの技術的核心は、「Gated DeltaNet」と呼ばれるハイブリッドアテンション機構にある。線形アテンション層とフルソフトマックスアテンション層を3:1の比率で組み合わせ、メモリ効率と推論精度を両立させている。線形アテンション層が一定のメモリ複雑度で長文処理を担い、フルアテンション層が高精度な推論を補完する構成だ。

ベンチマーク結果

最大の9Bモデルは、MMLU-Proで82.5、GPQA Diamondで81.7を記録。いずれもQwen 3-80B（77.2）やGPT-OSS-120B（13.5倍の規模）を上回る。ビジョン面でもMMU-Proで70.1を達成し、GPT-5-Nanoの57.2を大きく引き離した。パラメータ効率という観点で、小型モデルの常識を塗り替える結果と言える。

マルチモーダル対応とネイティブ統合

Qwen 3.5 Smallのもう一つの特徴は、アダプタ方式ではなくアーキテクチャレベルでのマルチモーダル統合だ。DeepStack Vision TransformerとConv3dパッチ埋め込みにより、テキスト・画像・動画のトークンを同じ潜在空間で初期段階から処理する。248Kトークンの語彙で201言語をサポートし、多言語対応も充実している。

オンデバイスAIへの展望

0.8Bモデルは4ビット量子化で約0.5GBのVRAMで動作し、スマートフォンやIoTデバイスでの稼働が現実的だ。Apache 2.0ライセンスのもとHugging FaceとModelScopeで公開されており、vLLM、SGLang、llama.cpp、MLXなど主要な推論フレームワークに対応する。クラウドに頼らないエッジAIの実現に向け、小型モデルの性能向上がどこまで進むか、今後の開発動向が注目される。

参考ソース：MarkTechPost

エンジニアリング

Alibaba、小型モデル、オープンソース、