Alibaba Qwen 3.5 Small(0.8B〜9B)リリース──9Bモデルが30Bクラスを上回り、オンデバイスAI新時代へ

Alibaba Qwen 3.5 Small(0.8B〜9B)リリース──9Bモデルが30Bクラスを上回り、オンデバイスAI新時代へ

AlibabaのQwenチームが、0.8B・2B・4B・9Bの4つのデンスモデルからなる「Qwen 3.5 Small」シリーズをリリースした。独自のGated DeltaNetアーキテクチャを採用し、9BモデルがMMLU-Proで82.5を記録。従来の3倍以上の規模を持つQwen 3-30Bをも上回り、オンデバイスAIの新たな到達点を示した。

4つのモデルバリアント

モデル

パラメータ

レイヤー数

ネイティブコンテキスト

VRAM(BF16)

Qwen3.5-0.8B

0.8B

24

262Kトークン

約1.6GB

Qwen3.5-2B

2B

24

262Kトークン

約4GB

Qwen3.5-4B

4B

32

262Kトークン

約8GB

Qwen3.5-9B

9B

32

262K(拡張1M)

約18GB

Gated DeltaNetハイブリッドアテンション

Qwen 3.5 Smallの技術的核心は、「Gated DeltaNet」と呼ばれるハイブリッドアテンション機構にある。線形アテンション層とフルソフトマックスアテンション層を3:1の比率で組み合わせ、メモリ効率と推論精度を両立させている。線形アテンション層が一定のメモリ複雑度で長文処理を担い、フルアテンション層が高精度な推論を補完する構成だ。

ベンチマーク結果

最大の9Bモデルは、MMLU-Proで82.5、GPQA Diamondで81.7を記録。いずれもQwen 3-80B(77.2)やGPT-OSS-120B(13.5倍の規模)を上回る。ビジョン面でもMMU-Proで70.1を達成し、GPT-5-Nanoの57.2を大きく引き離した。パラメータ効率という観点で、小型モデルの常識を塗り替える結果と言える。

マルチモーダル対応とネイティブ統合

Qwen 3.5 Smallのもう一つの特徴は、アダプタ方式ではなくアーキテクチャレベルでのマルチモーダル統合だ。DeepStack Vision TransformerとConv3dパッチ埋め込みにより、テキスト・画像・動画のトークンを同じ潜在空間で初期段階から処理する。248Kトークンの語彙で201言語をサポートし、多言語対応も充実している。

オンデバイスAIへの展望

0.8Bモデルは4ビット量子化で約0.5GBのVRAMで動作し、スマートフォンやIoTデバイスでの稼働が現実的だ。Apache 2.0ライセンスのもとHugging FaceとModelScopeで公開されており、vLLM、SGLang、llama.cpp、MLXなど主要な推論フレームワークに対応する。クラウドに頼らないエッジAIの実現に向け、小型モデルの性能向上がどこまで進むか、今後の開発動向が注目される。

参考ソース:MarkTechPost

この記事に携わった人
Mynto編集部
Mynto.aiの編集部です。
関連記事
お問い合わせ各種

課題解決のためのお役立ち資料ダウンロードや、
サービスのお問い合わせが可能です。
お気軽にご相談ください。