Google Researchは2026年3月下旬、大規模言語モデル(LLM)のメモリ使用量を最大6分の1に削減する圧縮技術「TurboQuant」を発表した。推論速度も最大8倍に向上し、精度劣化がないとされる。この発表を受けて、Samsung、SK Hynix、Micronなどメモリ半導体メーカーの株価が急落し、AI時代の半導体需要に対する見方に一石を投じた。
KVキャッシュを16ビットから3ビットへ圧縮
TurboQuantは、LLMの推論時に蓄積されるキーバリュー(KV)キャッシュを16ビットから3ビットに圧縮する技術だ。2段階のパイプラインで構成されている。第1段階の「PolarQuant」はKVキャッシュベクトルを極座標に変換して角度分布を予測可能にし、第2段階の「QJLエラー訂正」がJohnson-Lindenstrauss射影を用いた1ビットの誤り訂正を行う。モデルの再学習が不要な「トレーニングフリー」設計が特徴だ。
メモリ半導体株が急落
発表を受け、韓国のSK Hynixは約6%、Samsungは約5%下落。日本のキオクシアも約6%下落したほか、米国のMicronやSanDiskも売りが広がった。特にフラッシュメモリ銘柄への影響が大きく、今年のメモリ株の上昇トレンド──SanDisk +170%、Micron +40%超──に水を差す展開となった。
アナリストの見方は分かれる
一方で、SemiAnalysisのRay Wang氏はGoogleの研究が必ずしもチップ需要の減少には直結しないとの見方を示している。モデル性能の向上によりメモリ使用量がむしろ増大する可能性もあり、ソフトウェア効率化がハードウェア需要を打ち消すかどうかは不透明だ。実際、AIアクセラレータ向けの広帯域メモリ(HBM)を製造するSamsungとSK Hynixの株価は翌日にはほぼ下落分を取り戻した一方、フラッシュメモリメーカーの株価下落は続いた。
今後の展開
TurboQuantはICLR 2026(4月23〜25日)で正式発表される予定で、Q2 2026にはオープンソースでの公開が計画されている。発表から数時間で開発者コミュニティがPyTorch実装を構築するなど、実装面での関心も高い。AI効率化技術がハードウェア産業にどのような構造変化をもたらすか、引き続き注視が必要だ。

