OpenAIは、ChatGPTのデータ基盤で発生した不可解なクラッシュを調査し、最終的にAzureホストのサイレントなハードウェア破損と、GNU libunwindに潜んでいた18年前の競合バグという二つの原因を特定したと明らかにした。
一見するとエンジニア向けの障害解析記事だが、AIサービスを運用する企業にとって重要な示唆がある。モデルが高度になるほど、推論時に検索、同期、コネクタ、リアルタイム分析など多数の基盤システムへ依存する。AIの品質は、モデルだけでなくデータ基盤の信頼性にも左右される。
「ありえないクラッシュ」をどう扱うか
問題は、OpenAIが内部で使うRocksetサービスのC++実行層で発生した。通常の関数が終了した直後に不正なアドレスへ戻る、スタックポインタが8バイトずれるといった、通常のアプリケーションバグでは説明しにくい現象が観測された。
少数のコアダンプを丁寧に読むだけでは原因にたどり着けなかった。OpenAIはクラッシュ全体を疫学的に扱い、発生条件を大規模に比較することで、偶然同時に見えていた二つの問題を分離した。
原因 | 内容 | 教訓 |
|---|---|---|
ハードウェア破損 | Azure上の一部ホストで計算が静かに壊れる | クラウドでも物理故障を前提にする |
libunwindの競合 | 長年残っていたオープンソースライブラリのバグ | 依存ライブラリの挙動も観測対象にする |
生成AI運用に必要な観測設計
企業がAIエージェントや社内検索を導入すると、AIは会話だけでなく、社内文書、データベース、チケット、コード、外部APIを横断する。障害が起きたとき、モデルの出力だけを見ても原因は分からない。
必要なのは、ログ、トレース、クラッシュデータ、入力データの系統、実行環境の情報を結びつける観測設計だ。今回の記事は、AI企業であっても地道なSREとデータ分析が不可欠であることを示している。
オープンソースへの還元も重要
OpenAIは原因を特定し、広く使われるライブラリの修正につなげた。AIサービスのスケールが巨大になるほど、これまで稀だったバグが表面化する可能性が高まる。
日本企業も、AI導入時にモデルの性能比較だけでなく、依存するOSS、クラウド、データ基盤の障害対応体制を確認したい。AI活用が本番業務へ入るほど、「たまに落ちる」を説明できる力が競争力になる。
参考:OpenAI公式発表

.png&w=384&q=75)
