Microsoft「Copilot Cowork」提供開始──GPTが生成しClaudeがレビューする「Critique」で精度13.8%向上

Microsoft、Copilot、Claude、OpenAI、マルチモーダル、

2026.03.31

Microsoft「Copilot Cowork」提供開始──GPTが生成しClaudeがレビューする「Critique」で精度13.8%向上

Microsoftは2026年3月30日、Microsoft 365の新機能「Copilot Cowork」をFrontierプログラムで提供開始した。あわせて、深掘り調査エージェント「Researcher」にマルチモデルAI連携機能「Critique」「Council」を導入し、AIリサーチの精度を大幅に向上させている。

Copilot Cowork：長時間マルチステップ作業を委任

Copilot Coworkは、Anthropicの「Claude Cowork」技術基盤をMicrosoft 365に統合した新機能だ。ユーザーが望む成果を記述すると、Coworkが計画を作成し、ツールやファイルを横断しながら作業を遂行する。カレンダー管理や日次ブリーフィングなどのスキルが組み込まれており、月次予算レビューのような繰り返し作業にも対応する。

「Coworkの新機能は、コンテンツや回答を生成することではなく、ステップをつなぎ、タスクを調整し、日常のワークフロー全体をフォローすることです」── Barton Warner氏（Capital Group SVP of Enterprise Technology）

Critique：GPTが生成、Claudeがレビュー

Researcherの新機能「Critique」は、生成と評価を分離するマルチモデルアーキテクチャを採用。OpenAIのGPTがタスク計画・情報検索・初稿生成を担当し、AnthropicのClaudeがレビュアーとして品質チェックを行う。

Claudeによるレビューは以下の3つの観点で実施される：

ソース信頼性評価：権威性のある適切なソースの使用を重視
レポート完全性：リクエストの意図を網羅的に満たしているか評価
エビデンスグラウンディング：主要な主張が信頼できるソースに正確に紐づいているか検証

業界標準ベンチマーク「DRACO」（Deep Research Accuracy, Completeness, and Objectivity）では、従来のシングルモデル方式と比較して総合スコアが+7.0ポイント向上。Perplexity Deep Research（Claude Opus 4.6モデル）と比較して13.88%の改善を達成した。

評価軸	改善幅
分析の広さ・深さ	+3.33
プレゼンテーション品質	+3.04
事実精度	+2.58
引用品質	向上（既存ソースの活用改善）

Council：複数モデルの並列比較

もう一つの新機能「Council」は、AnthropicとOpenAIのモデルを同時に独立実行し、それぞれのレポートを出力するアプローチだ。専用の判定モデルが両レポートを評価し、見解が一致する部分・分岐する部分・各モデル固有の洞察をまとめて提示する。Critiqueが「2モデル協業で1つの高品質な回答」を目指すのに対し、Councilは「複数視点の比較」による多角的な理解を提供する。

注目ポイント

CritiqueとCouncilは現在Frontierプログラム参加者向けに提供されている。異なるAI企業のモデルを組み合わせるマルチモデル戦略は、単一モデルの限界を超える新たなアプローチとして注目される。ただし、Frontierプログラムへの参加が前提であり、一般提供の時期は未定だ。

参考：Microsoft公式ブログ / Tech Community / ITmedia AI+

エンジニアリング

Microsoft、Copilot、Claude、OpenAI、マルチモーダル、