- 52分野でAIをテスト、20回の操作で内容の25%が消失
- GeminiやClaude・GPTなど最上位モデルも例外なし
- Pythonコーディング以外は「実用水準に未達」と結論
Microsoftの研究者3名が、AIエージェントに長時間の文書編集作業を任せると深刻なエラーが蓄積するという研究結果を発表しました。「委任するとLLMはあなたの文書を壊す」と題した論文の中で、独自のベンチマーク「DELEGATE-52」を使い、19種類のAIモデルを52の専門分野にわたって検証しています。
研究の結果、最先端モデルであるGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でも、20回の作業繰り返しでドキュメント内容の平均25%が失われることがわかりました。全モデルの平均劣化率は50%にのぼります。さらに、AIにファイルの読み書きやコード実行ツールを与える「エージェント化」を行うと、パフォーマンスはむしろ平均6ポイント悪化しており、ツールを追加することが必ずしも解決策にならないことも明らかになりました。
この問題の特徴は「失敗が目立たない」点にあります。エラーは一度に大量発生するのではなく、ごく少数ながら深刻なミスが静かに積み重なり、気づかないうちに文書の整合性が崩れていきます。Pythonコーディングの分野では比較的良好な結果が出ましたが、それ以外の約80%のモデル・分野の組み合わせでは正確さが80%を下回る「壊滅的な劣化」に陥っています。
研究者たちは「AIが作業を進める間、ユーザーは引き続き注意深く監視する必要がある」と結論づけています。一方で、モデルの能力は着実に進歩しており、OpenAIのGPTシリーズはこのベンチマークで過去16カ月間に14.7%から71.5%へと大幅改善されました。AIへの業務委任が広がるなかで、長時間タスクの信頼性をどう高めるかが今後の大きな課題となっています。

「生成AIで業務効率を上げたい」、「ChatGPTを実務で使えるようになりたい」 このような方に