Microsoftが警告、AIに長時間作業を任せると文書の25%が消える――最上位モデルも例外なし

※本記事はアフィリエイトリンクを利用しています。

AI・生成AIスキルを身につけるならスタートAI

「生成AIで業務効率を上げたい」、「ChatGPTを実務で使えるようになりたい」
このような方にスタートAI（Start AI）無料セミナーがオススメです。
スタートAIのオンライン無料セミナーでは、生成AIを仕事で使いこなすための思考法・プロンプト設計・実務活用例までわかりやすく学べます。
無料参加者限定で12大特典PDF（プロンプト集・ワークブックなど）がもらえるのも魅力です。

特徴

生成AI（ChatGPT・プロンプト・実務活用）を基礎〜業務レベルでカバー
オンライン（Zoom等）で、顔出し不要・スマホ参加OK
無料セミナーでも実用的なプロンプト集・テンプレがもらえる

無料セミナー・説明会はこちら

スタートAI 無料セミナー申し込み

このニュースの要約

52分野でAIをテスト、20回の操作で内容の25%が消失
GeminiやClaude・GPTなど最上位モデルも例外なし
Pythonコーディング以外は「実用水準に未達」と結論

Microsoftの研究者3名が、AIエージェントに長時間の文書編集作業を任せると深刻なエラーが蓄積するという研究結果を発表しました。「委任するとLLMはあなたの文書を壊す」と題した論文の中で、独自のベンチマーク「DELEGATE-52」を使い、19種類のAIモデルを52の専門分野にわたって検証しています。

研究の結果、最先端モデルであるGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でも、20回の作業繰り返しでドキュメント内容の平均25%が失われることがわかりました。全モデルの平均劣化率は50%にのぼります。さらに、AIにファイルの読み書きやコード実行ツールを与える「エージェント化」を行うと、パフォーマンスはむしろ平均6ポイント悪化しており、ツールを追加することが必ずしも解決策にならないことも明らかになりました。

この問題の特徴は「失敗が目立たない」点にあります。エラーは一度に大量発生するのではなく、ごく少数ながら深刻なミスが静かに積み重なり、気づかないうちに文書の整合性が崩れていきます。Pythonコーディングの分野では比較的良好な結果が出ましたが、それ以外の約80%のモデル・分野の組み合わせでは正確さが80%を下回る「壊滅的な劣化」に陥っています。

研究者たちは「AIが作業を進める間、ユーザーは引き続き注意深く監視する必要がある」と結論づけています。一方で、モデルの能力は着実に進歩しており、OpenAIのGPTシリーズはこのベンチマークで過去16カ月間に14.7%から71.5%へと大幅改善されました。AIへの業務委任が広がるなかで、長時間タスクの信頼性をどう高めるかが今後の大きな課題となっています。

TBSがAI教育ツール「AI for School」を初公開、ニュース映像を授業の素材に変換前の記事

※本記事はアフィリエイトリンクを利用しています。

AI・生成AIスキルを身につけるならスタートAI

特徴

生成AI（ChatGPT・プロンプト・実務活用）を基礎〜業務レベルでカバー
オンライン（Zoom等）で、顔出し不要・スマホ参加OK
無料セミナーでも実用的なプロンプト集・テンプレがもらえる

無料セミナー・説明会はこちら

スタートAI 無料セミナー申し込み

ニュース

2026.05.16

TBSがAI教育ツール「AI for School」を初公開、ニュース映像を授業の素材に変換

2026.05.15

ChatGPTが「危機検知」機能を強化——会話の流れからリスクを読み取る新システムを導入

2026.05.14

AI日記アプリ「３択日記」、幸福学の第一人者・前野隆司教授ら2氏が推薦

2026.05.13

3メガバンク、AnthropicのAI「Claude Mythos」を導入へ日米連携で金融サイバー防衛

2026.05.12

ニュース

TBSがAI教育ツール「AI for School」を初公開、ニュース映像を授業の素材に変換

ChatGPTが「危機検知」機能を強化——会話の流れからリスクを読み取る新システムを導入

AI日記アプリ「３択日記」、幸福学の第一人者・前野隆司教授ら2氏が推薦

3メガバンク、AnthropicのAI「Claude Mythos」を導入へ 日米連携で金融サイバー防衛

ソフトバンク、2030年度までに「AIエージェント中心の生活」実現へ 中期経営計画を発表

3メガバンク、AnthropicのAI「Claude Mythos」を導入へ日米連携で金融サイバー防衛

ソフトバンク、2030年度までに「AIエージェント中心の生活」実現へ中期経営計画を発表