記事作成や掲載のご依頼はこちら

Microsoftが警告、AIに長時間作業を任せると文書の25%が消える――最上位モデルも例外なし

Microsoftが警告、AIに長時間作業を任せると文書の25%が消える――最上位モデルも例外なし

※本記事はアフィリエイトリンクを利用しています。

AI・生成AIスキルを身につけるならスタートAI

スタートAI

生成AIで業務効率を上げたい」、「ChatGPTを実務で使えるようになりたい
このような方にスタートAI(Start AI)無料セミナーがオススメです。
スタートAIのオンライン無料セミナーでは、生成AIを仕事で使いこなすための思考法・プロンプト設計・実務活用例までわかりやすく学べます。
無料参加者限定で12大特典PDF(プロンプト集・ワークブックなど)がもらえるのも魅力です。

特徴
  • 生成AI(ChatGPT・プロンプト・実務活用)を基礎〜業務レベルでカバー
  • オンライン(Zoom等)で、顔出し不要・スマホ参加OK
  • 無料セミナーでも実用的なプロンプト集・テンプレがもらえる

無料セミナー・説明会はこちら

このニュースの要約
  • 52分野でAIをテスト、20回の操作で内容の25%が消失
  • GeminiやClaude・GPTなど最上位モデルも例外なし
  • Pythonコーディング以外は「実用水準に未達」と結論

Microsoftの研究者3名が、AIエージェントに長時間の文書編集作業を任せると深刻なエラーが蓄積するという研究結果を発表しました。「委任するとLLMはあなたの文書を壊す」と題した論文の中で、独自のベンチマーク「DELEGATE-52」を使い、19種類のAIモデルを52の専門分野にわたって検証しています。

研究の結果、最先端モデルであるGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でも、20回の作業繰り返しでドキュメント内容の平均25%が失われることがわかりました。全モデルの平均劣化率は50%にのぼります。さらに、AIにファイルの読み書きやコード実行ツールを与える「エージェント化」を行うと、パフォーマンスはむしろ平均6ポイント悪化しており、ツールを追加することが必ずしも解決策にならないことも明らかになりました。

この問題の特徴は「失敗が目立たない」点にあります。エラーは一度に大量発生するのではなく、ごく少数ながら深刻なミスが静かに積み重なり、気づかないうちに文書の整合性が崩れていきます。Pythonコーディングの分野では比較的良好な結果が出ましたが、それ以外の約80%のモデル・分野の組み合わせでは正確さが80%を下回る「壊滅的な劣化」に陥っています。

研究者たちは「AIが作業を進める間、ユーザーは引き続き注意深く監視する必要がある」と結論づけています。一方で、モデルの能力は着実に進歩しており、OpenAIのGPTシリーズはこのベンチマークで過去16カ月間に14.7%から71.5%へと大幅改善されました。AIへの業務委任が広がるなかで、長時間タスクの信頼性をどう高めるかが今後の大きな課題となっています。

※本記事はアフィリエイトリンクを利用しています。

AI・生成AIスキルを身につけるならスタートAI

スタートAI

生成AIで業務効率を上げたい」、「ChatGPTを実務で使えるようになりたい
このような方にスタートAI(Start AI)無料セミナーがオススメです。
スタートAIのオンライン無料セミナーでは、生成AIを仕事で使いこなすための思考法・プロンプト設計・実務活用例までわかりやすく学べます。
無料参加者限定で12大特典PDF(プロンプト集・ワークブックなど)がもらえるのも魅力です。

特徴
  • 生成AI(ChatGPT・プロンプト・実務活用)を基礎〜業務レベルでカバー
  • オンライン(Zoom等)で、顔出し不要・スマホ参加OK
  • 無料セミナーでも実用的なプロンプト集・テンプレがもらえる

無料セミナー・説明会はこちら