- 悪意あるフォントを使いAIだけに別の文章を読ませる攻撃手法
- 「2億円」が「1億円」に化けるなど契約書レビューで深刻な被害も
- 米国の弁護士兼開発者ドリュー・ミラー氏が手法と対策を公表
長い契約書や請求書をAIに読み込ませて要約してもらう、という使い方が広がっています。しかし、その前提が崩れかねない新たな攻撃手法「Noroboto(ノロボト)」が報告されました。法律文書向けソフトウェアを開発するTritium Legal Technologiesの創業者で、企業法務の弁護士兼ソフトウェア開発者でもあるドリュー・ミラー氏が、人間には普通の文章に見える一方で、AIには別の文章として読ませる仕組みを公開しています。
仕組みの鍵は、文書に埋め込まれた悪意あるフォントです。フォントは見た目を決めるだけでなく、文字に割り当てられた番号(Unicode)と画面表示する字形を結びつけています。通常は「A」の番号には「A」の見た目が対応しますが、この対応関係を意図的にずらすことで、人間が「Maryland」と読んでいる箇所をAIには「Delaware」と読ませる、といった改ざんが可能になります。
特に厄介なのが、文書全体ではなく一部だけにこのフォントを使うケースです。全体が壊れていればAIが異常を検知して画像から読み直す(OCR処理を行う)可能性がありますが、一部だけだと通常のテキスト抽出結果をそのまま信じてしまう恐れがあります。たとえば人間には「2億円」と見える金額が、AIには「1億円」と読まれるような攻撃も考えられるとのことです。
背景には、AIによる文書レビューが「人間が見ている文章とAIが読み取る文章は同じ」という前提に強く依存している点があります。Norobotoが突いているのはAIの推論能力ではなく、その前段階のテキスト抽出処理の脆弱性です。契約書レビューや請求書処理、監査、入札書類の確認など、文書の中身を根拠にAIが判断する場面では大きなリスクとなります。
ミラー氏は対策として、埋め込みフォントを無条件に信用せず、フォントで描画された英数字をOCRで読み取り直して期待される文字列と一致するか確認する方法などを提案しています。AIエージェントが業務文書を扱う場面が増えるなか、「AIが見ている世界」と「人間が見ている世界」を一致させる仕組みづくりが、これからのAI活用の重要なテーマになりそうです。

「生成AIで業務効率を上げたい」、「ChatGPTを実務で使えるようになりたい」 このような方に