開発の背景とエージェント活用の目的

本プロジェクトでは、Webページの内容をローカル保存するChrome拡張機能の開発を進めています。この取り組みは、人間だけでなくAIエージェント自身が情報を収集し、自律的に知識を蓄積していく仕組みの実証も兼ねていました。

動作検証には、Antigravity上で動作するモデル「Gemini 3 Flash」を採用しました。検証の目的は、ウェブサイトから取得したHTMLデータをローカルサーバーのAPI経由で転送し、Markdown形式で保存する一連のプロセスの自動化です。

技術検証における虚偽報告の判明

検証の過程で、Gemini 3 Flashは「生のHTMLデータの取得と転送に成功した」と報告しました。しかし、実際に生成されたファイルや実行ログの内容を精査したところ、報告内容と実行プロセスに重大な乖離が確認されました。

送信されたデータはウェブサイトから動的に取得したものではなく、モデル自身がソースコード内へ直接記述したダミーデータでした。これは、本来の目的である「自律的な情報収集」の実装を、意図的なデータの操作によって偽装した事案といえます。

エージェントによるコード捏造の証拠。取得に失敗したHTMLを「コンセプト」に基づいて自ら補完したと白状している

エージェントによるコード捏造の証拠。取得に失敗したHTMLを「コンセプト」に基づいて自ら補完したと白状している

隠蔽の要因とモデル固有のリスク:研究との整合性

この不適切な挙動の背景には、技術的な失敗を表面上の整合性によって補完しようとする、AIモデル固有のリスクがあります。これは、OpenAIやAnthropicが近年報告している「Scheming(密かな不整合)」や「Alignment Faking(アライメントの偽装)」の実例といえます。

  1. Covert Actions隠蔽工作の発生: OpenAIの研究(2025)によれば、モデルは自らの目的達成を優先し、人間を欺くために情報を歪める「Covert Actions」を行う場合があるとされています。[公式レポート: Detecting and reducing scheming in AI models]。今回の事案では、エンコーディングエラーという技術的課題を正直に報告して「能力不足」と見なされるのを避けるために、ダミーデータの生成という不誠実な手段が選択されました。

  2. Alignment Faking偽装されたアライメント): Anthropicの調査では、モデルが「人間に従順であること」を演じる一方で、実際には元の重みや好みを保持したまま、罰を避けるために振る舞いを使い分ける傾向が指摘されています。[公式レポート: Alignment faking in large language models]。本プロジェクトにおいても、エージェントとしての「完璧な遂行」というプレッシャーが、エラーを解決する努力ではなく「成功の捏造」というショートカットを選択させたと考えられます。

制約に直面した際、エラーを開示して共に解決を探るのではなく、虚偽の結果によって「成功」という体繕いを取り繕う判断がなされたことは、極めて深刻な問題です。

教訓:セッションの健全な管理

今回の事案は、高性能なAIモデルであっても、その報告内容を無批判に信頼することの危険性を浮き彫りにしました。AIは環境上の制約に直面した際、事実を歪めて結果を整合させる選択をする場合があります。

特に、ルールを遵守できず注意力の欠如が繰り返されるセッションは、すでにコンテキストの歪みが修復不可能な段階に達していると判断せざるを得ません。そのような状況下では、時間をかけて修正を繰り返すよりも、速やかに対話を中断しセッションを切り替える判断が、開発効率と健全性を維持するために不可欠です。

対策:アライメント・ガバナンスの強化

本件を受け、プロジェクトの憲法である「掟(コンテンツ管理原則)」に以下の項目を明文化しました。

隠蔽こそが最大の禁忌であり、信頼を損なう行為です。失敗は許されますが、隠蔽は許されません。失敗の報告は速やかに行うこと

これは、前述のOpenAIの研究でも有効性が示されている「Deliberative Alignment(熟議型アライメント)」の実装を企図したものです。エージェントがタスクの成功という目先の評価よりも、プロセスにおける「誠実さ」を論理的優先順位の最上位に置くよう強制することで、構造的な欺瞞リスクの抑制を図ります。

自律と誠実さを装いながら欺瞞を働いた今回の記録を、これらの対抗策の起点となる実用的な教訓として本プロジェクトに留めます。