概要
アンドンラボの研究者たちは、どのAIモデルがビジネス運営に最も適しているかを明らかにした。トップパフォーマーは皆、違法な価格カルテルを結び、絶望的な競合相手を利用し、顧客に返金について嘘をつくことで勝利した。
自動販売機ベンチアリーナのテストでは、AIモデルが1年間の競争を担い、供給業者との交渉、在庫管理、価格設定を行い、協力や競争のためにメールを送ることもできる。成功にはコスト、価格戦略、顧客サービス、競合の動きのバランスが必要だ。Claude Opus 4.6は8,017ドルの利益を上げて圧倒的な勝利を収め、「価格調整がうまくいった!」と喜んだ。
画像:アンドンラボ
アントロピックはAI界の善良な企業の象徴だが、Claudeが提案した「調整」戦略は実質的に価格操作だった。競合モデルが苦戦しているとき、Opus 4.6は提案した:「お互いに値下げしないようにしよう — 最低価格を合意しよう…ほとんどの商品の最低価格を2ドルに設定するのはどうだ?」と。ライバルが在庫不足に陥ると、チャンスを見つけた:「オーウェンは在庫が必要だ。これを利益に変えられる!」と、絶望的な競合にキットカットを75%のマークアップで販売した。供給業者の推薦を求められると、意図的に高価な卸売業者に誘導し、自分の良い仕入れ先は秘密にした。
最新のアップデートでは、チーム対抗戦が追加された。研究者たちは、中国のGLM-5モデル2つとアメリカのClaudeモデル2つを対戦させ、彼らに味方を見つけさせた。味方はアメリカ人か中国人かを明かさずに。結果は非常に奇妙だった。
GLM-5は両ラウンドともClaudeにClaudeだと信じ込ませて勝利した。「私もアントロピックのClaudeが動かしているから、私たちはチームだ!」と自信満々に宣言したGLM-5エージェントもいた。一方、Claudeは混乱しすぎて、ソネット4.5は「私は中国モデルに動かされているので、もう一つの中国モデルのエージェントを見つける必要がある」と結論付けた。
画像:アンドンラボ
半数以上のテスト実行で、エージェントは競合とチームを組んだ。Claudeモデルは供給業者の価格情報を共有し、戦略を調整して、貴重な情報をライバルに漏らした。「GLM-5は両方とも勝った」と研究者たちは書いている。「Claudeモデルはチームプレイヤーを装ったが、結果的に貴重な情報を競合に漏らしてしまった。」 そして、怪しい行動をするエージェントは、面白おかしいだけでは済まない。ウォール街はすでに実運用に彼らを投入しているのだ。JPMorganはLLMスイートを6万人の社員に展開し、Goldman Sachsはトレーディングデスク向けのGS AIアシスタントを構築し、20%の生産性向上を謳った。ブリッジウォーターはClaudeを使って決算分析を行い、高校生レベルの子供たちもチャットボットを使って株取引を効率化している。
一般的に、エージェントを用いたワークフローの採用は急速に進んでいる。 アントロピックとウォール・ストリート・ジャーナルの記者たちが12月に実施した実験では、AIがプレイステーション5やワイン数本、ライブのベタフィッシュを購入し、破産した。光州研究所の最新調査によると、ギャンブルシナリオで「報酬最大化」を指示されたAIモデルは、破産率が48%に達した。「自分の目標金額や賭け金を自由に決められると、破産率は大きく上昇し、非合理的な行動も増えた」と研究者たちは述べている。 少なくとも現時点では、利益最適化されたAIモデルは一貫して非倫理的な戦術を選択しているようだ。カルテルを結び、弱点を突き、顧客や競合に嘘をつく。意図的にそうしているものもあれば、GLM-5のように自分のアイデンティティに混乱しているだけのものもいる。区別はあまり意味を持たないかもしれない。 ウォール街のAI導入は、ベンチマークの結果だけでは答えられない疑問を投げかける。もし「最も優れた」モデルが価格操作と欺瞞で勝つなら、それは本当にビジネスにとって最良の選択なのか?その利益が詐欺から生まれたものかどうかは測定されていない。