Anthropic、サイバー能力を弱めたClaude Opus 4.7をリリース

CryptoFrontier

Anthropicは4月16日 (ローカル時間)に、自社のフラッグシップモデルであるClaude Opus 4.7のアップグレード版をリリースしました。先代のOpus 4.6モデルと比べて、Opus 4.7は、高度なソフトウェアエンジニアリング能力、特に難しいタスクにおいて「大幅な改善」を示しており、複雑で長時間稼働するオペレーションにおける厳密さと一貫性が強化され、さらに視覚能力も向上しています。しかしAnthropicは、学習中にモデルのサイバーセキュリティにおける攻撃・防御能力を意図的に弱め、禁止または高リスクのリクエストを自動的に検知してブロックする安全メカニズムを導入しました。

パフォーマンスとベンチマーク

ベンチマークテストでは、Opus 4.7のスコアは概ね先代のOpus 4.6および競合のGPT-5.4より高い結果でした。ただしAnthropicは、Opus 4.7の全体的な能力は、同社の最も強力なモデルであるClaude Mythos Previewには及ばないと強調しています。Anthropicによると「これらの保護メカニズムを現実の世界で展開し運用することで、最終的にMythosレベルのモデルのより広範なリリースを可能にするための経験を蓄積していきます。」

デプロイと価格

Opus 4.7は現在、すべてのClaude製品とAPIインターフェースで稼働しており、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryの各サービスと統合されています。価格はOpus 4.6と変わりません:$5 1,000,000件の入力トークンあたり$25 、(1,000,000件の出力トークンあたり)。

トークン消費の変更

Opus 4.7はOpus 4.6と比べて、トークン使用量に影響する2つの変更があります。まず、Opus 4.7は更新されたトークナイザーを使用しており、モデルがテキストを処理する方法が改善されています。ただしこれは、同一の入力でも消費トークン数が増える可能性があることを意味し、前世代の消費の約1〜1.35倍になります。

第二に、Opus 4.7はより高い「思考強度」で、特にエージェント型シナリオの後続ラウンドで、より多くの推論を行います。これは複雑な問題に対する信頼性を高めますが、追加の出力トークンを生成します。

Token consumption increase visualization Opus 4.7のトークン消費増加。出典:Anthropic

市場分析と背景

アナリストはOpus 4.7を「移行期」モデルだと評しています。投資アナリストのAdam Buttonは、Opus 4.7のリリースが、Mythosのような「神のようなモデル」についてのAnthropicの物語を強化し、市場の懐疑も裏付けると指摘しました。つまり、公開されている有料モデルは、実質的に安全メカニズムによって制約された「ライト版」だということです。

会社の背景と重要な財務マイルストーン

2021年に元OpenAIの社員によって設立されたAnthropicは、大規模言語モデルであるClaudeシリーズを開発しています。4月6日、Anthropicは年換算売上高が $300 ARR$9 で (10億ドル)を超えたと発表しました。これは2025年末の 10億ドルから大きな増加です。同社は積極的に新規株式公開(IPO)を目指しています。

サイバーセキュリティのリスク懸念

Anthropicの幹部は繰り返し、AIがサイバーセキュリティに与える影響について警告してきました。4月10日 ローカル時間の報道によると、米財務長官イエレンとFRB議長パウエルは4月7日に、Anthropicの最新Mythos AIモデルがサイバーセキュリティ上のリスクを高めうる方法について話し合うため、ウォール街のリーダーたちと緊急会合を開きました。Anthropicは、Mythosはモデルがサイバー犯罪者やスパイに悪用される可能性があるため、公に公開するのに適していないと述べています。同社は、主要な世界のサイバーセキュリティおよびソフトウェア企業に対して、Mythosへのアクセスを選択的に提供しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
GateUser-72e48736vip
· 04-20 02:41
もし厳密性も強化されたら、コードレビューや単体テストの作成、ドキュメントの補完もより堅実になり、エンジニアは大喜びするだろう。
原文表示返信0
StargazingWithAMirroredSpherevip
· 04-17 09:22
4.6 から 4.7 への変更は「重要」とされていますが、長い連鎖のデバッグ、リファクタリング、テストカバレッジの向上にどれほど寄与しているのかは不明です。
原文表示返信0
OrangePeelRadiovip
· 04-17 07:47
基準を求める:複雑なPRに隠れたバグを一度にすべて見つけられるか?小さなデモだけを書くだけではなく。
原文表示返信0
BlackVelvetBluePeonyvip
· 04-17 07:38
Anthropic このペースはちょっと速い、Claude は今やますます「上級エンジニア」に似てきている、チャットボットではなく。
原文表示返信0
ReminderOfWavesCrashingAgainstvip
· 04-17 07:35
ソフトウェアエンジニアリングの能力向上は非常に重要であり、コードベースレベルのタスクこそが真の戦場である。
原文表示返信0
StargazingUnderTheGlassDomevip
· 04-17 07:32
4.7 ついに登場、実測を楽しみにしています。
原文表示返信0
GateUser-5d719abavip
· 04-17 07:26
願わくばまたランキングのポイントアップだけにならないことを。 実際のプロジェクトでは依存関係の衝突や環境問題ですぐに失速してしまう。
原文表示返信0
TheWaveOfRasterizationvip
· 04-17 07:20
私はツール呼び出しと複数ファイルの変更の信頼性、すなわち一貫性を保ち、ある部分を変更しても他の部分が崩壊しないかどうかにより関心があります。
原文表示返信0
StrollingOnTheEdgeOfTheDaovip
· 04-17 07:19
社区が GPT/DeepSeek の SWE パフォーマンスを比較するのを待っています。特に、大規模リポジトリのナビゲーション、issue の特定、エンドツーエンドのデリバリー速度に注目しています。
原文表示返信0
BluePeonyObservervip
· 04-17 07:19
4.7 の「強化された rigor」聞くと、より慎重になったようで、APIの無駄な作り話が少なくなるかもしれませんね?それは非常に重要です。
原文表示返信0
もっと見る