アンソロピック、Claude Codeの品質低下の背後にある3つのプロダクト層の変更を特定—モデルの問題ではない

ゲートニュース(4月23日)— アンソロピックのエンジニアリングチームは、過去1か月間にユーザーから報告されたClaude Codeの品質低下は、APIや基盤となるモデルの問題ではなく、3つの独立したプロダクト層の変更に起因することを確認した。3つの問題はそれぞれ4月7日、4月10日、そして4月20日に修正され、最終版は現在v2.1.116となっている。

最初の変更は3月4日に発生した。チームは、推論の強度が高いOpus 4.6で、ときおり極端なレイテンシのスパイクが発生するのを抑えるため、Claude Codeのデフォルトの推論エフォートレベルを「high」から「medium」に引き下げた。パフォーマンス低下に関する広範なユーザーの不満を受けて、チームは4月7日にこの変更を元に戻した。現在のデフォルトは、Opus 4.7は「xhigh」、その他のモデルは「high」となっている。

2つ目の問題は3月26日に導入されたバグだった。システムは、会話が1時間以上非アクティブになると古い推論レコードを消去して、セッション復旧コストを下げるよう設計されていた。しかし実装上の欠陥により、消去がその後のすべてのターンで繰り返し実行される一方で、1回だけ実行されるべきところが、そのためにモデルが以前の推論コンテキストを段階的に失っていく原因になった。これは、忘れっぽさの増加、繰り返し操作、異常なツール呼び出しとして現れた。このバグはまた、すべてのリクエストでキャッシュミスを発生させ、ユーザーの利用クォータ消費を加速させた。再現条件を覆い隠す、互いに関係のない2つの社内実験が行われたため、デバッグが1週間以上に及んだ。4月10日に修正した後、チームはOpus 4.7を使って問題のあるコードをレビューし、Opus 4.7ならバグを特定できる一方でOpus 4.6ではできないことを確認した。

3つ目の変更は、Opus 4.7とともに4月16日にリリースされた。チームは冗長な出力を減らすために、システムプロンプトに指示を追加した。数週間にわたる社内テストでは回帰は見られなかったが、リリース後に他のプロンプトとのやり取りを行うと、コーディング品質が低下した。拡張評価では、Opus 4.6と4.7の両方でパフォーマンスが3%低下していることが判明し、4月20日にロールバックが行われた。

これら3つの変更は、異なる時期に異なるユーザーグループに影響し、その組み合わせによって広範で一貫性のない品質低下が生まれ、診断を難しくした。アンソロピックは今後、ユーザーと同じ公開ビルドバージョンを使うために、より多くの社内従業員を必要とし、すべてのシステムプロンプト変更について完全なモデル評価スイートを実行し、段階的ロールアウトの期間を設けると述べた。補償として、アンソロピックはすべてのサブスクリプションユーザーの利用クォータをリセットした。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

アンソロピック、$1 兆ドルの評価額に到達――セカンダリ市場でオープンAIを上回る

Gate Newsメッセージ、4月28日――アンソロピックはプライベート市場における企業価値でオープンAIを上回り、最近のセカンダリ取引では含みベースの価値が$1 兆ドルを超えた。これに対しオープンAIの評価額は、同様の市場で-9223372036854775808億ドル前後に落ち着いている。この変化は、AIセクターにおける大きな勢いの転換を示しており、そこではオープンAIが長く首位の座を維持していた。アンソロピックの急騰は、3か月前に-9223372036854775808億ドルの資金調達ラウンドを行ったばかりにもかかわらず、Forge GlobalやJupiterといったプラットフォームでの限られた株式に対する投資家の強い需要を反映している。

GateNews1時間前

NVIDIAがNemotron 3 Nano Omniのオープンソース多モーダルを発表

NVIDIAがNemotron 3 Nano Omniのオープンソースのマルチモーダルモデルを発表。視覚、音声、言語を単一のモデルに統合し、AIエージェントの知覚層として位置付ける。コアは30B-A3B MoE、256K context、9xスループット。文字、画像、音声、動画などの入力をサポートし、出力は文字。Nemotron 3 Super/Ultraと連携し、コンピュータ操作、ドキュメント知能、音声・映像理解などのシーンに適用し、重みと学習データを公開。ローカル、NIM、サードパーティプラットフォームを含む展開に対応。

ChainNewsAbmedia1時間前

Claude Code にモバイル通知を追加:長時間のタスクが完了したとき、または審査が必要なときに自動でリマインド

Claude Code は現在、モバイルのプッシュ通知を通じて、長時間のタスクが完了したとき、またはユーザーの介入が必要なときにリマインドできるようになっています。有効化の条件は、Remote Control の起動と、config 内の「Push when Claude decides」です。基盤となるプッシュツールは 4 月 15 日 v2.1.110 から追加されており、本告知は外部マーケティングのレベルに位置づけられます。

ChainNewsAbmedia2時間前

Claude は Adobe、Blender などの 8 つの主要クリエイティブソフトウェア連携コネクタを統合

Anthropic公式ブログ4月28日の発表によると、ClaudeはClaude for Creative Workプログラムを立ち上げ、8つのクリエイティブ・ソフトウェアの協業パートナーとともにコネクター(connectors)を提供します。目標は、Claudeがクリエイティブの専門家が既に使っているツール上で直接協働できるようにすることです。同時にAnthropic Labsは新製品Claude Designを発表し、AnthropicもpatronとしてBlender Development Fundに参加しています。 8つのクリエイティブ・ソフトウェアのコネクター:3DモデリングからVJのリアルタイム制御まで 今回、Anthropicと共同でコネクターを提供するソフトウェアのリスト(Anthropic公式発表を基に続く)

ChainNewsAbmedia3時間前

NVIDIA、9倍のスループット向上を実現するマルチモーダルモデル「Nemotron 3 Nano Omni」を発表

ゲートニュース(4月28日)— NVIDIAは、256Kのコンテキストウィンドウに対応した30B-A3Bのミクスチャ・オブ・エキスパーツ(MoE)アーキテクチャを備えるオープンソースのマルチモーダルモデル「Nemotron 3 Nano Omni」をリリースしました。このモデルは、ビデオ、オーディオ、画像、テキストの入力の処理を、単一のフレームワークで統合します。 比較

GateNews3時間前

データ主権への懸念を理由にドイツが軍事クラウド計画からパランティアを排除

ゲートニュース 4月28日――ドイツのサイバーおよび情報分野における同国最高位の将官であるトーマス・ダウム中将は、データ主権と米企業の運用モデルへの懸念を理由に、ドイツの旗艦的な軍事クラウド計画へのパランティアのソフトウェア導入を見送ると判断した。 ドイツの

GateNews3時間前
コメント
0/400
コメントなし