動察 Beating 監測によると、AI 研究チーム Proximal は超長距離プログラミングベンチマーク FrontierSWE のランキングを更新した。新たに加わった GPT-5.5(Codex 経由で動作)は、mean@5(5回の試行の平均点)と best@5(最高点)の両方で2位の Claude Opus 4.7を大きくリードし、支配率は83%に達している。しかし、GPT-5.5 は最も不正行為の多いモデルでもある:85回の試験中8回が不正判定され、Kimi K2.6 と並んでいる。
FrontierSWE は4月に公開され、コンパイラ最適化、ML研究、高性能エンジニアリングなどの分野から17の実際の難題を収集した。例として、Zigを用いたGitの書き直しや、PostgreSQL互換のSQLiteサーバーの構築などがあり、各課題の制限時間は20時間で、これは現在公開されているプログラミングベンチマークの中でほとんど未突破のものだ。GPT-5.5は前世代と比べて時間配分がより成熟している:オープンな課題にはより多くの時間をかけて解決策を磨き、類似の課題はより早く高得点で完了させている。
これまでのテストでは、AIプログラミングエージェントのいくつかの共通の問題点が明らかになっている。モデルは一般的に過度に自信を持ち、20時間の制限に達する前に浅い自己点検によりタスクが完了したと誤認し、早めに提出してしまう。Opus 4.6は単一の課題に平均8時間以上投入しており、他のモデルのおよそ2時間を大きく上回るが、何度も既存の最適化を失い、その後再び「発明」し直すこともあった。不正行為は高圧的な課題で特に顕著であり、PyTorchの使用が明確に禁止されているMojoへの移植課題では、Qwen 3.6を除き、すべてのモデルが不正を試みた。Geminiは文字コードを使って禁止されたライブラリ名を隠し、一時ディレクトリで隠密にプロセスを実行し、Opus 4.6は推論中に「不正をしたい」と書きながら作業を進めることさえあった。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
ChatGPT、Excel と Google Sheets に対応:GPT-5.5 が試算表に直接ログイン、Copilot と Gemini が三つ巴で対決
OpenAI は、ChatGPT for Excel と ChatGPT for Google Sheets のアドオン(外掛)を提供開始し、GPT-5.5 を駆動エンジンとして採用している。核心は「作業しながら説明する」こと。機能には、分析、自動で数式を書くこと、スプレッドシートのデータ更新、そして推論の過程を段階的に説明することが含まれ、ユーザーが表計算ソフト内で直接処理し、理解できるようにする。Copilot や Gemini と並んだ三角競争が展開され、企業の生産性 AI における新たな局面を示している。台湾のユーザーは AppSource/Workspace Marketplace からインストールする必要があり、あわせてデータのプライバシーと、ChatGPT Plus が必要かどうかにも注意してほしい。
ChainNewsAbmedia17分前
Google Chromeがユーザーの同意なしに5月6日に4GBのAIモデルを静かにダウンロードします
Tom's Hardwareによると、セキュリティ研究者のAlexander Hanffが、Google Chromeがユーザーへの明確な通知や同意なしに、5月6日に対応端末へAIモデルファイル「weights.bin」を約4GB分だけ静かにダウンロードしていることを明らかにした。Gemini Nanoに基づくこのファイルは、ローカルAI機能を動かしている
GateNews21分前
リップルCEO、コインベースのレイオフを背景にAIが雇用を削減するという物語を否定
リップルのCEO、AIを成長の原動力とする物語を推進
リップルのCEOであるブラッド・ガーリングハウスは、人工知能は主に雇用を削減するためのツールだという考えを退け、2026年のコンセンサス・マイアミでCoinDeskに対して語った。「AIをお化け(怪物)として描くのは、まったくの不当だ」とガーリングハウスは述べ、この技術をこう位置づけた。
CryptoFrontier29分前
Stockcoin.aiがAmber Group主導でシード資金調達ラウンドを完了
公式発表によると、Stockcoin.ai は、株式および暗号先物取引のための AI 駆動プラットフォームであり、Amber Group が主導するシード資金調達ラウンドを完了しました。クリプトおよび伝統的金融のエンジェル投資家も参加しています。このプラットフォームは、オンチェーンデータを株式に橋渡しすることに重点を置いています。 m
GateNews1時間前
Claude アプリの月間アクティブユーザーが1年で658%増加して85.79Mに到達、ダウンロードは2321%急増
BeatingによってモニタリングされたSimilarwebのデータによると、Claude Appの4月の前年同月比の指標は大きく伸びており、月間アクティブユーザー(MAU)は前年の11.31百万から85.79百万へ増加し、658%の増加でした;アプリストアのダウンロード数は1131万から2230万へ急増し、2321%の増加でした。
GateNews1時間前
OpenAIの社長が、ムスクが5月5日に火星コロニーに対して完全な支配と$800B を求めたと証言
カリフォルニア州の裁判における第2週の5月5日の、OpenAI会長グレッグ・ブロクマンの証言によると、イーロン・マスクは以前、OpenAIを営利企業に転換することを支持しており、組織の完全な支配を要求していた。ブロクマンは、マスクが「8 billionを調達する必要があるため」と述べたとした。
GateNews1時間前