OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

鏈新聞abmedia

OpenAI 於 4/23 正式發布 GPT-5.5,定位為面向代理式(agentic)工作與企業知識處理的主力模型,同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」,AA Intelligence Index 以 60 分登頂,領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

關鍵數據一覽

指標 GPT-5.5 對照(GPT-5.4 或同級競品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令列工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 內部程式評估) 73.1% GPT-5.4:68.5% 脈絡視窗 1,200 萬 tokens 大幅提升,可處理整個企業程式庫或數小時影片 價格(每百萬 token) 輸入 5 美元、輸出 30 美元 GPT-5.4 的 2 倍單價;但輸出 token 使用量降約 40%,淨成本上升約 20%

定位:為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型,能理解複雜目標、使用工具、自我檢查工作成果,並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪,總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步,但只是一步」,並強調它「相較 5.4 是更快、更銳利的推理者,使用的 token 更少」。

首席科學家 Jakub Pachocki 指出,「我們在短期內看到非常顯著的提升」;研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

供應範圍與版本分層

GPT-5.5:Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用

GPT-5.5 Pro:Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本

Codex 整合:同步可用於 OpenAI 的程式代理工具,強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示,GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照——Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述,意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元,這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是:模型在推理效率上可減少 40% 左右的輸出 token 使用,因此典型任務的實際帳單約比 GPT-5.4 高 20%,而非單純 2 倍。對企業來說,決策因此從「單價是否划算」轉向「在同一 prompt 下,GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大,這兩個基準分別測試命令列代理執行與實際軟體工程任務——對 Codex 與 Claude Code 的正面對抗而言,是更直接的分數戰場。加上同步開放 1,200 萬 tokens 脈絡視窗,OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言,Claude Opus 4.7 在 AA 指數以 57 分落後 3 分,對 Claude Code 使用者而言也多一個理由觀察下一世代(Opus 4.8 或新一代 Claude)的進度。

這篇文章 OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Prophet 今日推出以 AI 驅動的預測市場,並啟用 10,000 美元的即時交易分批

根據 MetaversePost,Prophet 於今日(5 月 6 日)推出一個由 AI 驅動的預測市場,配置 10,000 美元的 USDC 用於進行現場交易。使用者可以直接與由 AI 作為對手方的交易進行交易,該對手方會為每個市場產生基於機率的定價;部分合約可在 24 小時內結算

GateNews5小時前

Tessera Labs 關閉 A 輪募資,由 a16z 領投;六人 AI 團隊取代 60 名 SAP 顧問

根據 Beating,Tessera Labs(一家 AI 系統整合公司)完成了由 a16z 領投的 A 輪融資。這家創業公司成立於 2024 年,使用多代理平台來自動化 SAP ECC 到 S/4HANA 的遷移,傳統上這需要 3-5 年以及 1 億美元到 5 億美元每

GateNews5小時前

台指站穩四萬點、美股創新高,但 AI 產業才剛進入早期階段?

Goldman Sachs 指出,AI 需求將因消費型 agent 工作負載大幅提升 token 消費,2030 年增長或超過 12 倍,月 token 運算可達 60 兆;非 agent 與 consumer agent 差在長時自動化任務,若成真 AI 將進入 agentic 工作流程。Larry Fink 表示算力供給嚴重短缺,未來或出現算力期貨,兩者共同支撐 AI 基礎建設的多頭論;文章認為 AI 仍處於早期階段。

鏈新聞abmedia6小時前

WLFI 生態 AI 專案 WorldClaw 推出代理作業系統,未揭露品牌還能賣一萬鎂?

川普家族加密專案 World Liberty Financial(WLFI)再出新招,攜手 WorldClaw 推出 AI 模型統一入口 WorldRouter,主打整合 300 款 AI 模型的代理人平台,最高付費方案要價近萬美元,但附贈的卻是一台「未揭露品牌與作業系統」的硬體裝置,引發外界疑慮。 @WorldClawAI is expanding access to AI and $WLFI plays a key role in the ecosystem. Users can access 300+ models with WorldRouter, and agents can

鏈新聞abmedia9小時前

Meta 開發 AI 助理 Hatch 對標 OpenClaw,6 月底前完成內測

據《金融時報》於 5 月 5 日報道,Meta 正在開發一款面向普通消費者的 AI 助理(Hatch),靈感來自 OpenAI 旗下的 OpenClaw,目標是在 6 月底前完成內部測試;Meta 同時計劃在今年第四季度前,將獨立的代理型購物工具整合至旗下 Instagram 服務。

Market Whisper10小時前

Cloudflare:非人類流量如今已成多數,x402 基金會地址對應 Web 經濟學

Cloudflare 的首席策略官表示,目前超過一半的網路流量已非人類,凸顯由 AI 代理程式驅動的網路使用模式轉變。該公司指出 x402 Foundation 是一項關鍵計畫,正在建置能支撐可持續的數位內容經濟的基礎設施

Crypto Frontier11小時前
留言
0/400
暫無留言