OpenAI 推 GPT-5.5：12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

2026-04-23 19:45:18

OpenAI 於 4/23 正式發布 GPT-5.5，定位為面向代理式（agentic）工作與企業知識處理的主力模型，同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」，AA Intelligence Index 以 60 分登頂，領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

關鍵數據一覽

指標 GPT-5.5 對照（GPT-5.4 或同級競品） AA Intelligence Index 60 Claude Opus 4.7：57；Gemini 3.1 Pro Preview：57 Terminal-Bench 2.0（命令列工作流） 82.7% GPT-5.4：75.1% Expert-SWE（OpenAI 內部程式評估） 73.1% GPT-5.4：68.5% 脈絡視窗 1,200 萬 tokens 大幅提升，可處理整個企業程式庫或數小時影片價格（每百萬 token）輸入 5 美元、輸出 30 美元 GPT-5.4 的 2 倍單價；但輸出 token 使用量降約 40%，淨成本上升約 20%

定位：為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型，能理解複雜目標、使用工具、自我檢查工作成果，並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪，總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步，但只是一步」，並強調它「相較 5.4 是更快、更銳利的推理者，使用的 token 更少」。

首席科學家 Jakub Pachocki 指出，「我們在短期內看到非常顯著的提升」；研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

供應範圍與版本分層

GPT-5.5：Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用

GPT-5.5 Pro：Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本

Codex 整合：同步可用於 OpenAI 的程式代理工具，強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示，GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照——Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述，意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元，這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是：模型在推理效率上可減少 40% 左右的輸出 token 使用，因此典型任務的實際帳單約比 GPT-5.4 高 20%，而非單純 2 倍。對企業來說，決策因此從「單價是否划算」轉向「在同一 prompt 下，GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大，這兩個基準分別測試命令列代理執行與實際軟體工程任務——對 Codex 與 Claude Code 的正面對抗而言，是更直接的分數戰場。加上同步開放 1,200 萬 tokens 脈絡視窗，OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言，Claude Opus 4.7 在 AA 指數以 57 分落後 3 分，對 Claude Code 使用者而言也多一個理由觀察下一世代（Opus 4.8 或新一代 Claude）的進度。

這篇文章 OpenAI 推 GPT-5.5：12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。