在探討機率水平之前,必須先明確事件定義與結算規則。規則一旦清晰,接下來的自然問題是:市場價格是否可靠?許多人憑直覺回答——「上次它對了,所以這次一定準」;或者「上次它錯了,所以預測市場根本不管用」。這兩種判斷都過於簡單。預測市場並非輸出二元式的「會發生/不會發生」結論,而是提供一組機率估計;要評判它是否「準了」,同樣需要機率性的語言。
事實上,一個市場可能頻頻「命中結果」,但在機率層面卻高度失真;也可能經常「方向錯誤」,卻誠實地反映了不確定性。僅憑輸贏來評估,會錯失預測市場最寶貴、也最常被誤解的一個方面:校準。
要判斷市場品質,我們必須問:什麼是校準?何時可以說市場真正「對了」?
準確率回答的是:最終判斷是否與結果一致?
校準回答的是:當市場說 70% 時,大約 70% 的此類事件真的發生了嗎?
一個簡單的例子可以說明這種差別。假設某類事件有 100 個實例,市場始終報出 90%。如果 90 個發生、10 個沒發生,從校準角度看,90% 的報價是合理的。而如果市場對 100 個事件始終報出 51%,恰好 51 個發生、49 個沒發生,準確率看似「不錯」,但市場幾乎沒有提供任何有資訊量的機率區分——它只是始終略微傾向一邊。
相反,一個誠實的 60% 報價最終失敗,並不等於「市場撒謊」;60% 本身就意味著有 40% 的可能性不發生。將「沒發生」直接等同於「市場失敗」,是用確定性思維去評判機率工具。
對讀者而言,第一課中的機率閱讀方法需要在這裡升級:閱讀預測市場不僅關乎「哪一方被看好」,還關乎這種看好是否誠實地反映了歷史頻率。
評估校準的常見方法是繪製校準曲線:將歷史預測按機率區間分組(例如 50%–60%、60%–70%、70%–80%),再統計每個區間內的實際發生比率。理想情況下,曲線應接近對角線——長期來看,報價 70% 的事件應在大約 70% 的時間裡發生。
常見的三種偏差如下:
過度自信:市場報價 80%,但實際發生遠低於 80%。熱門話題和單一敘事市場常出現這種情況。
過於謹慎:市場報價 55%,但實際發生超過 55%。這在資訊傳遞緩慢或參與者趨於謹慎時可能發生。
樣本不足:某個機率區間內的歷史案例過少,導致統計不穩定。長尾事件和新話題市場尤為常見。
由此可見,校準並非一次性「對/錯」的標籤,而是需要足夠樣本和基於區間觀察的長期屬性。本課的目標並非為任何平台提供精確的校準係數——這需要專業的數據和方法論——而是建立一個評估框架:不要僅憑一兩個熱門市場來判斷校準。
Brier 分數是評估機率預測品質的常用指標。對於二元事件,計算每個預測與結果之間的誤差;分數越低,機率估計越接近現實(完美預測得 0 分,完全錯誤接近 1 分,具體計算取決於公式)。
Brier 分數的價值在於懲罰「過度自信的錯誤」。報價 99% 後失敗,比報價 60% 後失敗受到的懲罰更重——這符合機率思維:前者聲稱的確定性大得多,因此錯誤代價更大。
一般用戶無需手動計算 Brier 分數,但應理解其含義:
如果兩個市場準確率相近,Brier 分數較低的那個通常更誠實地表達了機率。
如果一個市場經常將機率推向極端(0 或 1),短期內可能顯得「果斷」,但長期校準往往更差。
評估市場品質時,既要看「是否對了」,也要看「機率報價是否合理」。
對同一事件而言,不同時間點的報價包含不同的資訊。賽前一週報價 40% 可能反映陣容、傷病、賽程等中期因素;賽前一小時報價 65% 可能納入了先發名單、天氣、即時新聞。兩者都是「機率」,但回答的是略有不同的問題:早期報價是估計,後期報價則趨近最終共識。
閱讀預測市場時,要注意時間戳。討論「市場一直看多」而不考慮時間維度,可能會誤判資訊效率。主要宏觀事件也是如此:非農數據公布前一週的 Fed 相關合約與數據公布前一分鐘的合約,由不同的波動因素驅動——不可互換。
Gate 預測市場介面上顯示的機率是那一瞬間的快照;如果您使用 Gate for AI Agent 的頂級功能拉取宏觀背景(如 BTC 價格、美元指數、利率預期),要說明其目的是解釋「機率為什麼變了」,而不是直接用資產價格變動來替代事件合約的 Yes 價格。BTC 的飆升並不自動意味著某個加密事件的批准機率應隨之上升——它們可能相關,但必須分別定義和驗證。
不同話題的市場在參與者結構、資訊來源和流動性方面差異巨大;校準表現不能一概而論。
政治和選舉市場:資訊豐富,媒體覆蓋度高,但兩極分化的敘事可能導致過度自信;選舉後的回顧常常討論「選前 90% 與結果背離」——這正是一個校準問題。
體育市場:規則更清晰,歷史數據長,一些主流事件校準良好;但突發傷病或裁判爭議仍會造成短期扭曲。
加密貨幣和行業事件市場:FDV 閾值、批准進展、合作夥伴關係啟動更依賴文本定義(見第二課);投機和敘事驅動的參與者可能占主導地位,薄市場及跳躍性報價常見,校準波動性往往更高。
因此,諸如「預測市場很準確」或「預測市場不準確」之類的籠統說法毫無意義。正確的問法是:在哪些事件類型、哪些時間段、什麼樣的流動性條件下,校準才得以實現?
Gate for AI Agent 或通用 AI 工具可以承擔本課中的研究任務,例如整理某些事件的歷史基礎機率、彙編過去市場報價和結算結果、協助分組統計或繪製校準曲線。這些工作加速了整理過程,並有助於形成可供檢驗的假設。
它們不能承擔的任務包括:在不閱讀原始規則的情況下斷言「這個市場一直很準確」;將少數案例包裝成一般規律;或直接輸出「應該買入 Yes」。任何 AI 生成的數字都必須追溯回原始數據;如果樣本量不足,應明確說明「不足以評估校準」,而不是提供虛假的精確性。Agent 止步於研究;是否信任某個市場的機率,必須由人類根據規則、流動性和獨立來源來判斷。
本課的核心問題是:什麼是校準?何時可以說市場「對了」?答案是:在預測市場中,「對了」有兩個層面——結果是否發生,以及機率估計是否合理。準確率只考慮前者;校準關注的是估計的長期一致性。Brier 分數等指標提醒我們:報價 90% 後失敗,是一種比報價 60% 後失敗更嚴重的機率性扭曲。
我們還看到,時間、話題和流動性對校準表現有顯著影響;您不能用單個熱門市場的輸贏來推斷所有預測市場。Gate 預測市場提供當前共識快照;Gate for AI Agent 的宏觀數據提供背景比較,但不能替代事件合約機率閱讀本身。
下一課將轉向決定可信度的另一個維度:即使長期校準良好,單個報價仍可能因流動性、價差和操縱而偏離。流動性和資訊效率是閱讀預測市場時必不可少的步驟。