在探討機率水平之前，必須先明確事件定義與結算規則。規則一旦清晰，接下來的自然問題是：市場價格是否可靠？許多人憑直覺回答——「上次它對了，所以這次一定準」；或者「上次它錯了，所以預測市場根本不管用」。這兩種判斷都過於簡單。預測市場並非輸出二元式的「會發生/不會發生」結論，而是提供一組機率估計；要評判它是否「準了」，同樣需要機率性的語言。

事實上，一個市場可能頻頻「命中結果」，但在機率層面卻高度失真；也可能經常「方向錯誤」，卻誠實地反映了不確定性。僅憑輸贏來評估，會錯失預測市場最寶貴、也最常被誤解的一個方面：校準。

要判斷市場品質，我們必須問：什麼是校準？何時可以說市場真正「對了」？

1. 準確率 vs. 校準：兩種不同的「對」

準確率回答的是：最終判斷是否與結果一致？
校準回答的是：當市場說 70% 時，大約 70% 的此類事件真的發生了嗎？

一個簡單的例子可以說明這種差別。假設某類事件有 100 個實例，市場始終報出 90%。如果 90 個發生、10 個沒發生，從校準角度看，90% 的報價是合理的。而如果市場對 100 個事件始終報出 51%，恰好 51 個發生、49 個沒發生，準確率看似「不錯」，但市場幾乎沒有提供任何有資訊量的機率區分——它只是始終略微傾向一邊。

相反，一個誠實的 60% 報價最終失敗，並不等於「市場撒謊」；60% 本身就意味著有 40% 的可能性不發生。將「沒發生」直接等同於「市場失敗」，是用確定性思維去評判機率工具。

對讀者而言，第一課中的機率閱讀方法需要在這裡升級：閱讀預測市場不僅關乎「哪一方被看好」，還關乎這種看好是否誠實地反映了歷史頻率。

2. 校準曲線：當市場說 X% 時，實際發生頻率有多高？

評估校準的常見方法是繪製校準曲線：將歷史預測按機率區間分組（例如 50%–60%、60%–70%、70%–80%），再統計每個區間內的實際發生比率。理想情況下，曲線應接近對角線——長期來看，報價 70% 的事件應在大約 70% 的時間裡發生。

常見的三種偏差如下：

過度自信：市場報價 80%，但實際發生遠低於 80%。熱門話題和單一敘事市場常出現這種情況。
過於謹慎：市場報價 55%，但實際發生超過 55%。這在資訊傳遞緩慢或參與者趨於謹慎時可能發生。
樣本不足：某個機率區間內的歷史案例過少，導致統計不穩定。長尾事件和新話題市場尤為常見。

由此可見，校準並非一次性「對/錯」的標籤，而是需要足夠樣本和基於區間觀察的長期屬性。本課的目標並非為任何平台提供精確的校準係數——這需要專業的數據和方法論——而是建立一個評估框架：不要僅憑一兩個熱門市場來判斷校準。

3. Brier 分數：量化「接近現實的程度」

Brier 分數是評估機率預測品質的常用指標。對於二元事件，計算每個預測與結果之間的誤差；分數越低，機率估計越接近現實（完美預測得 0 分，完全錯誤接近 1 分，具體計算取決於公式）。

Brier 分數的價值在於懲罰「過度自信的錯誤」。報價 99% 後失敗，比報價 60% 後失敗受到的懲罰更重——這符合機率思維：前者聲稱的確定性大得多，因此錯誤代價更大。

一般用戶無需手動計算 Brier 分數，但應理解其含義：

如果兩個市場準確率相近，Brier 分數較低的那個通常更誠實地表達了機率。
如果一個市場經常將機率推向極端（0 或 1），短期內可能顯得「果斷」，但長期校準往往更差。
評估市場品質時，既要看「是否對了」，也要看「機率報價是否合理」。

4. 時間維度：一週前 vs. 一小時前，不是同一個預測

對同一事件而言，不同時間點的報價包含不同的資訊。賽前一週報價 40% 可能反映陣容、傷病、賽程等中期因素；賽前一小時報價 65% 可能納入了先發名單、天氣、即時新聞。兩者都是「機率」，但回答的是略有不同的問題：早期報價是估計，後期報價則趨近最終共識。

閱讀預測市場時，要注意時間戳。討論「市場一直看多」而不考慮時間維度，可能會誤判資訊效率。主要宏觀事件也是如此：非農數據公布前一週的 Fed 相關合約與數據公布前一分鐘的合約，由不同的波動因素驅動——不可互換。

Gate 預測市場介面上顯示的機率是那一瞬間的快照；如果您使用 Gate for AI Agent 的頂級功能拉取宏觀背景（如 BTC 價格、美元指數、利率預期），要說明其目的是解釋「機率為什麼變了」，而不是直接用資產價格變動來替代事件合約的 Yes 價格。BTC 的飆升並不自動意味著某個加密事件的批准機率應隨之上升——它們可能相關，但必須分別定義和驗證。

5. 話題差異：政治、體育和加密貨幣在校準表現上各不相同

不同話題的市場在參與者結構、資訊來源和流動性方面差異巨大；校準表現不能一概而論。

政治和選舉市場：資訊豐富，媒體覆蓋度高，但兩極分化的敘事可能導致過度自信；選舉後的回顧常常討論「選前 90% 與結果背離」——這正是一個校準問題。
體育市場：規則更清晰，歷史數據長，一些主流事件校準良好；但突發傷病或裁判爭議仍會造成短期扭曲。
加密貨幣和行業事件市場：FDV 閾值、批准進展、合作夥伴關係啟動更依賴文本定義（見第二課）；投機和敘事驅動的參與者可能占主導地位，薄市場及跳躍性報價常見，校準波動性往往更高。

因此，諸如「預測市場很準確」或「預測市場不準確」之類的籠統說法毫無意義。正確的問法是：在哪些事件類型、哪些時間段、什麼樣的流動性條件下，校準才得以實現？

6. AI 和 Agent 的邊界：可以整理歷史，但不能生成結論

Gate for AI Agent 或通用 AI 工具可以承擔本課中的研究任務，例如整理某些事件的歷史基礎機率、彙編過去市場報價和結算結果、協助分組統計或繪製校準曲線。這些工作加速了整理過程，並有助於形成可供檢驗的假設。

它們不能承擔的任務包括：在不閱讀原始規則的情況下斷言「這個市場一直很準確」；將少數案例包裝成一般規律；或直接輸出「應該買入 Yes」。任何 AI 生成的數字都必須追溯回原始數據；如果樣本量不足，應明確說明「不足以評估校準」，而不是提供虛假的精確性。Agent 止步於研究；是否信任某個市場的機率，必須由人類根據規則、流動性和獨立來源來判斷。