一、三類資料的本質差異:事實、觀點與行為
在實務上,您可以將三類資料來源視為三種「證據類型」:
- 新聞與公告:偏向「事實觸發器」
典型案例包括監管表態、總體經濟數據、交易所公告、專案升級、募資及合作關係公開等。其價值在於提供可明確定位的時間點與事件邊界,適合作為「敘事起點」。 - 社群媒體與社區討論:偏向「情緒與注意力代理」
常見如討論量、轉發結構、KOL 集中度、情緒極性與話題聚類等。此類資料可用於衡量敘事擴散速度與擁擠程度,適合作為「敘事強度與風險溫度」依據。 - 鏈上與成交結構:偏向「資金行為證據」
包含大額轉帳、交易所淨流入與流出、穩定幣供給變化、衍生品未平倉與資金費率、成交分布等。這類資料能驗證敘事是否真正轉化為資金動作,適合作為「兌現驗證層」。
敘事交易的重點不在於單一資料類型,而是三類資料的互補性:新聞決定起點,社群媒體反映溫度,鏈上數據進行驗證。
二、新聞資料:強觸發、弱持續性,必須處理「預期落差」
新聞訊號的優勢是事件邊界明確,適合做時間序列研究,但常見陷阱也很明顯:
- 預期落差問題:市場可能早已提前反映,新聞公開時價格反而反向波動;
- 語意歧義:同一句話在不同情境下可能被解讀為利多或利空;
- 來源品質不一:多次轉載可能導致資訊失真或延遲。
因此,新聞資料更適合作為「事件表(Event Calendar)」與「敘事標籤庫」的基礎,而非直接作為高頻交易觸發器。
實務上,新聞通常會被標籤為三種標籤:
- 事件類型(監管/總經/專案/安全事件等)
- 影響方向(偏風險上行/偏風險下行/結構性不確定)
- 影響層級(全局/賽道/單一資產)
三、社群媒體資料:強擴散、強噪音,必須處理「操縱與同質化」
社群媒體資料對敘事交易極為敏感,因其直接描繪注意力的轉移,但噪音結構也更複雜:
- 同質化與重複發言:大量帳號重複同樣話術,討論量上升不代表資訊新增;
- 操縱與灌水:機器人、水軍和協作炒作會創造虛假熱度;
- 情緒極端化:極端情緒常伴隨高波動,訊號可能呈現「尖峰脈衝」狀。
因此,社群媒體資料更適合用於產出「擴散結構指標」,而非僅僅進行情緒打分。
更有價值的結構分析維度包括:
- 討論是否從少數節點擴散到更廣泛用戶;
- 話題是否出現跨平台共振現象;
- 情緒是否從分歧轉向一致(或由一致轉為分歧)。
這些維度比單純的「正面/負面詞頻」更貼近資金行為的形成過程。
四、鏈上資料:強驗證、弱解釋,必須處理「因果滯後」
鏈上資料最大優點是可驗證、難以偽造(統計意義下),適合作為敘事的「兌現層」。但其解釋鏈條存在挑戰:
- 同一鏈上現象可能對應不同敘事
如交易所淨流入上升,既可能是拋售準備,也可能是做市或對沖行為。 - 因果方向未必明確
鏈上變化可能落後於價格,也可能領先價格,需結合衍生品與現貨微觀結構判斷。
因此,鏈上資料更適合回答「資金是否確實流動」,而不是「為什麼一定會上漲」。
在敘事交易架構下,鏈上指標通常負責三大驗證任務:
- 敘事發生後是否出現持續的資金路徑;
- 敘事擁擠期是否出現異常集中狀況;
- 價格劇烈波動前後是否有結構性轉帳行為發生。
五、三類資料如何組成「證據金字塔」
為降低噪音並提升可執行性,建議採取三層金字塔結構:
- 底層:鏈上與成交結構(硬證據)
驗證敘事是否兌現為資金行為。 - 中層:社群媒體擴散與情緒結構(軟證據)
衡量敘事強度、擁擠度及持續性。 - 頂層:新聞與關鍵事件(觸發器)
定位敘事起點與更新節奏。
此結構的意義在於:任何交易行動應盡量滿足「至少兩層證據共振」。僅有單一層(特別是社群媒體熱度)通常僅可作為觀察對象,難以作為穩定策略依據。
六、時間對齊:敘事交易最易被低估的工程挑戰
三類資料的時間粒度不同:新聞以分鐘/小時計,社群媒體以秒級脈衝,鏈上則以區塊時間計。
若時間對齊不嚴謹,極易產生「偽相關」:
- 以未來資訊解讀過去價格(時間穿越);
- 將滯後鏈上資料誤認為即時觸發(因果倒置)。
實務上應建立統一時間軸:
- 事件時間(新聞發布時間)
- 討論高峰時間(社群媒體熱度區間)
- 資金遷移時間(鏈上轉帳確認及聚合窗口)
時間對齊是所有評分模型的前提,也是敘事研究能否進入實盤的關鍵門檻。
簡單案例:時間對齊錯誤如何導致誤判
場景:某代幣發布利多消息
實際時間軸(已對齊)
- 12:00|事件時間:專案發布合作新聞
- 12:00–12:05|社群擴散:討論升溫,12:03 達到高峰
- 12:02–12:15|鏈上資金:資金開始進場(含確認和資料延遲)
- 12:01–12:08|價格反應:價格開始上漲
常見錯誤
將「資料出現時間」誤作「實際發生時間」
- 鏈上資料面板顯示時間:12:10
- 實際交易時間:12:02–12:04
誤判結果:價格先上漲,鏈上資金才進場,進而錯誤認定「鏈上不是主導因素」。
時間穿越(以未來解釋過去)
- 採用 12:03 的社群媒體熱度高峰
- 解讀 12:01 的價格上漲
問題在於:引入未來資訊,導致回測結果失真。
正確做法
應統一時間軸並明確定義各類時間:
- 新聞:發布時間(Event Time)
- 社群媒體:熱度形成區間(非單一時間點)
- 鏈上:回推實際發生時間(扣除區塊確認及索引延遲)
- 價格:撮合成交時間
若時間未對齊,僅能獲得表面相關性;唯有在統一時間架構下,才能辨識實際驅動關係。這也是敘事交易從理論走向實盤的必要前提。
七、資料品質與風控前置:敘事交易的「準入門檻」
建模前,建議先設定資料準入規則,如:
- 新聞來源白名單與交叉驗證;
- 社群帳號可信分級及異常流量過濾;
- 鏈上地址標籤庫的更新頻率及誤標容忍度。
缺乏準入規則的資料堆疊,只會加劇過度擬合的風險。
敘事交易長期競爭力,很大程度取決於資料治理是否工程化,而非指標是否花俏。
八、本課小結
本課完成了資料層的核心區分:
- 新聞供給事件觸發與敘事起點;
- 社群媒體描繪注意力擴散與情緒溫度;
- 鏈上驗證資金路徑與行為兌現。
本課同時提出「證據金字塔」與「時間對齊」兩大工程原則,為後續結構化建模設定邊界。
下一課將進入方法論核心:敘事標籤、情緒評分與事件圖譜,重點討論如何將非結構化文本與鏈上行為轉換為可計算、可回測、可監控的指標體系。