第 2 課

数据来源细分:新闻、社交媒体和链上行为信号价值

<h2 id="h2-SS4gRnVuZGFtZW50YWwgRGlmZmVyZW5jZXMgQW1vbmcgVGhyZWUgRGF0YSBUeXBlczogRmFjdHMsIE9waW5pb25zLCBhbmQgQmVoYXZpb3Jz">一、三類數據型態的本質差異:事實、觀點與行為</h2><p>在實務應用中,這三類數據來源可視為三種「證據」:</p> <ul> <li><strong>新聞與最新公告:屬於「事實觸發」</strong></li></ul> <p>典型情境如監管聲明、宏觀數據、交易所公告、專案升級、資金及合作揭露等。這類數據的核心價值在於為事件提供明確的時間節點與邊界,非常適合作為「敘事起點」。</p> <ul> <li><strong>社交媒體與社群討論:屬於「情緒與關注代理」</strong></li></ul> <p>例如討論量、轉發結構、KOL 集中度、情緒傾向、話題聚合等。這些數據有助於衡量敘事擴散速度與擁擠程度,適合用於「敘事強度與風險溫度」的度量。</p> <ul> <li><strong>鏈上與交易結構:屬於「資金行為證據」</strong></li></ul> <p>如大額劃轉、交易所淨流入或流出、穩定幣供應變化、衍生品持倉量及資金費率、交易分布等。這類數據可用於驗證敘事是否真正轉化為實際資金行動,因此適合作為「實現驗證層」。</p> <p>敘事交易的關鍵在於三類數據彼此補足:新聞提供起點,社交媒體提供溫度,鏈上數據完成驗證,無法僅依賴其中之一。</p> <h2 id="h2-SUkuIE5ld3MgRGF0YTogU3Ryb25nIFRyaWdnZXIsIFdlYWsgUGVyc2lzdGVuY2XigJRNdXN0IEFkZHJlc3Mg4oCcRXhwZWN0YXRpb24gR2Fw4oCd">二、新聞數據:強觸發、弱持續——需留意「預期落差」</h2><p>新聞型訊號的優勢在於事件邊界明確,便於進行時間序列分析,但也有典型風險:</p> <ul> <li>預期落差:市場可能已提前反應,消息發布後行情反向波動。</li><li>語義歧異:同一句話在不同情境下可被解讀為利多或利空。</li><li>訊息來源品質參差:長轉發鏈易造成訊息失真或延遲。</li></ul> <p>因此,新聞數據更適合作為「事件日曆」與「敘事標籤庫」的基礎,不宜直接作為高頻交易的觸發依據。</p>

一、三類資料的本質差異:事實、觀點與行為

在實務上,您可以將三類資料來源視為三種「證據類型」:

  1. 新聞與公告:偏向「事實觸發器」
    典型案例包括監管表態、總體經濟數據、交易所公告、專案升級、募資及合作關係公開等。其價值在於提供可明確定位的時間點與事件邊界,適合作為「敘事起點」。
  2. 社群媒體與社區討論:偏向「情緒與注意力代理」
    常見如討論量、轉發結構、KOL 集中度、情緒極性與話題聚類等。此類資料可用於衡量敘事擴散速度與擁擠程度,適合作為「敘事強度與風險溫度」依據。
  3. 鏈上與成交結構:偏向「資金行為證據」
    包含大額轉帳、交易所淨流入與流出、穩定幣供給變化、衍生品未平倉與資金費率、成交分布等。這類資料能驗證敘事是否真正轉化為資金動作,適合作為「兌現驗證層」。

敘事交易的重點不在於單一資料類型,而是三類資料的互補性:新聞決定起點,社群媒體反映溫度,鏈上數據進行驗證。

二、新聞資料:強觸發、弱持續性,必須處理「預期落差」

新聞訊號的優勢是事件邊界明確,適合做時間序列研究,但常見陷阱也很明顯:

  • 預期落差問題:市場可能早已提前反映,新聞公開時價格反而反向波動;
  • 語意歧義:同一句話在不同情境下可能被解讀為利多或利空;
  • 來源品質不一:多次轉載可能導致資訊失真或延遲。

因此,新聞資料更適合作為「事件表(Event Calendar)」與「敘事標籤庫」的基礎,而非直接作為高頻交易觸發器。

實務上,新聞通常會被標籤為三種標籤:

  • 事件類型(監管/總經/專案/安全事件等)
  • 影響方向(偏風險上行/偏風險下行/結構性不確定)
  • 影響層級(全局/賽道/單一資產)

三、社群媒體資料:強擴散、強噪音,必須處理「操縱與同質化」

社群媒體資料對敘事交易極為敏感,因其直接描繪注意力的轉移,但噪音結構也更複雜:

  • 同質化與重複發言:大量帳號重複同樣話術,討論量上升不代表資訊新增;
  • 操縱與灌水:機器人、水軍和協作炒作會創造虛假熱度;
  • 情緒極端化:極端情緒常伴隨高波動,訊號可能呈現「尖峰脈衝」狀。

因此,社群媒體資料更適合用於產出「擴散結構指標」,而非僅僅進行情緒打分。

更有價值的結構分析維度包括:

  • 討論是否從少數節點擴散到更廣泛用戶;
  • 話題是否出現跨平台共振現象;
  • 情緒是否從分歧轉向一致(或由一致轉為分歧)。

這些維度比單純的「正面/負面詞頻」更貼近資金行為的形成過程。

四、鏈上資料:強驗證、弱解釋,必須處理「因果滯後」

鏈上資料最大優點是可驗證、難以偽造(統計意義下),適合作為敘事的「兌現層」。但其解釋鏈條存在挑戰:

  • 同一鏈上現象可能對應不同敘事
    如交易所淨流入上升,既可能是拋售準備,也可能是做市或對沖行為。
  • 因果方向未必明確
    鏈上變化可能落後於價格,也可能領先價格,需結合衍生品與現貨微觀結構判斷。

因此,鏈上資料更適合回答「資金是否確實流動」,而不是「為什麼一定會上漲」。

在敘事交易架構下,鏈上指標通常負責三大驗證任務:

  • 敘事發生後是否出現持續的資金路徑;
  • 敘事擁擠期是否出現異常集中狀況;
  • 價格劇烈波動前後是否有結構性轉帳行為發生。

五、三類資料如何組成「證據金字塔」

為降低噪音並提升可執行性,建議採取三層金字塔結構:

  • 底層:鏈上與成交結構(硬證據)
    驗證敘事是否兌現為資金行為。
  • 中層:社群媒體擴散與情緒結構(軟證據)
    衡量敘事強度、擁擠度及持續性。
  • 頂層:新聞與關鍵事件(觸發器)
    定位敘事起點與更新節奏。

此結構的意義在於:任何交易行動應盡量滿足「至少兩層證據共振」。僅有單一層(特別是社群媒體熱度)通常僅可作為觀察對象,難以作為穩定策略依據。

六、時間對齊:敘事交易最易被低估的工程挑戰

三類資料的時間粒度不同:新聞以分鐘/小時計,社群媒體以秒級脈衝,鏈上則以區塊時間計。

若時間對齊不嚴謹,極易產生「偽相關」:

  • 以未來資訊解讀過去價格(時間穿越);
  • 將滯後鏈上資料誤認為即時觸發(因果倒置)。

實務上應建立統一時間軸:

  • 事件時間(新聞發布時間)
  • 討論高峰時間(社群媒體熱度區間)
  • 資金遷移時間(鏈上轉帳確認及聚合窗口)

時間對齊是所有評分模型的前提,也是敘事研究能否進入實盤的關鍵門檻。

簡單案例:時間對齊錯誤如何導致誤判

場景:某代幣發布利多消息

實際時間軸(已對齊)

  • 12:00|事件時間:專案發布合作新聞
  • 12:00–12:05|社群擴散:討論升溫,12:03 達到高峰
  • 12:02–12:15|鏈上資金:資金開始進場(含確認和資料延遲)
  • 12:01–12:08|價格反應:價格開始上漲

常見錯誤

將「資料出現時間」誤作「實際發生時間」

  • 鏈上資料面板顯示時間:12:10
  • 實際交易時間:12:02–12:04

誤判結果:價格先上漲,鏈上資金才進場,進而錯誤認定「鏈上不是主導因素」。

時間穿越(以未來解釋過去)

  • 採用 12:03 的社群媒體熱度高峰
  • 解讀 12:01 的價格上漲

問題在於:引入未來資訊,導致回測結果失真。

正確做法

應統一時間軸並明確定義各類時間:

  • 新聞:發布時間(Event Time)
  • 社群媒體:熱度形成區間(非單一時間點)
  • 鏈上:回推實際發生時間(扣除區塊確認及索引延遲)
  • 價格:撮合成交時間

若時間未對齊,僅能獲得表面相關性;唯有在統一時間架構下,才能辨識實際驅動關係。這也是敘事交易從理論走向實盤的必要前提。

七、資料品質與風控前置:敘事交易的「準入門檻」

建模前,建議先設定資料準入規則,如:

  • 新聞來源白名單與交叉驗證;
  • 社群帳號可信分級及異常流量過濾;
  • 鏈上地址標籤庫的更新頻率及誤標容忍度。

缺乏準入規則的資料堆疊,只會加劇過度擬合的風險。

敘事交易長期競爭力,很大程度取決於資料治理是否工程化,而非指標是否花俏。

八、本課小結

本課完成了資料層的核心區分:

  • 新聞供給事件觸發與敘事起點;
  • 社群媒體描繪注意力擴散與情緒溫度;
  • 鏈上驗證資金路徑與行為兌現。

本課同時提出「證據金字塔」與「時間對齊」兩大工程原則,為後續結構化建模設定邊界。

下一課將進入方法論核心:敘事標籤、情緒評分與事件圖譜,重點討論如何將非結構化文本與鏈上行為轉換為可計算、可回測、可監控的指標體系。

免責聲明
* 投資有風險,入市須謹慎。本課程不作為投資理財建議。
* 本課程由入駐 Gate Learn 的作者創作,觀點僅代表作者本人,絕不代表 Gate Learn 讚同其觀點或證實其描述。