Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
大型電子商務:一位軟體工程師如何整理數百萬個雜亂的產品屬性
大多數有關電子商務擴展的討論都圍繞著性話題:分散式搜尋系統、即時庫存管理、推薦演算法。然而,背後潛藏著一個較為沉默但更棘手的問題:屬性值的管理。這是一種在每個大型線上商店中都存在的技術雜訊。
靜默問題:為何屬性值會讓一切變得複雜
產品屬性對於用戶體驗至關重要。它們推動篩選、比較與搜尋排名。理論上這很簡單,但現實中:原始值卻是雜亂無章的。
一個簡單的例子可能是:「XL」、「Small」、「12cm」、「Large」、「M」、「S」。顏色?「RAL 3020」、「Crimson」、「Red」、「Dark Red」。材質?「Steel」、「Carbon Steel」、「Stainless」、「Stainless Steel」。
單獨看這些不一致性似乎無害,但當你將其擴展到超過300萬個SKU,每個有數十個屬性時——問題就成系統性了。篩選器行為變得難以預測。搜尋引擎的相關性下降。客戶會遇到較慢且令人沮喪的瀏覽體驗。而在後端,團隊成員則陷入手動資料清理的泥沼。
Zoro的一位軟體工程師正面臨這個挑戰:一個容易被忽視,但卻影響每個產品頁面的問題。
通往智能自動化而不失控的路徑
第一個原則很明確:不要黑箱式AI。這類系統難以信任、除錯或擴展。
因此,開發出一個混合流程,該流程:
結果是將現代語言模型的情境思考與固定規則與控制相結合。讓AI在導引下運作,而非失控。
架構概述:它們如何相互連結
整個處理流程在離線背景作業中運行,而非即時處理。這不是妥協——而是架構上的必要。
即時流程聽起來誘人,但會導致:
相反,離線處理能提供:
架構流程如下:
四層解決方案
第一層:資料預處理
在應用智慧前,先進行明確的前置處理:去除空白、去重、將類別麵包屑轉成結構化字串、移除空值。
這看似基本,但大幅提升AI表現。垃圾進,垃圾出——在此規模下,小錯誤可能演變成大問題。
第二層:帶有上下文的智能排序
語言模型不僅是排序工具,它會思考值的意義。
服務端收到:
利用這些上下文,模型能理解:
模型回傳:
第三層:確定性備援
並非所有屬性都需要智慧。數值範圍、單位值與簡單集合適合用:
流程會自動識別這些情況,並採用確定性邏輯,避免不必要的LLM調用。
第四層:人工覆蓋
每個類別都可以標記為:
這個雙軌系統讓人員可以做最終決策,同時讓智慧負責繁重工作,也建立信任——商家可以隨時覆蓋模型。
從混亂到清晰:實務成果
流程將雜亂的原始資料轉換為:
這些範例展現了情境理解與明確規則的結合。
全鏈條的持久化與控制
所有結果都直接存入產品的MongoDB。MongoDB成為唯一資料來源,用於:
這讓檢查、覆蓋、重新處理類別與同步變得更容易。
排序後,資料流入:
確保篩選器按邏輯排序,產品頁面呈現一致屬性,搜尋引擎能更精確地排名。
為何不用即時處理?
即時處理意味著:
離線作業則提供:
唯一的折衷是資料傳遞與顯示之間的微小延遲,但這在大規模上帶來的資料一致性,遠勝於即時的便利。
可衡量的成效
此方案帶來:
這不僅是技術上的勝利,更是用戶體驗與商業成果的提升。
給電商軟體工程師的關鍵啟示
總結
屬性值排序聽起來很簡單,但當涉及數百萬產品時,卻是一個真正的挑戰。
結合語言模型智慧、明確規則、上下文理解與人工控制,將一個複雜且隱藏的問題轉化為一個乾淨且可擴展的系統。
這提醒我們,最大的成功往往來自解決那些乏味、容易被忽視的問題——那些在每個產品頁面都會出現的細節。