Thương mại điện tử quy mô lớn: Cách một kỹ sư phần mềm sắp xếp hàng triệu thuộc tính sản phẩm hỗn loạn

Hầu hết các cuộc tranh luận về mở rộng thương mại điện tử đều xoay quanh các chủ đề nhạy cảm: hệ thống tìm kiếm phân tán, quản lý tồn kho trực tiếp, thuật toán đề xuất. Tuy nhiên, đằng sau đó là một vấn đề âm thầm hơn nhưng dai dẳng hơn: quản lý giá trị thuộc tính. Đó là một nhiễu kỹ thuật tồn tại trong mọi cửa hàng trực tuyến lớn.

Vấn đề âm thầm: Tại sao giá trị thuộc tính làm phức tạp mọi thứ

Thuộc tính sản phẩm là nền tảng cho trải nghiệm khách hàng. Chúng thúc đẩy bộ lọc, so sánh và xếp hạng tìm kiếm. Trong lý thuyết, điều đó đơn giản. Nhưng trong thực tế: giá trị thô sơ rất hỗn loạn.

Một số kích thước đơn giản có thể là: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. Màu sắc? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Chất liệu? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.

Xem riêng lẻ, những sự không nhất quán này có vẻ vô hại. Nhưng nhân lên với hơn 3 triệu SKU, mỗi cái có hàng chục thuộc tính – vấn đề trở nên hệ thống. Bộ lọc hành xử không dự đoán được. Công cụ tìm kiếm mất đi tính liên quan. Khách hàng trải nghiệm việc duyệt chậm hơn, gây thất vọng hơn. Và trong backend, các thành viên đội nhóm bị nghẹt trong việc làm sạch dữ liệu thủ công.

Một kỹ sư phần mềm tại Zoro đã đối mặt chính xác với thách thức này: Một vấn đề dễ bị bỏ qua nhưng ảnh hưởng đến từng trang sản phẩm.

Con đường đến tự động hóa thông minh mà không mất kiểm soát

Nguyên tắc đầu tiên rõ ràng: Không dùng AI hộp đen. Các hệ thống như vậy khó tin tưởng, khó gỡ lỗi hoặc mở rộng.

Thay vào đó, đã phát triển một pipeline lai,:

  • còn giải thích được
  • hoạt động dự đoán được
  • thực sự mở rộng
  • có thể kiểm soát bởi con người

Kết quả kết hợp tư duy ngữ cảnh của các mô hình ngôn ngữ hiện đại với các quy tắc và kiểm soát cố định. AI có giới hạn, không AI ngoài tầm kiểm soát.

Tổng quan kiến trúc: Mối liên hệ như thế nào

Toàn bộ xử lý diễn ra trong các công việc nền tảng ngoại tuyến, không theo thời gian thực. Đây không phải là thỏa hiệp – mà là cần thiết về kiến trúc.

Pipeline thời gian thực nghe có vẻ hấp dẫn, nhưng dẫn đến:

  • Độ trễ không thể dự đoán
  • Phụ thuộc mong manh
  • Đỉnh tính toán đắt đỏ
  • Tính bấp bênh vận hành

Xử lý ngoại tuyến thay vào đó cho phép:

  • Xử lý qua lượng dữ liệu lớn: hàng triệu sản phẩm mà không ảnh hưởng hệ thống trực tiếp
  • Khả năng chống chịu: lỗi không ảnh hưởng đến lưu lượng khách hàng
  • Kiểm soát chi phí: lập kế hoạch tính toán vào thời điểm ít traffic
  • Cách ly: độ trễ của mô hình ngôn ngữ không ảnh hưởng đến trang sản phẩm
  • Tính nhất quán: cập nhật nguyên khối và dự đoán được

Kiến trúc hoạt động như sau:

  1. Dữ liệu sản phẩm lấy từ hệ thống PIM
  2. Một job trích xuất lấy giá trị thô và ngữ cảnh
  3. Chuyển đến dịch vụ phân loại AI
  4. Tài liệu cập nhật lưu trong MongoDB
  5. Đồng bộ outbound cập nhật hệ thống gốc
  6. Elasticsearch và Vespa đồng bộ dữ liệu đã phân loại
  7. API kết nối mọi thứ với giao diện khách hàng

Bốn lớp của giải pháp

Lớp 1: Chuẩn bị dữ liệu

Trước khi áp dụng trí tuệ, có bước tiền xử lý rõ ràng. Cắt bỏ khoảng trắng. Loại bỏ trùng lặp giá trị. Ngữ cảnh hóa breadcrumb danh mục thành chuỗi có cấu trúc. Loại bỏ mục trống.

Có vẻ cơ bản, nhưng đã cải thiện đáng kể hiệu suất AI. Rác vào, rác ra – ở quy mô này, lỗi nhỏ sau này có thể thành vấn đề lớn.

Lớp 2: Sắp xếp thông minh có ngữ cảnh

Mô hình ngôn ngữ không chỉ là công cụ sắp xếp. Nó suy nghĩ về các giá trị.

Dịch vụ nhận:

  • Giá trị thuộc tính đã làm sạch
  • Metadata danh mục
  • Định nghĩa thuộc tính

Với ngữ cảnh này, mô hình hiểu:

  • “Spannung” trong dụng cụ điện nên là số
  • “Kích thước” trong quần áo theo một trình tự rõ ràng
  • “Màu sắc” có thể theo tiêu chuẩn RAL
  • “Chất liệu” có quan hệ ngữ nghĩa

Mô hình trả về:

  • Các giá trị đã sắp xếp theo thứ tự hợp lý
  • Tên thuộc tính tinh chỉnh
  • Một quyết định: sắp xếp xác định hay dựa ngữ cảnh

Lớp 3: Các fallback xác định

Không phải thuộc tính nào cũng cần trí tuệ. Các phạm vi số, giá trị dựa trên đơn vị, và lượng đơn giản hưởng lợi từ:

  • Xử lý nhanh hơn
  • Kết quả dự đoán trước
  • Chi phí thấp hơn
  • Không gây nhầm lẫn

Pipeline tự động nhận biết các trường hợp này và dùng logic xác định. Giúp hệ thống hiệu quả và tránh gọi LLM không cần thiết.

Lớp 4: Ghi đè thủ công

Mỗi danh mục có thể gắn thẻ là:

  • LLM_SORT: mô hình quyết định
  • MANUAL_SORT: con người xác định thứ tự

Hệ thống kép này cho phép con người quyết định cuối cùng, trong khi trí tuệ xử lý phần lớn công việc. Nó cũng xây dựng niềm tin – nhà bán hàng có thể ghi đè mô hình bất cứ lúc nào.

Từ hỗn loạn đến rõ ràng: Kết quả thực tế

Pipeline biến đổi dữ liệu thô hỗn loạn thành:

Thuộc tính Giá trị đầu vào Kết quả sắp xếp
Kích thước XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Màu sắc RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Số 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Các ví dụ này thể hiện cách kết hợp hiểu ngữ cảnh với quy tắc rõ ràng.

Lưu trữ và kiểm soát toàn bộ chuỗi

Tất cả kết quả được lưu trực tiếp trong MongoDB sản phẩm. MongoDB trở thành nguồn duy nhất cho:

  • Giá trị thuộc tính đã sắp xếp
  • Tên thuộc tính tinh chỉnh
  • Thẻ sắp xếp theo danh mục
  • Thứ tự sắp xếp theo sản phẩm

Điều này giúp dễ dàng kiểm tra, ghi đè, xử lý lại danh mục và đồng bộ với hệ thống khác.

Sau khi sắp xếp, các giá trị được chuyển vào:

  • Elasticsearch để tìm kiếm dựa trên từ khóa
  • Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Đảm bảo bộ lọc hiển thị theo thứ tự hợp lý, trang sản phẩm hiển thị thuộc tính nhất quán, và các công cụ tìm kiếm xếp hạng chính xác hơn.

Tại sao không dùng thời gian thực đơn thuần?

Xử lý thời gian thực sẽ có nghĩa là:

  • Độ trễ không thể dự đoán khi truy vấn trực tiếp
  • Chi phí tính toán cao hơn cho kết quả tức thì
  • Phụ thuộc phức tạp giữa các hệ thống
  • Độ phức tạp vận hành và rủi ro lỗi khi có khách truy cập

Xử lý ngoại tuyến cung cấp:

  • Hiệu quả xử lý hàng triệu sản phẩm
  • Gọi LLM bất đồng bộ mà không ảnh hưởng trực tiếp
  • Logic lặp lại mạnh mẽ
  • Cửa sổ kiểm tra thủ công
  • Kết quả tính toán dự đoán được

Thay vào đó, có một chút chậm trễ giữa thu thập dữ liệu và hiển thị. Nhưng lợi ích là tính nhất quán quy mô lớn – điều khách hàng đánh giá cao hơn nhiều.

Tác động đo lường được

Giải pháp mang lại:

  • Thứ tự thuộc tính nhất quán trên hơn 3 triệu SKU
  • Thứ tự số dự đoán trước bằng fallback xác định
  • Kiểm soát doanh nghiệp qua thẻ thủ công
  • Trang sản phẩm sạch hơn và bộ lọc trực quan hơn
  • Độ liên quan và xếp hạng tìm kiếm cải thiện
  • Tăng độ tin cậy của khách hàng và tỷ lệ chuyển đổi cao hơn

Đây không chỉ là thành tựu kỹ thuật – mà còn là chiến thắng về trải nghiệm người dùng và kết quả kinh doanh.

Những bài học chính cho kỹ sư phần mềm trong thương mại điện tử

  • Pipeline lai vượt trội hơn AI thuần túy về quy mô lớn. Trí tuệ cần giới hạn.
  • Ngữ cảnh nâng cao độ chính xác của mô hình ngôn ngữ rõ ràng.
  • Công việc ngoại tuyến là thiết yếu cho throughput và khả năng chống chịu.
  • Cơ chế ghi đè thủ công xây dựng niềm tin và sự chấp nhận.
  • Dữ liệu đầu vào sạch là nền tảng cho kết quả đáng tin cậy.

Kết luận

Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản. Nhưng khi liên quan đến hàng triệu sản phẩm, đó là một thử thách thực sự.

Bằng cách kết hợp trí tuệ mô hình ngôn ngữ với các quy tắc rõ ràng, hiểu ngữ cảnh và kiểm soát của con người, một vấn đề phức tạp, tiềm ẩn đã trở thành một hệ thống sạch sẽ, có thể mở rộng.

Điều này nhắc nhở rằng, một số thành công lớn nhất đến từ việc giải quyết các vấn đề nhàm chán – những vấn đề dễ bỏ qua nhưng xuất hiện trên mọi trang sản phẩm.

VON-4,71%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim