E-Commerce dalam skala besar: Bagaimana seorang insinyur perangkat lunak mengatur jutaan atribut produk yang acak

Sebagian besar debat tentang skalabilitas E-Commerce berputar di sekitar topik seksual: sistem pencarian terdistribusi, manajemen stok langsung, algoritma rekomendasi. Namun di balik itu tersembunyi sebuah masalah yang lebih tenang, tetapi lebih gigih: pengelolaan nilai atribut. Ini adalah gangguan teknis yang ada di setiap toko online besar.

Masalah Diam: Mengapa Nilai Atribut Membuat Semuanya Lebih Rumit

Atribut produk sangat fundamental untuk pengalaman pelanggan. Mereka mendorong filter, perbandingan, dan peringkat pencarian. Secara teori, ini terdengar sederhana. Namun kenyataannya: nilai mentahnya berantakan.

Sebuah ukuran sederhana bisa terlihat seperti: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. Warna? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Material? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.

Dilihat satu per satu, ketidakkonsistenan ini tampak tidak berbahaya. Tapi kalikan dengan lebih dari 3 juta SKU, masing-masing dengan puluhan atribut – masalahnya menjadi sistemik. Filter menjadi tidak dapat diprediksi. Mesin pencari kehilangan relevansi. Pelanggan mengalami pencarian yang lebih lambat dan frustrasi. Dan di backend, anggota tim terjebak dalam pembersihan data manual.

Seorang insinyur perangkat lunak di Zoro menghadapi tantangan ini secara langsung: sebuah masalah yang mudah terabaikan, tetapi mempengaruhi setiap halaman produk.

Jalan Menuju Otomatisasi Cerdas Tanpa Kehilangan Kontrol

Prinsip pertama jelas: Tidak ada AI kotak hitam. Sistem seperti itu sulit dipercaya, sulit debug, dan sulit diskalakan.

Sebagai gantinya, dikembangkan pipeline hibrida yang:

  • tetap dapat dijelaskan
  • berfungsi secara prediktif
  • benar-benar skalabel
  • dapat dikendalikan manusia

Hasilnya menggabungkan pemikiran kontekstual dari model bahasa modern dengan aturan dan kontrol tetap. AI dengan pagar pembatas, bukan AI yang keluar dari kendali.

Gambaran Arsitektur: Bagaimana Semuanya Terhubung

Seluruh proses berjalan dalam pekerjaan latar belakang offline, bukan secara real-time. Ini bukan kompromi – tetapi kebutuhan arsitektural.

Pipeline real-time mungkin terdengar menggoda, tetapi menyebabkan:

  • latensi tak terduga
  • ketergantungan rapuh
  • puncak komputasi mahal
  • kerentanan operasional

Sebaliknya, proses offline memungkinkan:

  • throughput tinggi: data besar tanpa mengganggu sistem langsung
  • ketahanan: kesalahan tidak mempengaruhi lalu lintas pelanggan
  • pengendalian biaya: jadwalkan perhitungan saat trafik rendah
  • isolasi: latensi model bahasa tidak mempengaruhi halaman produk
  • konsistensi: pembaruan atomik dan dapat diprediksi

Arsitektur bekerja sebagai berikut:

  1. Data produk berasal dari sistem PIM
  2. Job ekstraksi menarik nilai mentah dan konteks
  3. Data dikirim ke layanan pengurutan AI
  4. Dokumen yang diperbarui disimpan di MongoDB
  5. Sinkronisasi keluar memperbarui sistem asli
  6. Elasticsearch dan Vespa menyinkronkan data yang diurutkan
  7. API menghubungkan semuanya ke antarmuka pelanggan

Empat Lapisan Solusi

Lapisan 1: Persiapan Data

Sebelum diterapkan kecerdasan, dilakukan langkah preprocessing yang jelas. Trim spasi. Deduplicate nilai. Kontekstualisasi breadcrumb kategori menjadi string terstruktur. Hapus entri kosong.

Ini mungkin terlihat dasar, tetapi sangat meningkatkan performa AI. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar nanti.

Lapisan 2: Pengurutan Cerdas dengan Konteks

Model bahasa bukan sekadar alat pengurutan. Ia memikirkan nilai-nilai tersebut.

Layanan menerima:

  • Nilai atribut yang dibersihkan
  • Metadata kategori
  • Definisi atribut

Dengan konteks ini, model bisa memahami:

  • Bahwa “Spannung” di alat listrik harus numerik
  • Bahwa “Ukuran” di pakaian mengikuti urutan yang dikenal
  • Bahwa “Warna” mungkin mengikuti standar RAL
  • Bahwa “Material” memiliki relasi semantik

Model mengembalikan:

  • Nilai terurut dalam urutan logis
  • Nama atribut yang disempurnakan
  • Keputusan: pengurutan deterministik atau kontekstual

Lapisan 3: Cadangan Deterministik

Tidak semua atribut membutuhkan kecerdasan. Rentang numerik, nilai berbasis satuan, dan kumpulan sederhana mendapatkan manfaat dari:

  • Pemrosesan lebih cepat
  • Output yang dapat diprediksi
  • Biaya lebih rendah
  • Tidak ambigu

Pipeline secara otomatis mengenali kasus ini dan menggunakan logika deterministik. Ini menjaga efisiensi sistem dan menghindari panggilan LLM yang tidak perlu.

Lapisan 4: Overriding Manual

Setiap kategori dapat ditandai sebagai:

  • LLM_SORT: model memutuskan
  • MANUAL_SORT: manusia menentukan urutan

Sistem ganda ini memungkinkan manusia membuat keputusan akhir, sementara kecerdasan mengurus pekerjaan berat. Ini juga membangun kepercayaan – penjual bisa menimpa model kapan saja.

Dari Kekacauan ke Kejelasan: Hasil Praktis

Pipeline mengubah data mentah yang berantakan menjadi:

Atribut Nilai Masukan Output Terurut
Ukuran XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Warna RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020(
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numerik 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Contoh ini menunjukkan bagaimana pemahaman konteks digabungkan dengan aturan yang jelas.

Persistensi dan Kontrol Sepanjang Rantai

Semua hasil langsung disimpan di MongoDB produk. MongoDB menjadi sumber tunggal untuk:

  • Nilai atribut yang diurutkan
  • Nama atribut yang disempurnakan
  • Tag pengurutan kategori
  • Urutan pengurutan produk spesifik

Ini memudahkan pengecekan, penimpaan, pengolahan ulang kategori, dan sinkronisasi dengan sistem lain.

Setelah diurutkan, nilai mengalir ke:

  • Elasticsearch untuk pencarian berbasis kata kunci
  • Vespa untuk pencarian semantik dan vektor

Ini memastikan filter tampil secara logis, halaman produk menampilkan atribut konsisten, dan mesin pencari memberi peringkat produk lebih akurat.

Mengapa Tidak Langsung Real-Time?

Proses real-time akan berarti:

  • Latensi tak terduga saat permintaan langsung
  • Biaya komputasi lebih tinggi untuk hasil instan
  • Ketergantungan rapuh antar sistem
  • Kompleksitas operasional dan risiko error saat trafik tinggi

Sebaliknya, pekerjaan offline menawarkan:

  • Efisiensi skala untuk jutaan produk
  • Panggilan LLM asinkron tanpa mengganggu langsung
  • Logika pengulangan yang tangguh
  • Waktu untuk pengecekan manusia
  • Output perhitungan yang dapat diprediksi

Komprominya adalah sedikit penundaan antara data masuk dan tampil di layar. Keuntungannya adalah konsistensi dalam skala besar – yang jauh lebih dihargai pelanggan.

Dampak Terukur

Solusi ini menghasilkan:

  • Pengurutan atribut yang konsisten di lebih dari 3 juta SKU
  • Urutan numerik yang dapat diprediksi melalui fallback deterministik
  • Kontrol bisnis melalui penandaan manual
  • Halaman produk yang lebih bersih dan filter yang lebih intuitif
  • Relevansi dan peringkat pencarian yang lebih baik
  • Kepercayaan pelanggan yang lebih tinggi dan rasio konversi yang lebih baik

Ini bukan hanya keuntungan teknis – tetapi juga kemenangan pengalaman pengguna dan hasil bisnis.

Pelajaran Utama untuk Insinyur Perangkat Lunak di E-Commerce

  • Pipeline hibrida mengungguli AI murni dalam skala besar. Kecerdasan membutuhkan pagar pembatas.
  • Konteks secara dramatis meningkatkan akurasi model bahasa.
  • Pekerjaan offline penting untuk throughput dan ketahanan.
  • Mekanisme penimpaan manual membangun kepercayaan dan penerimaan.
  • Input bersih adalah fondasi untuk output yang andal.

Kesimpulan

Mengurutkan nilai atribut terdengar sederhana. Tapi jika menyangkut jutaan produk, ini menjadi tantangan nyata.

Dengan menggabungkan kecerdasan model bahasa dengan aturan yang jelas, pemahaman konteks, dan kontrol manusia, masalah kompleks yang tersembunyi diubah menjadi sistem yang bersih dan skalabel.

Ini mengingatkan bahwa beberapa keberhasilan terbesar berasal dari menyelesaikan masalah membosankan – yang mudah terabaikan, tetapi muncul di setiap halaman produk.

VON-3,35%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)