E-Commerce dalam skala besar: Bagaimana seorang insinyur perangkat lunak mengatur jutaan atribut produk yang acak

2026-01-15 22:40:43

Sebagian besar debat tentang skalabilitas E-Commerce berputar di sekitar topik seksual: sistem pencarian terdistribusi, manajemen stok langsung, algoritma rekomendasi. Namun di balik itu tersembunyi sebuah masalah yang lebih tenang, tetapi lebih gigih: pengelolaan nilai atribut. Ini adalah gangguan teknis yang ada di setiap toko online besar.

Masalah Diam: Mengapa Nilai Atribut Membuat Semuanya Lebih Rumit

Atribut produk sangat fundamental untuk pengalaman pelanggan. Mereka mendorong filter, perbandingan, dan peringkat pencarian. Secara teori, ini terdengar sederhana. Namun kenyataannya: nilai mentahnya berantakan.

Sebuah ukuran sederhana bisa terlihat seperti: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. Warna? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Material? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.

Dilihat satu per satu, ketidakkonsistenan ini tampak tidak berbahaya. Tapi kalikan dengan lebih dari 3 juta SKU, masing-masing dengan puluhan atribut – masalahnya menjadi sistemik. Filter menjadi tidak dapat diprediksi. Mesin pencari kehilangan relevansi. Pelanggan mengalami pencarian yang lebih lambat dan frustrasi. Dan di backend, anggota tim terjebak dalam pembersihan data manual.

Seorang insinyur perangkat lunak di Zoro menghadapi tantangan ini secara langsung: sebuah masalah yang mudah terabaikan, tetapi mempengaruhi setiap halaman produk.

Jalan Menuju Otomatisasi Cerdas Tanpa Kehilangan Kontrol

Prinsip pertama jelas: Tidak ada AI kotak hitam. Sistem seperti itu sulit dipercaya, sulit debug, dan sulit diskalakan.

Sebagai gantinya, dikembangkan pipeline hibrida yang:

tetap dapat dijelaskan
berfungsi secara prediktif
benar-benar skalabel
dapat dikendalikan manusia

Hasilnya menggabungkan pemikiran kontekstual dari model bahasa modern dengan aturan dan kontrol tetap. AI dengan pagar pembatas, bukan AI yang keluar dari kendali.

Gambaran Arsitektur: Bagaimana Semuanya Terhubung

Seluruh proses berjalan dalam pekerjaan latar belakang offline, bukan secara real-time. Ini bukan kompromi – tetapi kebutuhan arsitektural.

Pipeline real-time mungkin terdengar menggoda, tetapi menyebabkan:

latensi tak terduga
ketergantungan rapuh
puncak komputasi mahal
kerentanan operasional

Sebaliknya, proses offline memungkinkan:

throughput tinggi: data besar tanpa mengganggu sistem langsung
ketahanan: kesalahan tidak mempengaruhi lalu lintas pelanggan
pengendalian biaya: jadwalkan perhitungan saat trafik rendah
isolasi: latensi model bahasa tidak mempengaruhi halaman produk
konsistensi: pembaruan atomik dan dapat diprediksi

Arsitektur bekerja sebagai berikut:

Data produk berasal dari sistem PIM
Job ekstraksi menarik nilai mentah dan konteks
Data dikirim ke layanan pengurutan AI
Dokumen yang diperbarui disimpan di MongoDB
Sinkronisasi keluar memperbarui sistem asli
Elasticsearch dan Vespa menyinkronkan data yang diurutkan
API menghubungkan semuanya ke antarmuka pelanggan

Empat Lapisan Solusi

Lapisan 1: Persiapan Data

Sebelum diterapkan kecerdasan, dilakukan langkah preprocessing yang jelas. Trim spasi. Deduplicate nilai. Kontekstualisasi breadcrumb kategori menjadi string terstruktur. Hapus entri kosong.

Ini mungkin terlihat dasar, tetapi sangat meningkatkan performa AI. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar nanti.

Lapisan 2: Pengurutan Cerdas dengan Konteks

Model bahasa bukan sekadar alat pengurutan. Ia memikirkan nilai-nilai tersebut.

Layanan menerima:

Nilai atribut yang dibersihkan
Metadata kategori
Definisi atribut

Dengan konteks ini, model bisa memahami:

Bahwa “Spannung” di alat listrik harus numerik
Bahwa “Ukuran” di pakaian mengikuti urutan yang dikenal
Bahwa “Warna” mungkin mengikuti standar RAL
Bahwa “Material” memiliki relasi semantik

Model mengembalikan:

Nilai terurut dalam urutan logis
Nama atribut yang disempurnakan
Keputusan: pengurutan deterministik atau kontekstual

Lapisan 3: Cadangan Deterministik

Tidak semua atribut membutuhkan kecerdasan. Rentang numerik, nilai berbasis satuan, dan kumpulan sederhana mendapatkan manfaat dari:

Pemrosesan lebih cepat
Output yang dapat diprediksi
Biaya lebih rendah
Tidak ambigu

Pipeline secara otomatis mengenali kasus ini dan menggunakan logika deterministik. Ini menjaga efisiensi sistem dan menghindari panggilan LLM yang tidak perlu.

Lapisan 4: Overriding Manual

Setiap kategori dapat ditandai sebagai:

LLM_SORT: model memutuskan
MANUAL_SORT: manusia menentukan urutan

Sistem ganda ini memungkinkan manusia membuat keputusan akhir, sementara kecerdasan mengurus pekerjaan berat. Ini juga membangun kepercayaan – penjual bisa menimpa model kapan saja.

Dari Kekacauan ke Kejelasan: Hasil Praktis

Pipeline mengubah data mentah yang berantakan menjadi:

Atribut	Nilai Masukan	Output Terurut
Ukuran	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Warna	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, RAL 3020(
Material	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Numerik	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Contoh ini menunjukkan bagaimana pemahaman konteks digabungkan dengan aturan yang jelas.

Persistensi dan Kontrol Sepanjang Rantai

Semua hasil langsung disimpan di MongoDB produk. MongoDB menjadi sumber tunggal untuk:

Nilai atribut yang diurutkan
Nama atribut yang disempurnakan
Tag pengurutan kategori
Urutan pengurutan produk spesifik

Ini memudahkan pengecekan, penimpaan, pengolahan ulang kategori, dan sinkronisasi dengan sistem lain.

Setelah diurutkan, nilai mengalir ke:

Elasticsearch untuk pencarian berbasis kata kunci
Vespa untuk pencarian semantik dan vektor

Ini memastikan filter tampil secara logis, halaman produk menampilkan atribut konsisten, dan mesin pencari memberi peringkat produk lebih akurat.

Mengapa Tidak Langsung Real-Time?

Proses real-time akan berarti:

Latensi tak terduga saat permintaan langsung
Biaya komputasi lebih tinggi untuk hasil instan
Ketergantungan rapuh antar sistem
Kompleksitas operasional dan risiko error saat trafik tinggi

Sebaliknya, pekerjaan offline menawarkan:

Efisiensi skala untuk jutaan produk
Panggilan LLM asinkron tanpa mengganggu langsung
Logika pengulangan yang tangguh
Waktu untuk pengecekan manusia
Output perhitungan yang dapat diprediksi

Komprominya adalah sedikit penundaan antara data masuk dan tampil di layar. Keuntungannya adalah konsistensi dalam skala besar – yang jauh lebih dihargai pelanggan.

Dampak Terukur

Solusi ini menghasilkan:

Pengurutan atribut yang konsisten di lebih dari 3 juta SKU
Urutan numerik yang dapat diprediksi melalui fallback deterministik
Kontrol bisnis melalui penandaan manual
Halaman produk yang lebih bersih dan filter yang lebih intuitif
Relevansi dan peringkat pencarian yang lebih baik
Kepercayaan pelanggan yang lebih tinggi dan rasio konversi yang lebih baik

Ini bukan hanya keuntungan teknis – tetapi juga kemenangan pengalaman pengguna dan hasil bisnis.

Pelajaran Utama untuk Insinyur Perangkat Lunak di E-Commerce

Pipeline hibrida mengungguli AI murni dalam skala besar. Kecerdasan membutuhkan pagar pembatas.
Konteks secara dramatis meningkatkan akurasi model bahasa.
Pekerjaan offline penting untuk throughput dan ketahanan.
Mekanisme penimpaan manual membangun kepercayaan dan penerimaan.
Input bersih adalah fondasi untuk output yang andal.

Kesimpulan

Mengurutkan nilai atribut terdengar sederhana. Tapi jika menyangkut jutaan produk, ini menjadi tantangan nyata.

Dengan menggabungkan kecerdasan model bahasa dengan aturan yang jelas, pemahaman konteks, dan kontrol manusia, masalah kompleks yang tersembunyi diubah menjadi sistem yang bersih dan skalabel.

Ini mengingatkan bahwa beberapa keberhasilan terbesar berasal dari menyelesaikan masalah membosankan – yang mudah terabaikan, tetapi muncul di setiap halaman produk.

VON-3,35%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.