Sebagian besar debat tentang skalabilitas E-Commerce berputar di sekitar topik seksual: sistem pencarian terdistribusi, manajemen stok langsung, algoritma rekomendasi. Namun di balik itu tersembunyi sebuah masalah yang lebih tenang, tetapi lebih gigih: pengelolaan nilai atribut. Ini adalah gangguan teknis yang ada di setiap toko online besar.
Masalah Diam: Mengapa Nilai Atribut Membuat Semuanya Lebih Rumit
Atribut produk sangat fundamental untuk pengalaman pelanggan. Mereka mendorong filter, perbandingan, dan peringkat pencarian. Secara teori, ini terdengar sederhana. Namun kenyataannya: nilai mentahnya berantakan.
Sebuah ukuran sederhana bisa terlihat seperti: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. Warna? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Material? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.
Dilihat satu per satu, ketidakkonsistenan ini tampak tidak berbahaya. Tapi kalikan dengan lebih dari 3 juta SKU, masing-masing dengan puluhan atribut – masalahnya menjadi sistemik. Filter menjadi tidak dapat diprediksi. Mesin pencari kehilangan relevansi. Pelanggan mengalami pencarian yang lebih lambat dan frustrasi. Dan di backend, anggota tim terjebak dalam pembersihan data manual.
Seorang insinyur perangkat lunak di Zoro menghadapi tantangan ini secara langsung: sebuah masalah yang mudah terabaikan, tetapi mempengaruhi setiap halaman produk.
Jalan Menuju Otomatisasi Cerdas Tanpa Kehilangan Kontrol
Prinsip pertama jelas: Tidak ada AI kotak hitam. Sistem seperti itu sulit dipercaya, sulit debug, dan sulit diskalakan.
Sebagai gantinya, dikembangkan pipeline hibrida yang:
tetap dapat dijelaskan
berfungsi secara prediktif
benar-benar skalabel
dapat dikendalikan manusia
Hasilnya menggabungkan pemikiran kontekstual dari model bahasa modern dengan aturan dan kontrol tetap. AI dengan pagar pembatas, bukan AI yang keluar dari kendali.
Gambaran Arsitektur: Bagaimana Semuanya Terhubung
Seluruh proses berjalan dalam pekerjaan latar belakang offline, bukan secara real-time. Ini bukan kompromi – tetapi kebutuhan arsitektural.
Pipeline real-time mungkin terdengar menggoda, tetapi menyebabkan:
latensi tak terduga
ketergantungan rapuh
puncak komputasi mahal
kerentanan operasional
Sebaliknya, proses offline memungkinkan:
throughput tinggi: data besar tanpa mengganggu sistem langsung
ketahanan: kesalahan tidak mempengaruhi lalu lintas pelanggan
pengendalian biaya: jadwalkan perhitungan saat trafik rendah
isolasi: latensi model bahasa tidak mempengaruhi halaman produk
konsistensi: pembaruan atomik dan dapat diprediksi
Arsitektur bekerja sebagai berikut:
Data produk berasal dari sistem PIM
Job ekstraksi menarik nilai mentah dan konteks
Data dikirim ke layanan pengurutan AI
Dokumen yang diperbarui disimpan di MongoDB
Sinkronisasi keluar memperbarui sistem asli
Elasticsearch dan Vespa menyinkronkan data yang diurutkan
API menghubungkan semuanya ke antarmuka pelanggan
Empat Lapisan Solusi
Lapisan 1: Persiapan Data
Sebelum diterapkan kecerdasan, dilakukan langkah preprocessing yang jelas. Trim spasi. Deduplicate nilai. Kontekstualisasi breadcrumb kategori menjadi string terstruktur. Hapus entri kosong.
Ini mungkin terlihat dasar, tetapi sangat meningkatkan performa AI. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar nanti.
Lapisan 2: Pengurutan Cerdas dengan Konteks
Model bahasa bukan sekadar alat pengurutan. Ia memikirkan nilai-nilai tersebut.
Layanan menerima:
Nilai atribut yang dibersihkan
Metadata kategori
Definisi atribut
Dengan konteks ini, model bisa memahami:
Bahwa “Spannung” di alat listrik harus numerik
Bahwa “Ukuran” di pakaian mengikuti urutan yang dikenal
Bahwa “Warna” mungkin mengikuti standar RAL
Bahwa “Material” memiliki relasi semantik
Model mengembalikan:
Nilai terurut dalam urutan logis
Nama atribut yang disempurnakan
Keputusan: pengurutan deterministik atau kontekstual
Lapisan 3: Cadangan Deterministik
Tidak semua atribut membutuhkan kecerdasan. Rentang numerik, nilai berbasis satuan, dan kumpulan sederhana mendapatkan manfaat dari:
Pemrosesan lebih cepat
Output yang dapat diprediksi
Biaya lebih rendah
Tidak ambigu
Pipeline secara otomatis mengenali kasus ini dan menggunakan logika deterministik. Ini menjaga efisiensi sistem dan menghindari panggilan LLM yang tidak perlu.
Lapisan 4: Overriding Manual
Setiap kategori dapat ditandai sebagai:
LLM_SORT: model memutuskan
MANUAL_SORT: manusia menentukan urutan
Sistem ganda ini memungkinkan manusia membuat keputusan akhir, sementara kecerdasan mengurus pekerjaan berat. Ini juga membangun kepercayaan – penjual bisa menimpa model kapan saja.
Dari Kekacauan ke Kejelasan: Hasil Praktis
Pipeline mengubah data mentah yang berantakan menjadi:
Atribut
Nilai Masukan
Output Terurut
Ukuran
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Warna
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020(
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numerik
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Contoh ini menunjukkan bagaimana pemahaman konteks digabungkan dengan aturan yang jelas.
Persistensi dan Kontrol Sepanjang Rantai
Semua hasil langsung disimpan di MongoDB produk. MongoDB menjadi sumber tunggal untuk:
Nilai atribut yang diurutkan
Nama atribut yang disempurnakan
Tag pengurutan kategori
Urutan pengurutan produk spesifik
Ini memudahkan pengecekan, penimpaan, pengolahan ulang kategori, dan sinkronisasi dengan sistem lain.
Setelah diurutkan, nilai mengalir ke:
Elasticsearch untuk pencarian berbasis kata kunci
Vespa untuk pencarian semantik dan vektor
Ini memastikan filter tampil secara logis, halaman produk menampilkan atribut konsisten, dan mesin pencari memberi peringkat produk lebih akurat.
Mengapa Tidak Langsung Real-Time?
Proses real-time akan berarti:
Latensi tak terduga saat permintaan langsung
Biaya komputasi lebih tinggi untuk hasil instan
Ketergantungan rapuh antar sistem
Kompleksitas operasional dan risiko error saat trafik tinggi
Sebaliknya, pekerjaan offline menawarkan:
Efisiensi skala untuk jutaan produk
Panggilan LLM asinkron tanpa mengganggu langsung
Logika pengulangan yang tangguh
Waktu untuk pengecekan manusia
Output perhitungan yang dapat diprediksi
Komprominya adalah sedikit penundaan antara data masuk dan tampil di layar. Keuntungannya adalah konsistensi dalam skala besar – yang jauh lebih dihargai pelanggan.
Dampak Terukur
Solusi ini menghasilkan:
Pengurutan atribut yang konsisten di lebih dari 3 juta SKU
Urutan numerik yang dapat diprediksi melalui fallback deterministik
Kontrol bisnis melalui penandaan manual
Halaman produk yang lebih bersih dan filter yang lebih intuitif
Relevansi dan peringkat pencarian yang lebih baik
Kepercayaan pelanggan yang lebih tinggi dan rasio konversi yang lebih baik
Ini bukan hanya keuntungan teknis – tetapi juga kemenangan pengalaman pengguna dan hasil bisnis.
Pelajaran Utama untuk Insinyur Perangkat Lunak di E-Commerce
Pipeline hibrida mengungguli AI murni dalam skala besar. Kecerdasan membutuhkan pagar pembatas.
Konteks secara dramatis meningkatkan akurasi model bahasa.
Pekerjaan offline penting untuk throughput dan ketahanan.
Mekanisme penimpaan manual membangun kepercayaan dan penerimaan.
Input bersih adalah fondasi untuk output yang andal.
Kesimpulan
Mengurutkan nilai atribut terdengar sederhana. Tapi jika menyangkut jutaan produk, ini menjadi tantangan nyata.
Dengan menggabungkan kecerdasan model bahasa dengan aturan yang jelas, pemahaman konteks, dan kontrol manusia, masalah kompleks yang tersembunyi diubah menjadi sistem yang bersih dan skalabel.
Ini mengingatkan bahwa beberapa keberhasilan terbesar berasal dari menyelesaikan masalah membosankan – yang mudah terabaikan, tetapi muncul di setiap halaman produk.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
E-Commerce dalam skala besar: Bagaimana seorang insinyur perangkat lunak mengatur jutaan atribut produk yang acak
Sebagian besar debat tentang skalabilitas E-Commerce berputar di sekitar topik seksual: sistem pencarian terdistribusi, manajemen stok langsung, algoritma rekomendasi. Namun di balik itu tersembunyi sebuah masalah yang lebih tenang, tetapi lebih gigih: pengelolaan nilai atribut. Ini adalah gangguan teknis yang ada di setiap toko online besar.
Masalah Diam: Mengapa Nilai Atribut Membuat Semuanya Lebih Rumit
Atribut produk sangat fundamental untuk pengalaman pelanggan. Mereka mendorong filter, perbandingan, dan peringkat pencarian. Secara teori, ini terdengar sederhana. Namun kenyataannya: nilai mentahnya berantakan.
Sebuah ukuran sederhana bisa terlihat seperti: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. Warna? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. Material? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.
Dilihat satu per satu, ketidakkonsistenan ini tampak tidak berbahaya. Tapi kalikan dengan lebih dari 3 juta SKU, masing-masing dengan puluhan atribut – masalahnya menjadi sistemik. Filter menjadi tidak dapat diprediksi. Mesin pencari kehilangan relevansi. Pelanggan mengalami pencarian yang lebih lambat dan frustrasi. Dan di backend, anggota tim terjebak dalam pembersihan data manual.
Seorang insinyur perangkat lunak di Zoro menghadapi tantangan ini secara langsung: sebuah masalah yang mudah terabaikan, tetapi mempengaruhi setiap halaman produk.
Jalan Menuju Otomatisasi Cerdas Tanpa Kehilangan Kontrol
Prinsip pertama jelas: Tidak ada AI kotak hitam. Sistem seperti itu sulit dipercaya, sulit debug, dan sulit diskalakan.
Sebagai gantinya, dikembangkan pipeline hibrida yang:
Hasilnya menggabungkan pemikiran kontekstual dari model bahasa modern dengan aturan dan kontrol tetap. AI dengan pagar pembatas, bukan AI yang keluar dari kendali.
Gambaran Arsitektur: Bagaimana Semuanya Terhubung
Seluruh proses berjalan dalam pekerjaan latar belakang offline, bukan secara real-time. Ini bukan kompromi – tetapi kebutuhan arsitektural.
Pipeline real-time mungkin terdengar menggoda, tetapi menyebabkan:
Sebaliknya, proses offline memungkinkan:
Arsitektur bekerja sebagai berikut:
Empat Lapisan Solusi
Lapisan 1: Persiapan Data
Sebelum diterapkan kecerdasan, dilakukan langkah preprocessing yang jelas. Trim spasi. Deduplicate nilai. Kontekstualisasi breadcrumb kategori menjadi string terstruktur. Hapus entri kosong.
Ini mungkin terlihat dasar, tetapi sangat meningkatkan performa AI. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar nanti.
Lapisan 2: Pengurutan Cerdas dengan Konteks
Model bahasa bukan sekadar alat pengurutan. Ia memikirkan nilai-nilai tersebut.
Layanan menerima:
Dengan konteks ini, model bisa memahami:
Model mengembalikan:
Lapisan 3: Cadangan Deterministik
Tidak semua atribut membutuhkan kecerdasan. Rentang numerik, nilai berbasis satuan, dan kumpulan sederhana mendapatkan manfaat dari:
Pipeline secara otomatis mengenali kasus ini dan menggunakan logika deterministik. Ini menjaga efisiensi sistem dan menghindari panggilan LLM yang tidak perlu.
Lapisan 4: Overriding Manual
Setiap kategori dapat ditandai sebagai:
Sistem ganda ini memungkinkan manusia membuat keputusan akhir, sementara kecerdasan mengurus pekerjaan berat. Ini juga membangun kepercayaan – penjual bisa menimpa model kapan saja.
Dari Kekacauan ke Kejelasan: Hasil Praktis
Pipeline mengubah data mentah yang berantakan menjadi:
Contoh ini menunjukkan bagaimana pemahaman konteks digabungkan dengan aturan yang jelas.
Persistensi dan Kontrol Sepanjang Rantai
Semua hasil langsung disimpan di MongoDB produk. MongoDB menjadi sumber tunggal untuk:
Ini memudahkan pengecekan, penimpaan, pengolahan ulang kategori, dan sinkronisasi dengan sistem lain.
Setelah diurutkan, nilai mengalir ke:
Ini memastikan filter tampil secara logis, halaman produk menampilkan atribut konsisten, dan mesin pencari memberi peringkat produk lebih akurat.
Mengapa Tidak Langsung Real-Time?
Proses real-time akan berarti:
Sebaliknya, pekerjaan offline menawarkan:
Komprominya adalah sedikit penundaan antara data masuk dan tampil di layar. Keuntungannya adalah konsistensi dalam skala besar – yang jauh lebih dihargai pelanggan.
Dampak Terukur
Solusi ini menghasilkan:
Ini bukan hanya keuntungan teknis – tetapi juga kemenangan pengalaman pengguna dan hasil bisnis.
Pelajaran Utama untuk Insinyur Perangkat Lunak di E-Commerce
Kesimpulan
Mengurutkan nilai atribut terdengar sederhana. Tapi jika menyangkut jutaan produk, ini menjadi tantangan nyata.
Dengan menggabungkan kecerdasan model bahasa dengan aturan yang jelas, pemahaman konteks, dan kontrol manusia, masalah kompleks yang tersembunyi diubah menjadi sistem yang bersih dan skalabel.
Ini mengingatkan bahwa beberapa keberhasilan terbesar berasal dari menyelesaikan masalah membosankan – yang mudah terabaikan, tetapi muncul di setiap halaman produk.