Comercio electrónico a gran escala: Cómo un ingeniero de software ordena millones de atributos de productos caóticos

La mayoría de los debates sobre escalabilidad en comercio electrónico giran en torno a temas sexuales: sistemas de búsqueda distribuidos, gestión en vivo de inventario, algoritmos de recomendación. Pero detrás acecha un problema más silencioso, pero más persistente: la gestión de valores de atributos. Es un ruido técnico presente en cada gran tienda online.

El problema silencioso: por qué los valores de atributos complican todo

Los atributos de producto son fundamentales para la experiencia del cliente. Impulsan filtros, comparaciones y rankings de búsqueda. En teoría, esto suena sencillo. En la realidad, sin embargo: los valores en bruto son caóticos.

Una lista simple podría parecerse a: “XL”, “Small”, “12cm”, “Large”, “M”, “S”. ¿Colores? “RAL 3020”, “Crimson”, “Red”, “Dark Red”. ¿Material? “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel”.

Tomados individualmente, estos inconsistencias parecen inofensivas. Pero multiplicando por más de 3 millones de SKUs, cada uno con decenas de atributos, el problema se vuelve sistémico. Los filtros se comportan de forma impredecible. Los motores de búsqueda pierden relevancia. Los clientes experimentan búsquedas más lentas y frustrantes. Y en el backend, los equipos se ahogan en limpieza manual de datos.

Un ingeniero de software en Zoro enfrentaba exactamente este desafío: un problema fácil de pasar por alto, pero que afectaba cada página de producto.

El camino hacia la automatización inteligente sin perder control

El primer principio fue claro: nada de IA en caja negra. Tales sistemas son difíciles de confiar, depurar o escalar.

En su lugar, se desarrolló una pipeline híbrida que:

  • permanece explicable
  • funciona de forma predecible
  • realmente escala
  • es controlable por humanos

El resultado combinó el pensamiento contextual de modelos de lenguaje modernos con reglas y controles fijos. IA con barreras, no IA fuera de control.

Visión general de la arquitectura: cómo todo se conecta

Todo el procesamiento se realiza en trabajos en segundo plano offline, no en tiempo real. Esto no fue un compromiso, sino una necesidad arquitectónica.

Las pipelines en tiempo real pueden parecer atractivas, pero conducen a:

  • latencias impredecibles
  • dependencias frágiles
  • picos de cálculo costosos
  • fragilidad operativa

El procesamiento offline permite:

  • alto rendimiento: grandes volúmenes de datos sin afectar los sistemas en vivo
  • resistencia: errores que nunca afectan el tráfico de clientes
  • control de costos: planificar cálculos en horarios de baja demanda
  • aislamiento: la latencia de los modelos no afecta las páginas de producto
  • consistencia: actualizaciones atómicas y predecibles

La arquitectura funciona así:

  1. Los datos del producto provienen del sistema PIM
  2. Un trabajo de extracción obtiene valores en bruto y contexto
  3. Esto pasa a un servicio de clasificación AI
  4. Los documentos actualizados se almacenan en MongoDB
  5. La sincronización saliente actualiza el sistema original
  6. Elasticsearch y Vespa sincronizan los datos ordenados
  7. APIs conectan todo con la interfaz del cliente

Las cuatro capas de la solución

Capa 1: Preparación de datos

Antes de aplicar inteligencia, se realiza un paso claro de preprocesamiento. Recortar espacios. Deduplizar valores. Contextualizar breadcrumbs de categoría en cadenas estructuradas. Eliminar entradas vacías.

Puede parecer básico, pero mejoró significativamente el rendimiento de la IA. Basura entra, basura sale: en esta escala, pequeños errores pueden convertirse en grandes problemas más adelante.

Capa 2: Ordenamiento inteligente con contexto

El modelo de lenguaje no era solo una herramienta de ordenamiento. Pensaba sobre los valores.

El servicio recibía:

  • Valores de atributos limpios
  • metadatos de categoría
  • definiciones de atributos

Con este contexto, el modelo podía entender:

  • Que “Spannung” en herramientas eléctricas debería ser numérico
  • Que “Tamaño” en ropa sigue una progresión conocida
  • Que “Color” puede seguir estándares RAL
  • Que “Material” tiene relaciones semánticas

El modelo devolvía:

  • Valores ordenados en secuencia lógica
  • Nombres de atributos refinados
  • Una decisión: ordenamiento determinista o contextual

Capa 3: Fallbacks deterministas

No todos los atributos necesitan inteligencia. Rangos numéricos, valores con unidades y cantidades simples se benefician de:

  • Procesamiento más rápido
  • Salida predecible
  • Menores costos
  • Sin ambigüedad

La pipeline detectaba automáticamente estos casos y usaba lógica determinista. Esto mantenía el sistema eficiente y evitaba llamadas innecesarias a LLM.

Capa 4: Sobrescritura humana

Cada categoría podía etiquetarse como:

  • LLM_SORT: El modelo decide
  • MANUAL_SORT: Humanos definen el orden

Este sistema dual permitía a las personas tomar decisiones finales, mientras la inteligencia se encargaba del trabajo pesado. También generaba confianza: los comerciantes podían sobrescribir el modelo en cualquier momento.

De caos a claridad: resultados prácticos

La pipeline transformó datos en bruto caóticos en:

Atributo Valores de entrada Salida ordenada
Tamaño XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Color RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Estos ejemplos muestran cómo la comprensión del contexto se combina con reglas claras.

Persistencia y control en toda la cadena

Todos los resultados se almacenaron directamente en MongoDB de productos. MongoDB se convirtió en la única fuente de:

  • Valores de atributos ordenados
  • Nombres de atributos refinados
  • Etiquetas de ordenamiento específicas de categoría
  • Secuencias de orden específicas del producto

Esto facilitó revisiones, sobrescrituras, reprocesamiento de categorías y sincronización con otros sistemas.

Tras el ordenamiento, los valores se enviaron a:

  • Elasticsearch para búsqueda basada en palabras clave
  • Vespa para búsqueda semántica y basada en vectores

Esto garantizó que los filtros se mostraran en orden lógico, las páginas de producto mostraran atributos consistentes y los motores de búsqueda clasificaran los productos con mayor precisión.

¿Por qué no usar solo en tiempo real?

El procesamiento en tiempo real significaría:

  • latencias impredecibles en consultas en vivo
  • mayores costos computacionales para resultados inmediatos
  • dependencias frágiles entre sistemas
  • complejidad operativa y potenciales errores en tráfico de clientes

Los trabajos en segundo plano ofrecieron en cambio:

  • eficiencia en escalado a millones de productos
  • llamadas asíncronas a LLM sin afectar en vivo
  • lógica robusta de reintentos
  • ventanas para revisión humana
  • resultados de cálculo predecibles

El compromiso fue una pequeña demora entre captura de datos y visualización. La ventaja fue la consistencia a gran escala, algo que los clientes valoran mucho más.

Impacto medible

La solución entregó:

  • ordenamiento consistente de atributos en más de 3 millones de SKUs
  • orden numérico predecible mediante fallbacks deterministas
  • control comercial mediante etiquetado manual
  • páginas de producto más limpias y filtros más intuitivos
  • mejor relevancia y ranking en búsquedas
  • mayor confianza del cliente y mejores tasas de conversión

No fue solo una mejora técnica: también fue una victoria en experiencia de usuario y resultados comerciales.

Principales aprendizajes para ingenieros de software en e-commerce

  • Las pipelines híbridas superan a la IA pura a gran escala. La inteligencia necesita barreras.
  • El contexto mejora dramáticamente la precisión del modelo de lenguaje.
  • Los trabajos en segundo plano son esenciales para rendimiento y resistencia.
  • Los mecanismos de sobrescritura humana generan confianza y aceptación.
  • Entradas limpias son la base para salidas confiables.

Conclusión

Ordenar valores de atributos parece sencillo. Pero cuando afecta a millones de productos, se vuelve un reto real.

Mediante la combinación de inteligencia de modelos de lenguaje con reglas claras, comprensión del contexto y control humano, se convirtió un problema complejo y oculto en un sistema limpio y escalable.

Es un recordatorio de que algunos de los mayores logros vienen de resolver problemas aburridos — aquellos fáciles de pasar por alto, pero que aparecen en cada página de producto.

VON-5,68%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)