Lorsque les gens parlent de la mise à l'échelle du e-commerce, ils se concentrent sur des défis techniques majeurs : la recherche distribuée, l'inventaire en temps réel, les moteurs de recommandation et l'optimisation du processus de paiement. Mais sous tout cela se trouve un problème plus discret et plus persistant auquel presque tous les détaillants sont confrontés : les valeurs des attributs.
Les attributs sont l'épine dorsale de la découverte de produits. Ils alimentent les filtres, les comparaisons, le classement des recherches et la logique de recommandation. Mais dans les catalogues réels, les valeurs d'attributs sont rarement propres. Elles sont incohérentes, dupliquées, mal formatées ou sémantiquement ambiguës.
Prenons quelque chose d'aussi simple que la Taille. Vous pourriez voir :
Code
["XL", "Small", "12cm", "Large", "M", "S"]
Ou la Couleur :
Code
["RAL 3020", "Crimson", "Red", "Dark Red"]
Individuellement, ces incohérences semblent inoffensives. Mais multipliez-les sur plus de 3 millions de SKU, chacun avec des dizaines d'attributs, et le problème devient systémique. Les filtres se comportent de manière imprévisible, les moteurs de recherche perdent en pertinence, les merchandisers se noient dans le nettoyage manuel, et la découverte de produits devient plus lente et plus frustrante pour les clients.
C'était le défi auquel j'ai été confronté en tant qu'ingénieur logiciel full-stack chez Zoro, un problème facile à négliger mais qui affectait chaque page de produit.
Je ne voulais pas d'une boîte noire mystérieuse pilotée par l'IA qui trie simplement les choses. Les systèmes comme celui-là sont difficiles à faire confiance, à déboguer ou à mettre à l'échelle. Au lieu de cela, j'ai visé un pipeline qui était :
Le résultat a été un pipeline d'IA hybride qui combine le raisonnement contextuel des LLM avec des règles claires et des contrôles pour les merchandisers. Il agit intelligemment lorsque nécessaire, mais reste toujours prévisible. C'est de l'IA avec des garde-fous, pas de l'IA hors de contrôle.
Tout le traitement des attributs se produit dans des tâches en arrière-plan hors ligne, pas en temps réel. Ce n'était pas un compromis ; c'était un choix architectural stratégique.
Les pipelines en temps réel semblent attrayants, mais à l'échelle du e-commerce, ils introduisent :
Les tâches hors ligne, en revanche, nous ont donné :
Garder les systèmes destinés aux clients séparés des pipelines de traitement des données est essentiel lorsqu'on travaille avec des millions de SKU.
Avant d'utiliser l'IA sur les données, j'ai exécuté une étape de prétraitement claire pour éliminer le bruit et la confusion. Cette étape peut sembler simple, mais elle a grandement amélioré le raisonnement du LLM.
Le pipeline de nettoyage comprenait :
Cela garantissait que le LLM recevait une entrée propre et claire, ce qui est essentiel pour des résultats cohérents. Garbage in, garbage out. À cette échelle, même de petites erreurs peuvent entraîner de plus gros problèmes plus tard.
Le LLM ne se contentait pas de trier les valeurs par ordre alphabétique. Il raisonnait à leur sujet.
Le service recevait :
Avec ce contexte, le modèle pouvait comprendre :
Le modèle retournait :
Cela permet au pipeline de gérer différents types d'attributs sans coder en dur des règles pour chaque catégorie.
Tous les attributs n'ont pas besoin d'IA.
En fait, de nombreux attributs sont mieux gérés par une logique déterministe.
Les plages numériques, les valeurs basées sur des unités et les ensembles simples bénéficient souvent de :
Le pipeline détectait automatiquement ces cas et utilisait une logique déterministe pour eux. Cela maintenait le système efficace et évitait les appels LLM inutiles.
Les merchandisers avaient toujours besoin de contrôle, en particulier pour les attributs sensibles sur le plan commercial.
Ainsi, chaque catégorie pouvait être étiquetée comme :
Ce système de double étiquetage permet aux personnes de prendre les décisions finales pendant que l'IA faisait la majeure partie du travail. Il a également créé de la confiance, puisque les merchandisers pouvaient remplacer le modèle lorsque nécessaire sans casser le pipeline.
Tous les résultats étaient stockés directement dans une base de données Product MongoDB, ce qui maintenait l'architecture simple et centralisée.
MongoDB est devenu le magasin opérationnel unique pour :
Cela facilitait l'examen des modifications, le remplacement des valeurs, le retraitement des catégories et la synchronisation avec d'autres systèmes.
Une fois triées, les valeurs affluaient vers :
Cela garantissait que :
La recherche est l'endroit où le tri des attributs est le plus visible, et où la cohérence compte le plus.
Pour que cela fonctionne sur des millions de SKU, j'ai conçu un pipeline modulaire construit autour de tâches en arrière-plan, de raisonnement IA et d'intégration de recherche. Le diagramme d'architecture ci-dessous capture le flux complet :
Ce flux garantit que chaque valeur d'attribut, qu'elle soit triée par l'IA ou définie manuellement, se reflète dans la recherche, le merchandising et l'expérience client.
Voici comment les valeurs désordonnées ont été transformées :
| Attribut | Valeurs brutes | Sortie ordonnée | |----|----|----| | Taille | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Couleur | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Matériau | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numérique | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |
Ces exemples montrent comment le pipeline combine le raisonnement contextuel avec des règles claires pour créer des séquences propres et faciles à comprendre.
Le traitement en temps réel aurait introduit :
Les tâches hors ligne nous ont donné :
Le compromis était un léger délai entre l'ingestion des données et l'Affichage, mais l'avantage était la cohérence à grande échelle, que les clients apprécient beaucoup plus.
Les résultats ont été significatifs :
Ce n'était pas seulement une victoire technique ; c'était aussi une victoire pour l'expérience utilisateur et les revenus.
Trier les valeurs d'attributs semble simple, mais cela devient un véritable défi lorsque vous devez le faire pour des millions de produits.
En combinant l'intelligence du LLM avec des règles claires et le contrôle des merchandisers, j'ai transformé un problème complexe et caché en un système propre et évolutif.
C'est un rappel que certaines des plus grandes victoires proviennent de la résolution des problèmes ennuyeux, ceux qui sont faciles à manquer mais qui apparaissent sur chaque page de produit.
\n \n \n

