Depuis ses débuts, le marché de l’e-commerce connaît une croissance ininterrompue. Faire de la veille concurrentielle devient donc une tâche de plus en plus complexe, car :

  • Le volume des produits à surveiller est beaucoup plus important.
  • Le taux de rotation des stocks et les changements d’assortiments exposent une quantité de produits à traiter dans des temps de plus en plus limités.
  • La variété des produits, allant de télévision et lave linge, jusqu’aux fruits et légumes, en passant par les produits de la mode, ne cesse de croître.
  • Des nouveaux sites e-commerce apparaissent tous les jours et les enseignes traditionnelles se lancent dans la course de l’e-commerce, avec leur stratégie multicanale associant points de vente physiques et ventes électroniques.

Dans un tel contexte, comment les acteurs de l’e-commerce peuvent-il se positionner face à la concurrence ? Depuis une dizaine d’années, nous accompagnons nos clients avec nos solutions de veille concurrentielle. Toujours reconnus pour la qualité de nos données, nous travaillons sans cesse sur l’innovation de nos outils pour répondre à l’évolution du marché. Avec les dernières avancées dans le domaine du Machine Learning, nous construisons notre nouvelle génération d’algorithmes pour pouvoir couvrir à terme, l’ensemble du marché e-commerce.

Un des défis les plus importants est de pouvoir reconnaître les produits vendus dans chacune des offres. A titre d’exemple, il est facile pour un humain d’identifier qu’une offre intitulée “Apple IPhone 7 256Go noir” correspond à un téléphone de marque Apple, modèle IPhone7, avec 256 Go de capacité de stockage et de couleur Noir. Qu’en est-il pour un ordinateur ? Nous pouvons lui apprendre des règles métier, que la capacité de stockage, la couleur et le modèle du téléphone sont des facteurs clés pour identifier le produit. Mais il faudrait en faire de même pour tous types de produits ! Il faudrait lui apprendre que la longueur, le type du col et le tissu sont des facteurs clés pour identifier des robes. Pour les linges de lit, ça serait plutôt les fils par cm2. Et encore, nous n’avons pas parlé des différents manières de décrire un même produit. En anglais, on peut très bien parler de “running shoes”, “sneakers” ou bien “trainers” pour parler de chaussures de sport.

Vous pouvez donc imaginer qu’à partir de règles métiers décrivant les connaissances de chaque univers de produits, il serait très compliqué de couvrir l’ensemble du marché e-commerce. Il faut donc des algorithmes intelligents capables d’apprendre par eux-même les particularités de tous types de produits.

En se basant sur les informations que nous récupérons sous forme de textes (description, titre, marque, couleur, taille, etc.) et images, nos algorithmes apprennent par eux-même à identifier les produits associés aux offres. En revanche, les algorithmes de machine learning ne “mangent” pas du texte ou des images, ils raffolent des vecteurs ! Il faut bien prémâcher l’information pour obtenir une représentation mathématique des offres, qui contient la sémantique du produit sous la forme de vecteurs.

Toute la puissance de nos algorithmes repose donc sur notre capacité à trouver les meilleures représentations vectorielles des offres. D’un côté, nous implémentons des méthodes de Natural Language Processing (NLP) pour prétraiter et transformer les données textuelles. De l’autre côté, nous implémentons des algorithmes Deep Learning pour encoder les images sous forme de vecteurs des attributs. Nous nous retrouvons donc avec deux représentations mathématiques obtenues indépendamment, à partir du texte et de l’image. Lorsque nous voulons comparer les offres les plus proches, nous fusionnons les deux vecteurs, puis nous cherchons quelles sont les produits avec la représentation vectorielle la plus similaire.

Pour faciliter la tâche et réduire la charge dans la recherche des produits similaires, nous passons par une première étape de classification automatique, de telle sorte que nous comparons ce qui est comparable: chaussures avec des chaussures et télévisions avec des télévisions. D’autant plus, que la catégorisation en soi, nous permet de maintenir un ordre dans notre catalogue !

Puisque la qualité de nos données est notre principale force face à nos clients, nous avons opté pour une démarche de “Active Learning”. Il s’agit d’une méthodologie de travail dans le domaine du machine learning, où les modèles prédictifs interagissent avec des humains, pour valider des actions. Dans un premier temps, toute prédiction doit être validée par un humain et par la suite, nous apprendrons sous quelles conditions nous n’avons pas besoin d’une intervention humaine. Cette démarche nous permet d’automatiser certaines tâches, tout en gardant les tâches à haute valeur ajoutée pour notre équipe de contrôle de qualité.

Voilà un premier aperçu des dernières avancées chez WorkIT . L’incursion dans le monde du Machine Learning est une étape cruciale qui nous permet de rester toujours leader du marché, et pouvoir offrir un catalogue des produits du e-commerce de plus en plus large à nos clients.

Article rédigé par Felipe Aguirre Martinez
Lead Data Scientist chez WorkIT Software – Doctor of Phylosophy (PhD), Computer and Information Sciences