Lightbits, innovation dans l'efficacité de l'inférence AI pour réduire les coûts du cloud

TechubNews · 2026-03-11T15:36:34+00:00

Lightbits Labs a publié une nouvelle architecture pour résoudre le problème du goulot d'étranglement de la mémoire dans l'inférence AI, optimiser l'utilisation du GPU et réduire les coûts de traitement. Son "Cache KV" réutilise les résultats intermédiaires pour réduire les calculs inutiles. Le nouveau système peut accélérer le déplacement des données, assurer le bon fonctionnement du GPU, et prévoit un déploiement en collaboration avec NeoCloud.

TechubNews

2026-03-11 15:36:34

Création du résumé en cours

Les progrès de l’industrie technologique s’accélèrent grâce à l’innovation dans le domaine de l’intelligence artificielle (IA). Lightbits Labs a récemment lancé une nouvelle architecture visant à résoudre le problème du goulot d’étranglement de la mémoire lors de l’inférence à grande échelle. Développée en collaboration avec ScaleFlux et FarmGPU, cette architecture combine une mémoire non volatile à stockage rapide, une infrastructure d’inférence GPU et le logiciel de Lightbits, aidant ainsi les systèmes d’IA à gérer plus efficacement le cache de données généré lors de l’inférence.

Dans un contexte où les opérateurs cloud ressentent la pression des coûts lors du traitement des tâches d’inférence, cette annonce est une bonne nouvelle. Le coût élevé des GPU représente une part importante des dépenses opérationnelles. Pour améliorer cette situation, Lightbits a fixé comme objectif d’optimiser l’utilisation des GPU.

La nouvelle plateforme de Lightbits augmente le nombre de requêtes qu’un seul GPU peut traiter, améliorant ainsi l’efficacité de l’inférence. Cela se traduit directement par une réduction du coût par traitement. Selon les résultats de tests, Lightbits a réussi à tripler le nombre de requêtes traitées sur le même GPU tout en réduisant de 65 % les coûts énergétiques et d’infrastructure.

La clé de cette solution réside dans le “cache KV”. Ce cache stocke les vecteurs intermédiaires générés lors de l’inférence, évitant ainsi des calculs inutiles en réutilisant les résultats précédents. Cependant, avec l’augmentation de la taille des modèles, la capacité du cache doit également croître rapidement. La demande en mémoire double chaque année, ce qui nécessite des efforts conjoints pour résoudre ce problème à long terme. À cette fin, Lightbits a introduit une méthode innovante qui prévoit le déplacement des données et fournit à l’avance les informations nécessaires au GPU.

Le système LightInferra gère et accélère le déplacement des données entre les niveaux de mémoire, garantissant que le GPU n’ait pas à attendre les données. Il permet de maintenir un flux d’inférence fluide sans dépasser la capacité de mémoire du GPU. Les fournisseurs de services cloud peuvent ainsi optimiser l’utilisation des GPU ou augmenter la capacité globale de traitement avec leur infrastructure existante. Ce cadre est en partenariat avec NeoCloud et prévoit une mise en production à partir de juillet.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.