La startup californienne spécialisée en intelligence artificielle, Cerebras, a lancé aujourd'hui Cerebras Inference, prétendant qu'il s'agit de la solution d'inférence IA la plus rapide au monde. Dans un article de blog, Cerebras a déclaré : « Cerebras Inference fournit 1 800 tokens par seconde pour Llama3.1 8B et 450 tokens par seconde pour Llama3.1 70B, ce qui est 20 fois plus rapide que le cloud hyperscale basé sur GPU de NVIDIA (NVDA-US). »
Cerebras Inference est alimenté par le moteur de troisième génération à échelle de plaquette, l'entreprise affirmant que sa solution GPU fonctionne à un cinquième du coût de ses concurrents, atteignant des vitesses plus élevées en éliminant les goulots d'étranglement de la bande passante mémoire. Cerebras a précisé : « Cerebras résout les limitations de la bande passante mémoire en construisant la plus grande puce au monde et en stockant l'intégralité du modèle sur la puce, éliminant ainsi le besoin de mémoire externe et des voies lentes connectant la mémoire externe au calcul. »
Micah Hill-Smith, cofondateur et PDG d'Artificial Analysis, a déclaré que Cerebras est en tête des benchmarks d'inférence IA chez Artificial Analysis. « Cerebras offre des vitesses d'un ordre de grandeur plus rapide que les solutions basées sur GPU pour les modèles IA Llama 3.1 8B et 70B de Meta. Nous avons mesuré des vitesses dépassant 1 800 tokens par seconde sur Llama 3.1 8B et plus de 446 tokens par seconde sur Llama 3.1 70B. »
Cerebras a déposé une demande d'introduction en bourse plus tôt ce mois-ci et devrait entrer en bourse au second semestre de cette année.