Cerebras führt AI-Inferenzlösung ein und behauptet, 20-mal schneller als NVIDIA GPU zu sein

Das in Kalifornien ansässige KI-Startup Cerebras hat heute Cerebras Inference eingeführt und behauptet, dies sei die weltweit schnellste KI-Inferenzlösung. In einem Blogbeitrag erklärte Cerebras: „Cerebras Inference liefert 1.800 Token pro Sekunde für Llama3.1 8B und 450 Token pro Sekunde für Llama3.1 70B, was 20-mal schneller ist als NVIDIAs (NVDA-US) GPU-basierte Hyperscale-Cloud.“

Cerebras Inference wird durch die dritte Generation der Wafer-Scale-Engine unterstützt, und das Unternehmen behauptet, dass seine GPU-Lösung zu einem Fünftel der Kosten der Konkurrenz betrieben wird, während gleichzeitig aufgrund der Beseitigung von Speicherbandbreitenengpässen eine höhere Geschwindigkeit erreicht wird. Cerebras erklärte: „Cerebras löst die Speicherbandbreitenengpässe durch den Bau des weltweit größten Chips. Das gesamte Modell wird auf dem Chip gespeichert, wodurch der Bedarf an externem Speicher sowie die langsamen Verbindungen zwischen externem Speicher und Berechnung entfallen.“

Micah Hill-Smith, Mitbegründer und CEO von Artificial Analysis, erklärte, dass Cerebras in den AI-Inferenz-Benchmarks von Artificial Analysis führend sei. „Cerebras bietet für die AI-Modelle Llama 3.1 8B und 70B von Meta eine Geschwindigkeit, die um eine Größenordnung schneller ist als GPU-basierte Lösungen. Wir haben bei Llama 3.1 8B eine Geschwindigkeit von über 1.800 Token pro Sekunde und bei Llama 3.1 70B eine Geschwindigkeit von über 446 Token pro Sekunde gemessen.“

Cerebras hat Anfang dieses Monats einen Antrag auf Börsengang eingereicht und wird voraussichtlich in der zweiten Jahreshälfte an die Börse gehen.