Cerebras lanza una solución de inferencia de IA y afirma ser 20 veces más rápida que la GPU de NVIDIA

La empresa emergente de inteligencia artificial con sede en California, Cerebras, lanzó hoy Cerebras Inference, afirmando que es la solución de inferencia de IA más rápida del mundo. En un artículo de blog, Cerebras declaró: "Cerebras Inference proporciona 1.800 tokens por segundo para Llama3.1 8B y 450 tokens por segundo para Llama3.1 70B, lo que es 20 veces más rápido que la nube de hiperescala basada en GPU de NVIDIA (NVDA-US)".

Cerebras Inference está respaldada por la tercera generación de su motor a escala de oblea, y la compañía afirma que su solución de GPU opera a un quinto del costo de sus competidores, logrando una mayor velocidad al eliminar los cuellos de botella en el ancho de banda de la memoria. Cerebras explicó: "Cerebras resuelve las limitaciones del ancho de banda de la memoria construyendo el chip más grande del mundo y almacenando todo el modelo en el chip, eliminando así la necesidad de memoria externa y los canales lentos que conectan la memoria externa con el cálculo".

Micah Hill-Smith, cofundador y CEO de Artificial Analysis, declaró que Cerebras lidera las pruebas de referencia de inferencia de IA de Artificial Analysis. "Cerebras ofrece velocidades de un orden de magnitud más rápido que las soluciones basadas en GPU para los modelos de IA Llama 3.1 8B y 70B de Meta. Medimos velocidades superiores a 1.800 tokens por segundo en Llama 3.1 8B y más de 446 tokens por segundo en Llama 3.1 70B".

Cerebras presentó una solicitud de oferta pública inicial a principios de este mes y se espera que salga a bolsa en la segunda mitad de este año.