캘리포니아에 본사를 둔 AI 스타트업 Cerebras는 오늘 세계에서 가장 빠른 AI 추론 솔루션이라고 주장하는 Cerebras Inference를 출시했습니다. Cerebras는 블로그 게시물에서 “Cerebras Inference는 Llama3.1 8B에 대해 초당 1,800개의 토큰을 제공하며, Llama3.1 70B에 대해 초당 450개의 토큰을 제공합니다. 이는 NVIDIA(NVDA-US)의 GPU 기반 초대형 클라우드보다 20배 빠릅니다.”라고 밝혔습니다.
Cerebras Inference는 3세대 웨이퍼 스케일 엔진(Wafer-Scale Engine)에 의해 지원되며, Cerebras는 자사의 GPU 솔루션이 경쟁업체보다 5분의 1 가격으로 작동하며, 메모리 대역폭 병목현상을 제거하여 더 높은 속도를 달성한다고 주장합니다. Cerebras는 "Cerebras는 세계에서 가장 큰 칩을 구축하고 전체 모델을 칩에 저장하여 메모리 대역폭 병목현상을 해결했습니다. 이를 통해 외부 메모리 및 외부 메모리와 계산을 연결하는 느린 경로의 필요성을 제거했습니다."라고 밝혔습니다.
Artificial Analysis의 공동 창립자 겸 CEO인 Micah Hill-Smith는 Cerebras가 Artificial Analysis의 AI 추론 벤치마크에서 선두를 달리고 있다고 말했습니다. "Cerebras는 Meta의 Llama 3.1 8B 및 70B AI 모델에 대해 GPU 기반 솔루션보다 한 차원 빠른 속도를 제공합니다. 우리는 Llama 3.1 8B에서 초당 1,800개 이상의 토큰 속도를, Llama 3.1 70B에서 초당 446개 이상의 토큰 속도를 측정했습니다."
Cerebras는 이번 달 초에 IPO를 신청했으며, 올해 하반기에 상장될 예정입니다.