总部位于加州的人工智能新创公司 Cerebras 今天推出了 Cerebras Inference,声称这是世界上最快的人工智能推理解决方案。
Cerebras 在Blog文章中表示:「Cerebras Inference 为 Llama3.1 8B 提供每秒 1800 个 token ,为 Llama3.1 70B 提供每秒 450 个 token ,这比 NVIDIA (NVDA-US) 基于 GPU 的超大规模云端快 20 倍。」
Cerebras Inference 由第三代晶圆级引擎提供支援,公司声称其 GPU 解决方案的运行价格,是竞争对手的五分之一,同时由于消除了存储器频宽障碍,而获得了更高的速度。
Cerebras 表示:「Cerebras 透过构建世界上最大的芯片。并将整个模型存储在芯片上,解决了存储器频宽瓶颈。」 「凭借我们独特的晶圆级设计,我们能够在单个芯片上集成 44GB SRAM,从而消除了对外部存储器以及连接外部存储器与计算的慢速通道的需求。」
Artificial Analysis 共同创办人兼执行长 Micah Hill-Smith 表示,Cerebras 在 Artificial Analysis 的人工智能推理基准测试中处于领先地位。 「Cerebras 为 Meta 的 Llama 3.1 8B 和 70B AI 模型提供的速度比基于 GPU 的解决方案快了一个数量级。我们在 Llama 3.1 8B 上测量了每秒超过 1,800 个 token 的速度,在 Llama 3.1 上测量了每秒超过 446 个 token 的速度。」
Cerebras 本月稍早申请首次公开募股,预计今年下半年上市。