Cerebras推出AI推理解決方案 號稱比NVIDIA GPU快20倍

總部位於加州的人工智慧新創公司 Cerebras 今天推出了 Cerebras Inference,聲稱這是世界上最快的人工智慧推理解決方案。

Cerebras 在Blog文章中表示:「Cerebras Inference 為 Llama3.1 8B 提供每秒 1800 個 token ,為 Llama3.1 70B 提供每秒 450 個 token ,這比 NVIDIA (NVDA-US) 基於 GPU 的超大規模雲端快 20 倍。」

Cerebras Inference 由第三代晶圓級引擎提供支援,公司聲稱其 GPU 解決方案的運行價格,是競爭對手的五分之一,同時由於消除了記憶體頻寬障礙,而獲得了更高的速度。

Cerebras 表示:「Cerebras 透過構建世界上最大的晶片。並將整個模型存儲在晶片上,解決了記憶體頻寬瓶頸。」 「憑藉我們獨特的晶圓級設計,我們能夠在單個晶片上集成 44GB SRAM,從而消除了對外部記憶體以及連接外部記憶體與計算的慢速通道的需求。」

Artificial Analysis 共同創辦人兼執行長 Micah Hill-Smith 表示,Cerebras 在 Artificial Analysis 的人工智慧推理基準測試中處於領先地位。 「Cerebras 為 Meta 的 Llama 3.1 8B 和 70B AI 模型提供的速度比基於 GPU 的解決方案快了一個數量級。我們在 Llama 3.1 8B 上測量了每秒超過 1,800 個 token 的速度,在 Llama 3.1 上測量了每秒超過 446 個 token 的速度。」

Cerebras 本月稍早申請首次公開募股,預計今年下半年上市。