Cerebras、AI推論ソリューションを発表 NVIDIA GPUの20倍速いと主張

カリフォルニア州に本拠を置くAIスタートアップ企業Cerebrasは本日、世界最速のAI推論ソリューションとされるCerebras Inferenceを発表しました。Cerebrasはブログ記事で「Cerebras InferenceはLlama3.1 8Bに対して毎秒1800トークン、Llama3.1 70Bに対して毎秒450トークンを提供し、これはNVIDIA(NVDA-US)のGPUベースのハイパースケールクラウドよりも20倍速いです」と述べています。

Cerebras Inferenceは第3世代ウエハースケールエンジンによってサポートされており、同社は競合他社の5分の1のコストで動作するGPUソリューションであり、メモリ帯域幅のボトルネックを排除することでより高い速度を達成したと主張しています。Cerebrasは「Cerebrasは世界最大のチップを構築し、チップ上に全モデルを格納することでメモリ帯域幅の制限を解決しました。これにより、外部メモリと計算を接続する遅いパスの必要性がなくなりました」と述べました。

Artificial Analysisの共同創業者兼CEOであるMicah Hill-Smith氏は、CerebrasがArtificial AnalysisのAI推論ベンチマークでリードしていると述べました。「CerebrasはMetaのLlama 3.1 8Bおよび70B AIモデルに対して、GPUベースのソリューションよりも桁違いに速い速度を提供します。私たちはLlama 3.1 8Bで毎秒1800以上のトークンスピードを、Llama 3.1 70Bで毎秒446以上のトークンスピードを測定しました。」

Cerebrasは今月初めにIPOを申請しており、今年後半に上場予定です。