GoogleのDiffusionGemma、並列生成で1,000トークン/秒達成

Google DeepMindの26B MoEモデル「DiffusionGemma」は、順次ではなく256トークンのブロックを同時に生成し、H100上で1,000トークン/秒超を達成した。スループットが4倍に向上した一方、同社はこれを出力品質が標準のGemma 4を下回る実験的なものと位置付けている。Apache 2.0ライセンスで提供され、量子化により18GBのVRAMに収まる同モデルは、本日vLLM、Hugging Face、MLXのサポートとともにリリースされた。これにより、開発者はコンシューマー向けGPU上で低遅延のインラインエディタやコード補完ツールを構築するための具体的な手段を得ることになる。