
GoogleのDiffusionGemma、並列生成で1,000トークン/秒達成
Google DeepMindの26B MoEモデル「DiffusionGemma」は、順次ではなく256トークンのブロックを同時に生成し、H100上で1,000トークン/秒超を達成した。スループットが4倍に向上した一方、同社はこれを出力品質が標準のGemma 4を下回る実験的なものと位置付けている。Apache 2.0ライセンスで提供され、量子化により18GBのVRAMに収まる同モデルは、本日vLLM、Hugging Face、MLXのサポートとともにリリースされた。これにより、開発者はコンシューマー向けGPU上で低遅延のインラインエディタやコード補完ツールを構築するための具体的な手段を得ることになる。
出典: blog.google ↗
単語を順番に予測する代わりに、256トークンからなる段落全体を同時に作成する。
Google DeepMind
なぜ重要か
- → Parallel decodingは、ローカル推論におけるGPUの活用不足のボトルネックを排除する。
- → 消費者向けハードウェアでリアルタイムのインタラクティブツール(code infill、inline editingなど)を可能にする。
- → デコードの制約をメモリから計算能力へ移行させ、新たなユースケースを切り開く。
並列テキスト生成