415.tech
シリコンバレー発、AIとテックの最前線
GoogleのDiffusionGemma、並列生成で1,000トークン/秒達成

GoogleのDiffusionGemma、並列生成で1,000トークン/秒達成

Google DeepMindの26B MoEモデル「DiffusionGemma」は、順次ではなく256トークンのブロックを同時に生成し、H100上で1,000トークン/秒超を達成した。スループットが4倍に向上した一方、同社はこれを出力品質が標準のGemma 4を下回る実験的なものと位置付けている。Apache 2.0ライセンスで提供され、量子化により18GBのVRAMに収まる同モデルは、本日vLLM、Hugging Face、MLXのサポートとともにリリースされた。これにより、開発者はコンシューマー向けGPU上で低遅延のインラインエディタやコード補完ツールを構築するための具体的な手段を得ることになる。

出典: blog.google

Xでポストメール

単語を順番に予測する代わりに、256トークンからなる段落全体を同時に作成する。

Google DeepMind

なぜ重要か

  • → Parallel decodingは、ローカル推論におけるGPUの活用不足のボトルネックを排除する。
  • → 消費者向けハードウェアでリアルタイムのインタラクティブツール(code infill、inline editingなど)を可能にする。
  • → デコードの制約をメモリから計算能力へ移行させ、新たなユースケースを切り開く。
並列テキスト生成
このエディションの他の記事