Google представила DiffusionGemma с генерацией текста в четыре раза быстрее традиционных ИИ-моделей

Google представила экспериментальную языковую модель DiffusionGemma, которая использует принцип диффузии для генерации текста вместо традиционного авторегрессионного подхода, применяемого большинством современных больших языковых моделей. По заявлению компании, новая разработка способна обеспечивать генерацию текста до четырех раз быстрее на специализированных графических процессорах и при этом работать на потребительском оборудовании.
DiffusionGemma основана на семействе моделей Gemma 4 и результатах исследований Gemini Diffusion. В отличие от классических языковых моделей, которые создают текст последовательно — токен за токеном слева направо, — новая система формирует и совершенствует целые блоки текста параллельно.
По данным Google, модель способна генерировать более 1000 токенов в секунду на графическом ускорителе NVIDIA H100 и свыше 700 токенов в секунду на потребительской видеокарте NVIDIA GeForce RTX 5090.
Разработчики отмечают, что DiffusionGemma ориентирована прежде всего на сценарии, где критически важна скорость отклика. Среди потенциальных областей применения называются интерактивное редактирование текстов, быстрое создание и переработка контента, дополнение программного кода и другие задачи, в которых низкая задержка важнее максимально высокого качества итогового результата.
Традиционные большие языковые модели работают по последовательному принципу, предсказывая каждый следующий токен отдельно. Несмотря на эффективность такого подхода, при обслуживании одного пользователя вычислительные ресурсы локального оборудования зачастую используются не полностью.
DiffusionGemma решает эту проблему иначе. Вместо поэтапного создания текста модель сразу генерирует блок размером 256 токенов, после чего многократно уточняет его в ходе нескольких проходов обработки. В Google сравнивают этот переход с заменой пишущей машинки на печатный станок: вместо ожидания создания каждого отдельного элемента система обрабатывает целый фрагмент текста одновременно.
По словам представителей компании, такой подход переносит основное ограничение производительности с пропускной способности памяти на вычислительные мощности графического процессора. Это позволяет современным GPU значительно эффективнее использовать свои ресурсы при локальном запуске модели.
Еще одной важной особенностью DiffusionGemma стала двунаправленная система внимания. Поскольку текст генерируется параллельно, каждый токен может учитывать информацию от всех остальных токенов одновременно. Благодаря этому модель лучше подходит для задач, в которых важен будущий контекст. Речь идет о завершении программного кода, редактировании текста непосредственно внутри документа, работе с математическими структурами и анализе биологических последовательностей.
В качестве демонстрации возможностей технологии Google привела пример, в котором DiffusionGemma была дообучена для решения судоку. Такие задачи могут представлять трудность для обычных авторегрессионных моделей, поскольку решения, принимаемые в более поздних частях последовательности, способны влиять на корректность более ранних элементов.
Архитектура модели представляет собой систему типа Mixture of Experts («смесь экспертов») с общим числом параметров 26 миллиардов. Однако во время выполнения активируется только 3,8 миллиарда параметров. По оценкам Google, после квантования модель может размещаться примерно в 18 ГБ видеопамяти, что делает ее доступной для запуска на производительных потребительских видеокартах.
Разработчики также встроили в DiffusionGemma механизм итеративной самокоррекции. Поскольку модель анализирует весь текстовый блок в процессе его последовательного уточнения, она способна выявлять и исправлять собственные ошибки непосредственно во время генерации.
В то же время в Google признают, что при разработке модели приоритетом стала скорость работы, а не максимальное качество текста. Компания отмечает, что стандартные модели Gemma 4 по-прежнему остаются предпочтительным вариантом для производственных сред, где ключевым критерием является качество генерируемого контента.
Кроме того, преимущество новой технологии наиболее заметно при локальном использовании и в условиях низкой нагрузки. В облачных сервисах, одновременно обслуживающих большое количество пользователей, традиционные авторегрессионные модели способны эффективно использовать оборудование за счет пакетной обработки запросов, что снижает преимущества диффузионного метода генерации.
Google уже опубликовала DiffusionGemma по лицензии Apache 2.0 на платформе Hugging Face. Компания также обеспечивает поддержку развертывания модели через ряд популярных инструментов и фреймворков, включая MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo и Unsloth.