DeepSeek-V3.2 (https://huggingface.co/deepseek-ai/DeepSeek-V3.2) новая открытая языковая модель, созданная для преодоления отставания от закрытых аналогов (GPT-5, Gemini) в рассуждениях и работе как агент.
Для создания модели использовали глубокое разреженное внимание (DSA). Внутри него эффективный механизм внимания. "Молниеносный индексатор" выбирает Top-K наиболее релевантных токенов для каждого запроса, снижая вычислительную сложность. Также применяли масштабируемое обучение с подкреплением (RL), который является устойчивым протоколом GRPO с большими вычислительными затратами на дообучение (>10% от предобучения). Плюс ко всему этому был конвейер синтеза агентских задач, который автоматически создавал тысячи сложных сред и промтов для обучения работе с инструментами.
Обучение проходило в несколько этапов.
На первом этапе было разреженное предобучение на котором продолжали обучение DeepSeek-V3.1 с включенным DSA.
Начали с "плотной" разминки во время которой была инициализация индексатора при замороженных параметрах модели. Дальше было разреженное обучение представлявшее собой обучение всей модели на основе выбранных DSA токенов.
На втором этапе было дообучение.
Было создание данных экспертами в математике, коде, агентах по методу дистилляции от специалистов. А после смешанное RL включавшее в себя объединенное обучение на рассуждениях, работе агента и человеческих предпочтениях.
В результате модель DeepSeek-V3.2 теперь сопоставима с GPT-5 и Kimi-K2 в рассуждениях, значительно лучше других открытых моделей в задачах агента (поиск, код, инструменты). Другая же вариация этой модели под названием DeepSeek-V3.2-Speciale (вариант с длинными рассуждениями) уже достигает паритета с Gemini-3.0-Pro. Показывает "золотой" уровень на IOI, ICPC, IMO, CMO 2025. Нужно заменить, что DSA значительно ускоряет работу с длинным контекстом.
В недостатки можно выделить меньший объем знаний, чем у лидеров; меньшую эффективность по токенам, а также требуется оптимизация для очень сложных задач.