DeepSeek выпустил новую версию V3.1 с расширенным контекстом до 128K токенов⁠⁠

Китайская компания DeepSeek развернула обновление своей языковой модели до версии V3.1, расширив контекстное окно до 128 тысяч токенов и актуализировав базу знаний до июля 2024 года.

Модель доступна через веб-интерфейс, мобильное приложение и API, а веса DeepSeek-V3.1-Base опубликованы на Huggingface. И пока ждём результатов бенчмарков.

Архитектурные изменения предположительно включают гибридную конфигурацию с интегрированным режимом рассуждений, на что указывает маркировка "Base" в названии модели. Предыдущее обновление V3 состоялось 20 марта, а рассуждающая модель R1 получила апгрейд 28 мая, что указывает на ускоренный цикл разработки.

На платформе LMArena обнаружены две секретные модели, предположительно относящиеся к экосистеме DeepSeek, может быть это и есть обновлённая версия R1. Ну и очень ждём DeepSeek R2. 😎

Мой тг-канал: ИИ by AIvengo, пишу ежедневно про искусственный интеллект

Искусственный интеллект

5.1K постов11.5K подписчика

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан