4

DeepSeek-R1 лучше всех сдала «последний экзамен человечества»

Humanity's Last Exam («Последний экзамен человечества») — это новый "строгий" мультимодальный тест на границе человеческих знаний, призванный стать последним в своем роде закрытым академическим тестом с широким охватом тем. Даже лучшие модели набирают в нем менее 10%! Набор данных состоит из 3000 сложных вопросов по более чем сотне предметов. Часть вопросов публикуется, при этом сохраняется закрытый тестовый набор отложенных вопросов для оценки соответствия модели.

В текстовых задачах лучше всех показала себя DeepSeek-R1.

Результаты ответов на текстовые вопросы.

Результаты ответов на текстовые вопросы.

В мультимодальных задачах (10% от всего бенчмарка) лидирует о1 от OpenAI. R1 не является мультимодальной, поэтому на этих вопросах её не тестировали.

Интересно будет посмотреть, как с этим "экзаменом" справятся Llama-4 и o3. К слову, DeepSeek-v3 уже есть в нашем тг-боте, а совсем скоро появится и R1 — @gpt_lama_bot

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества