DeepSeek-R1 лучше всех сдала «последний экзамен человечества»⁠⁠

Humanity's Last Exam («Последний экзамен человечества») — это новый "строгий" мультимодальный тест на границе человеческих знаний, призванный стать последним в своем роде закрытым академическим тестом с широким охватом тем. Даже лучшие модели набирают в нем менее 10%! Набор данных состоит из 3000 сложных вопросов по более чем сотне предметов. Часть вопросов публикуется, при этом сохраняется закрытый тестовый набор отложенных вопросов для оценки соответствия модели.

В текстовых задачах лучше всех показала себя DeepSeek-R1.

Результаты ответов на текстовые вопросы.

В мультимодальных задачах (10% от всего бенчмарка) лидирует о1 от OpenAI. R1 не является мультимодальной, поэтому на этих вопросах её не тестировали.

Интересно будет посмотреть, как с этим "экзаменом" справятся Llama-4 и o3. К слову, DeepSeek-v3 уже есть в нашем тг-боте, а совсем скоро появится и R1 — @gpt_lama_bot

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества