DeepSeek-R1 лучше всех сдала «последний экзамен человечества»
Humanity's Last Exam («Последний экзамен человечества») — это новый "строгий" мультимодальный тест на границе человеческих знаний, призванный стать последним в своем роде закрытым академическим тестом с широким охватом тем. Даже лучшие модели набирают в нем менее 10%! Набор данных состоит из 3000 сложных вопросов по более чем сотне предметов. Часть вопросов публикуется, при этом сохраняется закрытый тестовый набор отложенных вопросов для оценки соответствия модели.
В текстовых задачах лучше всех показала себя DeepSeek-R1.
В мультимодальных задачах (10% от всего бенчмарка) лидирует о1 от OpenAI. R1 не является мультимодальной, поэтому на этих вопросах её не тестировали.
Интересно будет посмотреть, как с этим "экзаменом" справятся Llama-4 и o3. К слову, DeepSeek-v3 уже есть в нашем тг-боте, а совсем скоро появится и R1 — @gpt_lama_bot


