Новая языковая модель GPT-4o, так ли уж она хороша?⁠⁠

Вчера OpenAI представила новую модель искусственного интеллекта GPT-4o.
Компания утверждает следующее:

GPT-4o - это наша новейшая флагманская модель, которая обеспечивает интеллект на уровне GPT-4, но работает гораздо быстрее и расширяет возможности в области работы с текстом, голосом и изображениями.

Мне захотелось протестировать обе эти модели с помощью вот такой задачи для 5-го класса:

Назовем парными два различных числа, если десятичная запись одного совпадает с десятичной записью другого в обратном порядке. Например, числа 2019 и 9102 – парные. Сколько всего пар таких чисел, у которых оба числа лежат в диапазоне [500;700]? (Пары (a,b) и (b,a) считаем за одну пару.)

Результат крепко разочаровал меня: новая модель решила эту задачу только с четвёртой попытки ( https://chat.openai.com/share/29a2f485-3922-48a2-b1ed-e0ce2a... ), тогда как старая — всего лишь со второй! ( https://chat.openai.com/share/776a02cd-21dc-4549-9b3a-7fa68a... )

Это заставляет задуматься о том, насколько действительно эффективна новая модель по сравнению с предыдущей, особенно когда дело касается простых задач, которые должны быть легкими для искусственного интеллекта.

А что по данному поводу думают уважаемые форумчане?