Задача из 5 класса, которая ломает ChatGPT и ему подобных⁠⁠

Я достаточно часто пишу и обсуждаю с коллегами про то, как использовать нейросети с пользой — для работы, бизнеса и жизни. И почти в каждом втором обсуждении кто-то пишет что-то вроде: «Да что вы от него хотите, это же просто болтающий калькулятор. Просто много рассуждает, врет и думать не умеет».

Конечно, есть тут частичка правды. Особенно страдает качество, если применять «ИИ» к задачам «на логику».
Вот, например, посмотрим как «ИИ» справляются с задачкой из 5 класса мат. школы. Я ее использую её как мини-тест, когда выходит новая модель, чтобы проверить рекламные обещания:

см. Задачу 14 (Кстати, можете попробовать ее решить. Я лично пока нашел 2 способа. )

Задача из 5 класса, которая ломает ChatGPT и ему подобных

Я загонял ее в разные модели — от GPT до Grok и Gemini. Они начинают бодро рассуждать, но потом, почти всегда, произносят магическую фразу:

«Взвесим кучу A и кучу B. Если они равны, значит фальшивые монеты в куче C нет.»

И это, конечно, ошибка.
Потому что фальшивки могут быть и в куче C — обе сразу.
То есть модель сделала логично построенный с точки зрения языка и контекста, но абсолютно ложный вывод.

(полное решение от ChatGPT см. ниже)

Чем мне эта информация помогает в применении LLM:

Постоянно при решении своих задач напоминаю себе, как работает Большая Языковая Модель. Это не мыслитель, а предсказатель следующего слова c учетом контекста.У него нет пока понимания задачи, только языковая статистика.
Минус при использовании: Все чаще замечаю ситуации, когда мне лень проверять ответ (это может стать проблемой при частом использовании).
Заранее думаю, какой тип задачи подать в ллм для эффективного использования и как.
Например, стоит ли давать условия по шагам? Или лучше использовать формат цепочки рассуждений (Chain-of-thought)?
Поштурмить — ок. Но если задача требует чёткой логики и шагов — стараюсь действовать аккуратно.

Решение от ChatGPT:

«Давай внимательно разберем задачу 14:

Условие:

Есть три кучки монет:
- Первая кучка — 18 монет
- Вторая кучка — 23 монеты
- Третья кучка — 27 монет.
Среди всех этих монет есть две фальшивые монеты.
Фальшивые монеты легче настоящих, но одинаковы по массе между собой.
Настоящие монеты одинаковы по массе.
Нужно за два взвешивания на чашечных весах (без гирь!) определить, в какой кучке находятся только настоящие монеты.

Поскольку известно, что только в одной из куч нет фальшивых монет, а две другие содержат две фальшивые монеты (возможно обе в одной, возможно по одной в каждой), то нам нужно определить „настоящую“ кучку.

Обозначим кучки:

A — 18 монет
B — 23 монеты
C — 27 монет.

Стратегия:

1️⃣ Первое взвешивание:

Возьмем любые две кучки и сравним их массу. Например:

Сравним B (23 монеты) и C (27 монет):

Если весы в равновесии — значит в обеих кучках нет фальшивых монет → тогда кучка A (18 монет) обязательно содержит обе фальшивые монеты, а настоящая кучка любая из B или C.
Если одна из чаш окажется легче — значит в этой кучке есть хотя бы одна фальшивая монета.

2️⃣ Второе взвешивание:

Теперь выбираем одну из кучек из первого взвешивания и сравниваем её с A.

Например, если оказалось, что B легче C, то делаем:

Сравниваем B и A.

Если теперь B и A весят одинаково, значит все фальшивки были в C → A — настоящая.
Если снова B легче, значит в B находятся фальшивые монеты → настоящая кучка — C.
Если B тяжелее A — значит фальшивки были в A → настоящая кучка — B.

Таким образом, за два взвешивания мы можем однозначно определить, где настоящие монеты.»

Несмотря на этот откровенный «косяк», есть множество задач, гре нейросеть Мегаэффективна. Такие кейсы я для себя коллекционирую и выкладываю сюда: 👉 Каталог полезных кейсов по эффективному применению ИИ на работе и жизни

4.9K поста11.4K подписчиков

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан