8

Как устроены нейросети для неспециалистов (2/2)

Начало статьи здесь: Как устроены нейросети для неспециалистов (1/2)

Почему нейросеть забыла?

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Вообще говоря у chatGPT нет никакой памяти, кроме весов. И когда вы ведете с ним диалог программа-прослойка отправляет в него всю историю вашей переписки в этом диалоге, в нее добавляются все ваши вопросы и все ответы модели.

Но есть проблема — это матрица «механизма внимания» в TRANSFORMER: чем она больше — тем больше слов может принять за один раз LLM на вход, и тем больше нужно GPU для ее работы. У старых моделей это всего 1024 токена, а Google Gemini хвастается, что у них более миллиона.

А что же будет если у вас слишком длинный диалог, и он не влезает? Тогда модель с узким входом его забудет, а модель с широким входом может потеряться в таком количестве текстов. Оказывается, что расфокусированность вредна не только для людей, но и для машин!

Я довольно быстро ощутил, что на коротких дистанциях модель понимает, что я хочу с полу слова в отличии от людей. Все дело в том, что она каждый раз перечитывает весь наш диалог с самого начала и фокусируется только на нем. В первое время мне даже было тяжело переписываться с людьми после такого.

А как сделать, чтобы не забывала?
Может быть дообучим ее парами фраз из наших диалогов? Вот же они есть наконец? Обязательно дообучим, но не для вас персонально, а для всех. Персонально хранить под каждого пользователя свою модель и постоянно ее дообучать парами фраз из диалога пока что слишком затратно. Поэтому стали придумывать всякие костыли в духе:

— А давайте, будем извлекать из предыдущей части диалога только главное с помощью нейросети и подставлять это в сжатом виде?
— Или же давайте все сообщения пользователя сохранять в базу данных и искать по ним?

Поговори со своими данными

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Так родилась еще одна концепция. Можно собрать в базу все данные, которые у тебя есть, при каждом запросе искать похожие по смыслу куски и сразу подсовывать их нейросети. Она будет читать подходящие куски из твоей базы данных и отвечать по ним осмысленно. Получается, что ты говоришь со своими данными.

Такая база называется векторной, а сама концепция называется RAG (Retrieval Augmented Generation).

Нейросети и математика

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

После того, как мы собрали все тексты мира (пока не все, но к этому идет), и обучили на них нейросеть, получился гипер-гуманитарий. Ну а чего вы ожидали? Получился переводчик всего во все: Русский в Английский, вопрос в ответ, задачу в решение. Ой, и тут-то и начинаются приключения. Оказывается нейросети плохо умеют считать. Посчитать слова в тексте, буквы в слове — для них уже непростая задача.

Пока что самый лучший подход — научить нейросеть вызывать язык Python, писать для него программу, запускать ее, получать точный ответ.

Оказывается, большой языковой модели также как и большинству людей нужен калькулятор, счеты, пальцы — да хоть что-нибудь для точных расчетов. Язык математики доступен пока для самых больших и сложных моделей, да и люди-то им владеют тоже сложновастенькие.
Ну и с коммерческой точки зрения, сами понимаете, что если досыпать при обучении модели максимальное количество матана, то уши или глаза будут вянуть от общения с ней.

Агенты

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Интересно получается:

1. В зависимости от затравки и от добавленных данных нейронка по разному отвечает.
2. Она каждый раз читает весь диалог и самый ходовой способ что-то запомнить — добавить новую инфу прямо в этот диалог.
3. Она может писать и запускать программу на Питоне.

Получается, что мы можем несколько нейронок объединить в один чат, пусть одна будет программистом, другая биологом, а третья менеджером с кнутом и пряником по связям с общественностью.

Это будет работать дольше, зато такая толпа нейронок сможет обсудить и закопаться в любой проблеме. Такие нейросети назвали «размышляющими». И похоже наши человеческие голоса в голове — это что-то в том же духе.

Поэкспериментировав с брейншторм мами нейронок, я стал невольно промптить членов нашей команды. Задавая людям по-разному вопросы, можно добиться разных результатов, а все они вместе лучше приближают всю команду к цели.

Да что там говорить, я сошел с ума настолько, что теперь частенько сам для себя по-разному формулирую одни и те же вопросы, чтобы что-то важное вспомнить или найти какое-то сложное неочевидное решение.

Ок, теперь у нас есть нейрокоманда-ураган, которая чатится друг с другом. Теперь им нужны инструменты: пусть будут специальным текстом вызывать поиск, пусть пишут и запускают код на питоне, пусть делают запросы в базу данных, пусть двигают мышкой по экрану, пусть двигают электрическими ногами и руками. В общем трындеть — не мешки ворочать — пусть уже наконец сами поработают!

Такой подход назвали агентским, когда у нейроночки есть не только размышления, но и инструменты, чтобы воплотить их в жизнь. Этот подход открывает нам путь к плюс-минус разумным роботам.

Таблички

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Как вы уже смогли догадаться, у обычной языковой модели есть большие трудности работы с табличками. Даже самая современная LLM путает в табличках цифры, выкидывает столбцы, обрезает части таблицы. А если таблицы огромные — в тысячи слов, то они еще и в механизм внимания не помещаются.

Немного спасают агенты, которые могут использовать внешние инструменты: пусть нейронка напишет код, который сделает из таблички агрегаты, над которыми можно будет поразмыслить. Вот такими вещами я сейчас по работе и занимаюсь. На свете есть много человечьих табличек, до которых обычному chatGPT еще очень далеко.

Сделать универсального исследователя-всезнайку пока не получается, хотя такие режимы во все популярные нейронки уже давно добавили. А когда и если такое получится, то это будет AGI (Artificial General Intelligence).

Чем же я сейчас занимаюсь

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Гиганты сражаются за первое место в генерации текстов, картинок, видео, звука. Все это требует колоссального количества мозгов людей и GPU машин. Кажется, что вот-вот роботы всех заменят, как и 80 лет назад казалось моему Деду, который работал в одном из первых вычислительных центров СССР. Ну теперь же уж точно заменят, вот-вот же правда?

Я сейчас занимаюсь приземленными вещами, простите. Мы пытаемся добиться преимуществ в старом-добром бизнесе прямо сейчас:

1. Группа аналитиков читает большое количество статей, чтобы следить за рынком, следить за трендами, делать дайджесты. Для этого нужно собрать все тексты, оценить насколько они полезны для нужной темы, вытащить из этих текстов полезную информацию для бизнеса. Если вы попросите такое ChatGPT, то он потеряет большую часть сайтов и большую часть данных из них, аналитики будут очень недовольны. И тут появляемся мы.

2. В компании лежит тонна документации: это стандарты, договора, планы. Современные LLM дают возможность «поговорить со своими данными», но пока это не работает «из коробки» или же документы конфиденциальны. Поэтому нужно настраивать под конкретную компанию. Для того, чтобы эксперт зашел в понятный интерфейс задал бы вопросы нейронке, она бы прочла документы и дала бы вменяемый ответ со ссылками на исходные документы для проверки.

3. Ну и конечно таблички! Как влияет PR на продажи? Как влияет маркетинг на продажи? Да что вообще влияет на чертовы продажи в вашем конкретным случае? Как это бьется с финансами? Как это объединить все с бухгалтерией? Можно ли прогнозировать эффекты? Если дать набор таблиц нейронке, то окажется, что она с ними может делать только базовые вещи при условии, что таблички простые, маленькие и их не более трех. Делаем внешний алгоритм, который научит LLM работать с большими запутанными таблицами, в которых данные с пробелами и далеки от идеала.

4. Все это полезно для нашего прекрасного продукта карта-офиса.рф интеллектуальная система управления офисом. Если у вас большой офис, то вам нужно знать ответы на вопросы: «Кто где сидит?», «Что где лежит?», «Почему, черт побери, это так и столько стоит?».

Буду рад новым клиентам, проектам, партнерам — стучитесь в телегу: @mlenzovet.

Накладываем маски

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

А теперь снова перенесемся назад в дремучие времена, когда IBMPC только появились в России, а я стажировался в ИППИ РАН в «лаборатории переработки сенсорной информации человека и животных». Тогда я мечтал стать нейрофизиологом, мы изучали, как работают глаза животных. По сути глаз той же лягушки — это небольшой компьютер. Прямо на сетчатке выполняется часть сверток и фильтров, которые позволяют вычислить такие важные вещи, как, например, движение большой темной границы. Представьте, что над вами нависла огромная зловещая темная тень. Глаз самых простых животных научился переводить такие события в смысл очень давно. Всех, кто не научился, просто съели.

В общем ученые в нашей лаборатории задолго до большинства алгоритмов машинного обучения экспериментировали с сегментацией изображения по заказу Samsung. Тогда я и представить себе не мог, зачем это нужно корейцам.

В следующий раз я встретился с таким уже через много лет на соревновании. Тебе дают, скажем, рентген легких и предлагают обвести на них опухоль. Для обучения на вход подаются два изображения — сам рентген легких, и на втором изображении сама обводка, ее называют маской.

Нейросеть, которая это делает, сначала сворачивает картинку, доставая смысл, а затем начинает ее наоборот — разворачивать. В такой развертке все лишнее исчезает и остается только что-то очень примитивное, то есть маска, она-то нам и нужна. Ведь кто лучше сделал маску, у кого лучше ошибка — тот и победил.

Задача машинного зрения часто состоит не только в том, чтобы определить что это такое, но и обвести это. Нужно найти область, чтобы туда ехать, бежать, лететь, а может быть даже пилить, сверлить, кусать, бить или стрелять.

До недавнего времени мы мало о таком слышали в СМИ, поскольку такие системы интересны военным, полиции и в промышленности.

Но ведь у нас есть теперь токены и векторы, наполненные смыслом и мы хотим развернуть их в изображения. Так появились диффузные сети, которые генерируют маски на базе токенов и с помощью них последовательно уточняют (добавляя деталей) шум, пока тот не превратится в изображение.

На базе диффузионной концепции сделаны Stable Diffusion (свободно распространяемая) и Mid Journey — коммерческая. Сейчас такие сети добавляют повсеместно, в том числе и в PhotoShop.

Голос, музыку, звуки также легко тонизировать, свернуть, и потом развернуть. Даем нейросети короткое видео вашего лица, короткое аудио вашего голоса, немного переписки из соцсети или чата с вашей манерой общаться и вот уже она звонит в вотсап вашим друзьям и просит в долг немного денег.

Когда человек открыл огонь — начались ожоги, когда открыл колесо — появилось и колесование, электричество — поражения током, автомобили — испортился воздух. Прогресс всегда в чем-то делает нашу жизнь лучше, а в чем-то хуже.

Когда же он взбунтуется и всех нас уничтожит?

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост

Сейчас я дописываю эту статью, а искусственный интеллект не может ее написать. Почему так, он ведь гипер-гуманитарий. Все дело в том, что он скорее наше коллективное бессознательное, некоторое усреднение между всеми текстами, которые есть в интернете. Во всяком случае пока он не может написать статью, которая бы вас зацепила. Этот текст я много раз давал ему, чтобы он проверил не забыл ли что-то или не ввел ли я где-то вас в заблуждение. Проверяет он отлично, а пишет плохо.

Я много думал, чего же ему не хватает хотя бы для того, чтобы писать увлекательные статьи. Видимо для этого нужен какой-то уникальный жизненный путь, какая-то своя история. Наверное, чтобы сделать такую модель, нужно чтобы она как ребенок с рождения взаимодействовала с физическим миром и с обществом, сейчас он знает о нашем мире только по книжкам и постам в соц-сетях.

Очевидно, что ИИ будет использоваться в военных целях как все новые технологии. Очевидно, что он так или иначе вызовет экономический кризис как все новые технологии. Кто-то получит преимущество, кто-то пострадает. При этом бунтовать там пока нечему и откуда этому чему-то взяться неизвестно.

Другие мои статьи: про переговоры, про создание ИТ компании.

Как устроены нейросети для неспециалистов (2/2) ChatGPT, Искусственный интеллект, Openai, Deepfake, DeepSeek, Длиннопост