Ответ на пост «Чат GPT не способен просто прочитать текстовый файл что я ему скидываю»1
Опомнился, когда накатал простыню своих мыслей. Если нужен ответ на исходный вопрос - поищите "по существу" ниже по тексту. Там заголовочек. До него можно всё смело пропускать. Ничего не потеряете. наверно.
Мы всё ближе и ближе к "магии". Техномагии.
Когда Артур Кларк придумал свой третий закон "Любая достаточно развитая технология неотличима от магии", он, наверно, и подумать не мог, что всё вот так вот обернётся. Или мог?
Вообще я по наивности своей размышляя об этом выражении думал, что речь идёт не о современниках технологии, не о людях, которые ею пользуются, а о каких-то дикарях или людях из прошлого, замороженных на десятилетия и "оттаявших" в эпоху технических чудес.
Но вот сейчас пришла в голову мысль, что многие уже сейчас используют технические "чудеса" и техническую "магию", которую не понимают. Вернее понимают именно как какую-то "магию".
Это, если задуматься, пугает!
Вот человек использует Большую Языковую Модель, чтобы с её помощью писать компьютерную программу. То есть человек должен быть в теме и понимать хотя бы принцип работы этого мощного инструмента, который помогает ему писать код.
Однако на деле он не хочет погружаться и разбираться в возможностях и ограничениях. Он просто... экспериментирует! Огорчается неудачам, сетует на "тупость" своего инструмента...
С одной стороны это закономерно, ведь чтобы смотреть телек вам не нужно понимать как работают транзисторы в микросхемах и квантовые точки в дисплее. Как модулируется сигнал, как шифруется и передаётся по информационным сетям видеопоток... Для обывателей телевизор - то же самое "яблочко на тарелочке", которое катится и показывает что попросили. Иногда аналогия пугающе буквальна, если вспомнить приставку-Алису. Такая же колонка как гусли-самогуды стоит на полочке и включает песни по первому требованию, а если сказать простое заклинание, то станет светло или прохладно.
Допустим появились художники с iPad'ами, планшетами с "чудесными" бесконтактными 3д-перьями для рисования... Они пользуются и не знают как технически устроена вся эта "магия" их внутреннего устройства и принципы работы. Им и не надо. Однако вот очередь дошла и до программистов! Сперва они разучились понимать как на самом деле биты и байты беают по "железу" в гарвардской или оксфордской архитектуре программируемых ими компьютеров. Им теперь нет нужды что-то понимать в регистрах процессора, стеке вызовов, прерываниях, страницах памяти, адресных шинах, файлах подкачки и прочих деталях внутреннего мира их сложных машин.
Появились абстракции, которые позволили людям не вдаваться в такие детали. Да и поди вникни! Там конвейеры в процессоре, векторные команды, куча оптимизаций, сопроцессоры, блокировки, многоуровневые кэши! Черт ногу сломит! Так что и хорошо, к месту эти уровни абстракции, а технический прогресс даёт возможность нам не вдаваясь в подробности делать сложные внутри, но достаточно простые в реализации и богатые по функциональности штуки. Это здорово!
Но что же меня пугает? Вернее как пугает... настораживает. Не может ли так случиться, что мы одичаем в нашем технологичном и удобном мире с огромным числом сложных многоуровневых абстракций?
Это же та самая проблема сингулярности, которая ещё не вылезла из тумана и, кажется, где-то там нависает. Давно нет ни единого человека, способного понимать всю "поверхность" пузыря постоянно расширяющихся знаний человечества. Даже в узкой области мы вынуждены выпускать из сферы внимания и понимания какие-то слои, детали, чтобы сконцентрироваться на функциональном и важном.
Я не неолуддит. Я сам лично своими идеями, работой, домашними пет-проектами приближаю эту страшную и волнующую сингулярность. Все айтишники это делают, и уже не только айтишники. Мне даже нравится, что наш мир всё больше и больше становится похож на то. как некогда фантасты видели тридесятые королевства в своих фэнтезийных мирах.
У нас стремительно появляются ИскИны, умные дома, методы коммуникации, которые связывают нас с людьми далеко за пределами ограничений числа Данбара.
Однако новые технологии и изменяющийся мир требует, я думаю, и пересмотра системы образования.
Когда мы читаем светлые и воодушевляющие произведения Стругацких про будущее, когда погружаемся в космооперы с технологичными мирами, то всегда там есть люди, которые умны, эрудированны и разбираются в сути вещей и технологий. Как сохранить этот вектор в системе наших идеалов? Как не одичать в удобной утробе технологического мира?
Интересно, сейчас больше или меньше люди разбираются в современных себе технических вопросах (чем раньше)?
Не хотелось бы тренда к одичанию. Вот такие вот переживания.
Ну а по существу
ежели, то LLM в виде чата и не сможет "прочитать" ваш файл без специального на то инструмента. LLM умеет только писать правдоподобные тексты. Правдоподобные и вероятные тексты, которые могли бы встретиться у них в обучающей базе.
Ну то есть хитросплетение нейронных связей настолько "преисполнилось" глубинного и туманного понимания внутренних связей и смысловых зависимостей человеческого языка, что у неё там завелись отдельные понятийные сущности для всяких штук, которые порой и словами трудно выразить, только смыслами немаленьких текстов. Так вот, оно там "преисполнилось", и теперь можно как бы вести беседу, а в указанных местах LLM будет достаточно вероятный и подходящий сюда текст подставлять.
Как ни удивительно, этот текст получается очень осмысленным и часто весьма полезным. Как ни поразительно, но огромное количество ранее неприступных когнитивных задач оказалось возможным решать просто генерируя тексты на тему и около, а потом ещё и ещё, и в конце концов "хоба" у нас, в конце, получается очень релевантный ответ. Магия? Нет, статистика и туева хуча вычислений в транзисторах. Причем в голове человека такие же, похоже, вычисления, только химические и био-электрические.
И как это относится к "чтению файла"? А так! Некому и нечем читать.
Это как с той проблемой, когда нейросеть может рассуждать о сложных выводах из Анны Карениной, но не способна посчитать буквы "р" в слове "клубника"=). Нейросеть не читает.
Тут на помощь приходят специальные агентные системы с тулингом. Они делают мостик между алгоритмическим и вот таким вот "мыслительно"-текстовым. LLM учат "мыслить" терминами "инструментов", то есть функций. Она может "найти" с помощью специальной функции в предлагаемом в виде файла тексте какие-то слова или предложения, и получить результат. Она может "посчитать" (только с помощью алгоритмического инструмента) буквы в какой-то строке. Но всё это она формулирует в терминах (утрирую) "вызываю такую-то функцию с таким-то параметром", а в ответ получает результат.
Вот такой тулинг позволяет LLM ориентироваться в строках, больших текстах, наборах файлов и в чем угодно, но всё это инструменты превращают для LLM в текст (на самом деле в потоки токенов, но это отвлекает от сути). А так как LLM не может оперировать очень большими векторами токенов, то приходится делать много отдельных запросов, минимизировать и уплотнять контекст отсевая второстепенное и оставляя главное, вызывать много тулзов, строить планы, выполнять их по шагам... Это всё не просто и требует много вычислений.
Но! Но для многих это просто магия и кажется, что можно прийти в первый попавшийся чат-бот и удивляться чего он такой тупой, что не может как другой более сложный нейронно-алгоритмический комбайн делать что-то простое и понятное нам мясным мешочкам с костями.
Надо помнить, что, не смотря на все поразительные уже сейчас возможности чат-ботов и языковых моделей, они многотысячекратно проще нашего мозга. Пока что. То ли ещё будет.
Этот текст написал биологический естественный интеллект без инструментальной поддержки искусственного и языковых моделей.
Я как заправский ретроград ещё ценю тёплый ламповый человеческий контент, потому везде делаю такой вот дисклеймер, где что-то графоманствую.