Работа LLM похожа на работу нашего мозга
Наш мозг и LLM работают на схожих принципах обработки информации - они анализируют паттерны, создают связи и генерируют ответы на основе накопленного опыта.
Возьмем, например, процесс обучения. Как человеческий мозг формирует новые нейронные связи при получении информации, так и языковые модели корректируют веса своих нейронов во время тренировки. Мы учимся на примерах и опыте - точно так же учатся и LLM. Например я чтобы не говорить матерные слова специально придумал себе метод для защиты и когда их слышал даже в стороннем разговоре для начала превращал это слово в тарабарщину, а затем заменял его на похоже и подходящее по звучанию для предложения слово (даже если это слово не логично по смыслу). Ну и в итоге я сейчас при диалоге не говорю и даже не задумываюсь о том, чтобы использовать матерное слово. Я получается очистил свои обучающие данные от плохих слов.
В процессе общения наш мозг постоянно предсказывает следующие слова собеседника (если к примеру мы не услышали какое то слово у собеседника мы как ИИ способны понять суть), анализирует контекст и формирует релевантные ответы. Языковые модели действуют аналогично - они тоже прогнозируют вероятные продолжения текста на основе контекста и предыдущего опыта. Даже ошибки LLM очень похожи на человеческие - они могут "галлюцинировать", создавать ложные воспоминания или делать неверные выводы из-за неполной информации (ну или из за предубеждений которые они узнали из обучающих данных)(некоторые люди до сих пор думаю, что земля плоская). Это прямая параллель с работой человеческого мозга, который тоже не застрахован от подобных ошибок. Например вспомните как вы в школе не выучили теорему, а учитель выбрал именно вас для ответа и вы начинаете говорить что угодно лишь бы учитель отстал. Конечно, есть и различия в деталях реализации, но базовые принципы работы поразительно схожи. Это не случайно - ведь архитектура современных языковых моделей во многом вдохновлена именно структурой человеческого мозга. В конечном счете, и человеческий мозг, и LLM - это сложные системы обработки информации, работающие на основе нейронных связей и статистических закономерностей. Разница лишь в том, что одна система создана природой, а другая - человеком.
Так же хочу добавить, что например самые первые языковые модели не могли даже нормально двух слов связать как и малые дети. Сейчас же они спокойно могут удержать у себя в памяти очень долгий разговор и поддерживать его на хорошем уровне.
Только пока есть у LLM фундаментальная проблема с токенизацией слов. Поэтому тупо у них спрашивать, а сколько же букв в каком то слове. Но даже с этим небольшим недостатком им сейчас хорошо живётся. Хотя LLM, а в особенности рассуждающие научились разбивать слово на части и благодаря этому правильно считать буквы.
Вот как работает токенизатор в LLM на примере текста "Привет мир! Как дела? Я изучаю токенизацию.":
1. Базовая токенизация (разбиение на слова):
- ['Привет', 'мир!', 'Как', 'дела?', 'Я', 'изучаю', 'токенизацию.']
2. Подсловная токенизация (разбиение на части слов):
- ['Прив', 'ет', 'мир', 'Как', 'дела', 'Я', 'изуч', 'аю', 'токе', 'низацию']
3. Байтовое представление (первые 20 байт) (вот и буквы пропали):
- [208, 159, 209, 128, 208, 184, 208, 178, 208, 181, 209, 130, 32, 208, 188, 208, 184, 209, 128, 33]
Токенизатор работает в несколько этапов:
1. Сначала разбивает текст на отдельные слова
2. Затем делит длинные слова на более мелкие части (подслова)
3. Преобразует текст в байтовое представление
4. Конвертирует в числовые значения для обработки моделью
К тому же нельзя забывать, что LLM это очень очень очень молодая по меркам истории технология.
А и ещё: ОООЧЕНЬ ТУПО СПРАШИВАТЬ у общих моделей вопросы по узким темам и ждать от них гениальный и верный ответ. Не зря же люди учатся для конкретных профессий и не могут быть гениями во всём. Подойдите к повару и требуйте у него схемы нового микро чипа. Тупо? А вот некоторые этого до сих пор не понимают. Не просто же так LLM дообучают для конкретных задач.