Обсуждение фрагмента из интервью с Сергеем Марковым
Это обсуждение на тему затронутую в интервью с Сергеем Марковым о Революциях и Трансформерах (интервью целиком можно посмотреть здесь)
Революция в ИИ: Восприятие против Технологии
Революция в искусственном интеллекте (ИИ) определяется как качественный скачок в развитии. Автор считает, что в области ИИ такие скачки происходят постоянно. Однако ключевым моментом, который можно назвать самой заметной революцией, стал ноябрь 2022 года с выходом ChatGPT.
Эта революция была не столько технологической, сколько революцией в общественном восприятии. До ChatGPT специалисты уже наблюдали прогресс (GPT-2, GPT-3), видели, как модели становятся умнее и универсальнее, и даже развивали концепции вроде промптинга.
Главный прорыв ChatGPT заключался в том, что он стал сервисом, доступным для "пощупывания" каждым человеком в мире. Автор предполагает, что аналогичный запуск от Google (Bard) или Facebook вызвал бы схожий эффект. Важным фактором стало то, что OpenAI решилась на этот смелый шаг, несмотря на риски, о чем свидетельствует прошлый негативный опыт (например, бот Microsoft Tay, ставший расистом).
Эволюция чат-ботов и роль RLHF
Создатели чат-ботов изначально видели их как инструменты для короткого общения (смолтока), а не для решения сложных интеллектуальных задач. Продуктовые перспективы для интеграции таких "болталок" в устройства (например, умные колонки) были неясны, так как не существовало формата для потребления длинных диалоговых ответов.
Гениальным шагом стало решение обучать диалоговые модели не просто общаться, а решать задачи в режиме диалога. Вскоре после этого внимание привлек метод RLHF (Reinforcement Learning from Human Feedback), который, как считалось, стал "секретным соусом" успеха ChatGPT, поскольку он соединил обучение с подкреплением (RL) и обработку естественного языка (NLP).
Однако, спустя годы стало ясно, что RLHF не является незаменимым прорывом. Существуют более умные модели, не использующие этот метод. RLHF оказался очень капризным в реализации, требующим высококвалифицированных специалистов. Более того, позже выяснилось, что существуют более простые и эффективные подходы (например, DPO), которые дают сопоставимый или лучший результат без сложности RLHF.
Трансформеры как Ключевая Технологическая Революция
Появление трансформеров за последние 15 лет стало самой важной и революционной технологической инновацией. Это изменение было настолько скачкообразным, что сразу же трансформировало работу переводчиков.
Главная причина революционности трансформеров заключается в их способности эффективно использовать параллельные вычисления. В отличие от предыдущих моделей (таких как RNN или LSTM), которые обрабатывали данные последовательно (токен за токеном), трансформеры обрабатывают все элементы последовательности параллельно.
Это нововведение позволило решать многие задачи, особенно генеративные, на качественно новом уровне. Благодаря параллельной обработке стало возможным строить и обучать гигантские модели на мощных распределенных вычислительных кластерах (с использованием GPU), что ранее было неэффективно.
Теперь мы поговорим с моделью Qwen 3 Max и попросим ее ответить на вопросы, которые возникли во время чтения интервью.
Ответы на вопросы из обсуждения
Вопрос: Что на счет ризонинга в LLM?
Ризонинг (reasoning) в больших языковых моделях (LLM) — это способность модели решать сложные задачи, разлагая их на последовательность логических шагов. Современные LLM часто используют техники, такие как Chain-of-Thought (CoT), чтобы явно моделировать процесс рассуждения, что значительно улучшает их производительность в задачах математики, логики и планирования . Такие модели иногда называют Reasoning Language Models (RLMs) или Large Reasoning Models (LRMs) .
Однако, несмотря на впечатляющие результаты, LLM всё ещё склонны к ошибкам в рассуждениях, особенно при работе с незнакомыми или абстрактными задачами . Современные исследования направлены на улучшение их надёжности через методы, такие как self-consistency, tree-of-thoughts, и fine-tuning на задачах с явным рассуждением . Важно понимать, что рассуждение в LLM — это не «понимание» в человеческом смысле, а скорее имитация логических паттернов из обучающих данных.
Вопрос: Что за более простой подход DPO?
DPO - альтернатива RLHF.
DPO позволяет обойтись без обучения отдельной модели вознаграждения и сложной реализации алгоритмов вроде PPO (Proximal Policy Optimization). Вместо этого он напрямую оптимизирует политику модели на основе предпочтений пользователей, что делает процесс обучения проще, стабильнее и дешевле. Эксперименты показывают, что DPO часто даёт сопоставимое или даже лучшее качество по сравнению с RLHF, особенно в плане флюентности и стабильности поведения модели .
Вопрос: Какие есть альтернативы трансформеру?
Хотя трансформеры доминируют в современном deep learning, особенно в NLP, за последние годы появились несколько перспективных альтернатив:
Mamba — архитектура на основе state space models (SSM), которая особенно эффективна для длинных последовательностей. Mamba может обрабатывать контекст длиной в сотни тысяч токенов быстрее и с меньшими вычислительными затратами, чем трансформеры.
RWKV (Receptance Weighted Key Value) — гибрид рекуррентной архитектуры и внимания, реализующий линейную сложность по длине последовательности и совместимый с традиционным языковым моделированием .
Griffin и Jamba — гибридные модели, сочетающие элементы трансформеров и рекуррентных механизмов для баланса между выразительностью и эффективностью .
Также активно исследуются линейные механизмы внимания, retention networks, и sparse attention как внутренние альтернативы полному self-attention .
Эти подходы особенно актуальны в условиях ограничений памяти и необходимости обработки очень длинных последовательностей.
Вопрос: Есть ли прогресс в спайковых нейросетях за последние годы?
Да, в области спайковых нейронных сетей (SNNs) за последние 2–3 года наблюдается значительный прогресс. SNN рассматриваются как перспективный путь к созданию энергоэффективных и быстрых ИИ-систем, вдохновлённых биологическим мозгом .
Ключевые достижения включают:
Разработку методов прямого обучения глубоких SNN без необходимости переноса весов из ANN .
Успешное применение SNN в задачах компьютерного зрения и непрерывного управления.
Интеграцию SNN с сенсорными и памятевыми технологиями, что открывает путь к реальному использованию в edge-устройствах .
Появление адаптивных методов обучения, таких как adaptive gradient learning, улучшающих обучаемость SNN .
Реализация SNN на FPGA и специализированных нейроморфных чипах для практического применения .
Хотя SNN пока не достигли уровня трансформеров по выразительной мощности в NLP, они активно развиваются в направлениях низкого энергопотребления, обработки временных данных и робототехники.
В подмосковной Шатуре произошло возгорание трансформаторов на ГРЭС2
Украинские БПЛА атаковали Шатурскую ГРЭС в Подмосковье — заявил губернатор региона Андрей Воробьёв.
Пожар на территории станции уже ликвидировали. Электроснабжение города не нарушено — энергосистема переведена на резервные линии. Для поддержания теплоснабжения в округ направлены передвижные блочно-модульные котельные.
На месте работают глава округа и профильные службы. Ситуация под контролем, угрозы для жителей нет.
https://www.msk.kp.ru/online/news/6685010/?ysclid=mibc4l74z8...
Почему сегодня освоение Космоса с помощью человека очень неэффективно. Нужны роботы!
Сегодня в мире идёт подготовка к освоению Космоса. Политики уже задумались, что природные ресурсы в будущем на Земле могут исчерпаться и тогда выиграет та страна, которая быстрей всех освоит ресурсы ближайших спутников и планет. На прицеле в первую очередь это Луна и Марс. Но самая большая ошибка сегодня в освоении Космоса — это если сделать ставку на человека. Все страны, которые будут подготавливать полёт человека на космическом аппарате до Луны или Марса, с учётом построения там космических баз, рискуют затормозиться в освоении Космоса на десятки, а может быть даже и на сотни лет. И любая неожиданная авария с человеческими жертвами еще больше будет растягивать данный срок. А та страна, которая сделает ставку на освоение Космоса с помощью роботов добьётся внушительного прогресса и опередит конкурентов на десятки лет. Роботам не нужны тонны продовольствия и питьевой воды, им не нужны объёмные жилые пространства на корабле, им не так страшны чудовищные перепады температур и радиация, и их не будет мучить ни паника, ни депрессия. Проект доставки роботов на планеты и спутники намного дешевле проекта полёта людей и поддержки их живучести в Космосе.
Главная задача роботов — это подготовить космические базы к будущему переселению людей. Это могут быть обустроенные подземные города, склады, заводы и шахты по добыче сырья. Здесь изюминка в том, что, чтобы обеспечить высокую выживаемость и работоспособность роботов при создании инфраструктур на спутниках и планетах, нужно иметь роботов-ремонтников. Если у роботов что-то ломается, то роботы-ремонтники заменяют повреждённые блоки, и данные роботы обретают вторую жизнь. Также важно, чтобы роботы были трансформерами. То есть, чтобы роботы-ремонтники могли с помощью замены блоков собрать из любого робота нужную модель под определенную профессию или задачу. Также важно, что если в каких-то блоках есть недоработки и недостатки, то ремонтники, получив с Земли более совершенную партию блоков, заменили бы устаревшие блоки. Таким образом трансформеры могут постоянно совершенствоваться и переделываться под новые профессии или задачи.
Можно надеяться, что в скором времени в мире возникнет гонка совершенства космических роботов и она заменит собой опасную гонку вооружений на Земле. Лучше бы те гигантские деньги, которые идут на подготовку к войнам пошли бы на освоение Космоса. И хотя сейчас на вооружении используется развитие робототехники, но надеюсь что в будущем роботы-убийцы будут запрещены, как химическое или бактериологическое оружие. Ведь роботы, наделённые искусственным интеллектом, очень жестокие убийцы! В отличии от солдат, они не пожалеют ни женщин, ни детей, и не пощадят тех, кто ранен или сдаётся в плен. А вот роботы с искусственным интеллектом в Космосе просто необходимы - это скачок в научно-техническом прогрессе.
Голос озвучки, который я никогда не забуду (Андрей Ярославцев)
Спи спокойно Капитан Прайс, Уриэль Сэптим Vii, Декард Каин, Оптимус Прайм, Золтан Хивай, Гимли, Ака, Зератул и не только...

