Thinking Machines Lab представила исследование по устранению недетерминизма в выводе LLM⁠⁠

В среду исследовательская лаборатория Mira Murati, Thinking Machines Lab, опубликовала первый пост в своём блоге Connectionism под названием «Defeating Nondeterminism in LLM Inference». В статье рассматривается причина появления случайных ответов у больших языковых моделей (LLM) и предлагаются пути её устранения.

Основные тезисы исследования

Исследование написано сотрудником лаборатории Хорасом Хе. Он утверждает, что основной источник недетерминизма — это способ объединения GPU‑ядер (маленьких программ, работающих на чипах Nvidia) в процессе инференса, то есть выполнения модели после ввода запроса. По мнению Хе, точный контроль над этой оркестрацией позволяет сделать ответы моделей более предсказуемыми.

Помимо повышения надёжности ответов для предприятий и учёных, Хе отмечает, что воспроизводимые ответы могут улучшить обучение с подкреплением (RL). При текущем шуме в данных, когда ответы модели слегка различаются, процесс RL усложняется. Более согласованные ответы сделают обучение «плавнее», что важно для планов лаборатории использовать RL при кастомизации моделей под нужды бизнеса.

Планируемые продукты и открытость

Mira Murati, бывший технический директор OpenAI, в июле заявила, что первый продукт лаборатории будет представлен в ближайшие месяцы и будет полезен исследователям и стартапам, разрабатывающим кастомные модели. Пока неизвестно, будет ли он основан на методах, описанных в исследовании.

Thinking Machines Lab также объявила о намерении регулярно публиковать блоги, исходный код и другую информацию, чтобы «приносить пользу общественности и улучшать собственную исследовательскую культуру». Это контрастирует с тенденцией OpenAI к более закрытой работе по мере роста компании.

Реальный успех будет измеряться способностью превратить эти исследования в коммерческие продукты, оправдывающие оценку компании в 12 млрд долларов.

Больше материалов на канале РобоТок: https://t.me/tobotsp