biostasis

GPT-3 для NPC будущего⁠⁠

Разработчики многопользовательской VR-песочницы Modbox объединили платформу распознавания голоса Windows Speech Recognition, нейросеть от компании OpenAI - GPT-3 и систему синтеза естественной речи Replica. Всё ради уникального демо первых NPC с искусственным интеллектом.

Перемотайте на 4 минуты 25 секунд, чтобы посмотреть на общение между двумя NPC под управлением ИИ.

Корпорация Microsoft, которая инвестировала 1 миллиард долларов в OpenAI, обладает эксклюзивным правами на исходные коды и коммерческое применение модели GPT-3, потому вряд ли подобная технология будет реально применяться в самом Modbox. Но это видео-демо по прежнему отличный способ посмотреть на будущее NPC в играх. Языковые модели будущего могут изменить сам подход к геймдизайну и создать целые новые игровые жанры.

Эти неприятные паузы между вопросом и ответом NPC из-за того, что и модель GPT-3 и система синтеза голоса Replica - обе являются облачными технологиями. Будущие модели, запущенные на устройствах пользователей смогут преодолеть эту задержку. Google и Amazon уже включают специализированные чипы в некоторые устройства для умного дома, чтобы сократить задержку у цифровых ассистентов.

Как это возможно?

Книги, фильмы и телепрограммы все крутятся вокруг персонажей. Но в нынешних видеоиграх и VR-аттракционах вы не можете напрямую общаться с персонажами вовсе, или можете выбирать только из заранее прописанных ответов в диалоговом дереве.

Прямое общение с виртуальными персонажами и получение убедительных ответов, вне зависимости от вопроса, ещё совсем недавно было невозможно. Но недавний прорыв в технологиях машинного обучения делает эту идею наконец-то достижимой.

В 2017, подразделение по разработке ИИ Google представило новый подход к языковым моделям, под названием Транфсормеры. Новейшие модели машинного обучения на тот момент и так уже использовали концепцию внимания, чтобы получать лучшие результаты, но новый подход был полностью построен вокруг этой концепции.

В 2018 году, профинансированный Илоном Маском стартап OpenAI использовал подход Google при создании своей новой языковой модели общего назначения, названной Generative Pre-Training (GPT) и обнаружил, что GPT способна предсказывать следующее слово во множестве предложений, и может отвечать на некоторые вопросы со множеством вариантов ответа.

В 2019, OpenAI усложнил эту модель более чем в 10 раз в GPT-2. Они обнаружили, что это "усложнение" серьёзно улучшило возможности системы. Давай GPT-2 всего несколько предложений в качестве ввода, она теперь была способна писать целые эссе на почти любую тему, или даже производить грубый перевод. В некоторых случаях, вывод системы был неотличимым от человеческого. Из-за возможных последствий, OpenAI изначально решила не выкладывать модель в общий доступ, что привело к обсуждению в СМИ и спекуляциях о возможных социальных последствиях применения продвинутых языковых моделей.

У GPT-2 был 1.5 миллиард параметров, но в июне 2020 OpenAI опять усложнила модель, доведя количество параметров до 175 миллиардов в GPT-3 (использовавшейся в этом демо). Вывод GPT-3 почти всегда не отличим от человеческого.

Технически, у GPT-3 нет реального "понимания" (хотя, философские обоснования этого термина, все ещё обсуждаются). Порой GPT-3 может выдавать бессмысленные или предвзятые результаты. Исследователям все ещё предстоит найти механизмы решения подобных проблем, например "проверки на смысл", прежде чем подобные модели найдут применение в потребительских продуктах.

Оригинал статьи на английском