Action Prediction Error (APE) — отдельный сигнал обучения
В представлении среднего гражданина дофамин является гормоном удовольствия. Чуть менее средние граждане знают, что дофамин кодирует ошибки предсказания. В основном исследования были сконцентрированы на ошибке предсказания вознаграждения, но если они вас утомили, то предлагаю почитать свежие исследования об ином типе ошибок предсказания.
Коротко
Action prediction error (APE) — это ошибка предсказания, связанная не с ценностью вознаграждения (как reward prediction error), а с предсказанием самого действия. Недавние эксперименты показали, что дофамин в хвосте стриатума кодирует APE и служит «value-free» обучающим сигналом, который укрепляет повторяющиеся ассоциации «состояние — действие». Вместе с классическим RPE эти два сигнала работают в паре: RPE ориентируется на ценность, а APE формирует привычки и автоматические действия.
Новое платье старого короля
Классическая идея об ошибке предсказания была довольно простой и красивой: мозг сравнивание ожидание и реальность, а разница используется для обновления знаний. Традиционно внимание концентрировалось на ошибке предсказания вознаграждения и роли дофамина в её кодировании. Однако поведенические данные и теория давно намекали, что животные учатся не только на том, что приносит награду (и удовольствие, как частный случай), но и на повторяющихся конкретных действиях независимо от немедленной ценности.
APE — это попытка дать нейрофизиологическую и вычислительную форму вышеупомянутому способу обучения.
Что за зверь этот ваш APE?
Action prediction error — это сигнал, фиксирующий разницу между фактически выполненным действием и тем действием, которое система ожидала выполнить. В отличие от RPE, который обновляет значения состояний или действий на основе вознаграждения, APE укрепляет саму связь «состояние — действие».
Наблюдение APE в дофаминергических сигналах. В задаче аудиальной дискриминации у мышей движение-связанные всплески дофамина в хвосте стриатума соответствовали предсказанным/непредсказанным действиям, а не прямо значению вознаграждения.
Каузальность. Оптогенетические и иные манипуляции с этими сигналами изменяли обучение так, как ожидалось. Вмешательство нарушало закрепление повторяющихся ответов, но не моделировало привычное обновление ценностей. Это отличает APE от RPE по функциональным последствиям.
Модель и взаимодействие с RPE. Компьютерные модели и анализы показали, что APE-сигнал сам по себе не достаточен для обучения, основанного на вознаграждении; однако в тандеме с RPE он стабилизирует и консолидирует устойчивые ассоциации «звук — действие». То есть две системы дополняют друг друга.
Ограничения
Во-первых, большая часть данных набрана на мышах.
Во-вторых, дофамин — это не монолит: разные субпопуляции нейронов, разные терминалы могут кодировать разные свойства. Собственно, данные модели в очередной раз показывают, что дофамин работает в десятки раз сложнее, чем себе представляют средние граждане.
Популярная наука
949 постов5.2K подписчиков
Правила сообщества