psy.jack социал психологизм

Action Prediction Error (APE) — отдельный сигнал обучения⁠⁠

В представлении среднего гражданина дофамин является гормоном удовольствия. Чуть менее средние граждане знают, что дофамин кодирует ошибки предсказания. В основном исследования были сконцентрированы на ошибке предсказания вознаграждения, но если они вас утомили, то предлагаю почитать свежие исследования об ином типе ошибок предсказания.

Коротко

Action prediction error (APE) — это ошибка предсказания, связанная не с ценностью вознаграждения (как reward prediction error), а с предсказанием самого действия. Недавние эксперименты показали, что дофамин в хвосте стриатума кодирует APE и служит «value-free» обучающим сигналом, который укрепляет повторяющиеся ассоциации «состояние — действие». Вместе с классическим RPE эти два сигнала работают в паре: RPE ориентируется на ценность, а APE формирует привычки и автоматические действия.

Новое платье старого короля

Классическая идея об ошибке предсказания была довольно простой и красивой: мозг сравнивание ожидание и реальность, а разница используется для обновления знаний. Традиционно внимание концентрировалось на ошибке предсказания вознаграждения и роли дофамина в её кодировании. Однако поведенические данные и теория давно намекали, что животные учатся не только на том, что приносит награду (и удовольствие, как частный случай), но и на повторяющихся конкретных действиях независимо от немедленной ценности.

APE — это попытка дать нейрофизиологическую и вычислительную форму вышеупомянутому способу обучения.

Что за зверь этот ваш APE?

Action prediction error — это сигнал, фиксирующий разницу между фактически выполненным действием и тем действием, которое система ожидала выполнить. В отличие от RPE, который обновляет значения состояний или действий на основе вознаграждения, APE укрепляет саму связь «состояние — действие».

Ключевые выводы последних работ (публикации на bioRxiv и в Nature):

Наблюдение APE в дофаминергических сигналах. В задаче аудиальной дискриминации у мышей движение-связанные всплески дофамина в хвосте стриатума соответствовали предсказанным/непредсказанным действиям, а не прямо значению вознаграждения.
Каузальность. Оптогенетические и иные манипуляции с этими сигналами изменяли обучение так, как ожидалось. Вмешательство нарушало закрепление повторяющихся ответов, но не моделировало привычное обновление ценностей. Это отличает APE от RPE по функциональным последствиям.
Модель и взаимодействие с RPE. Компьютерные модели и анализы показали, что APE-сигнал сам по себе не достаточен для обучения, основанного на вознаграждении; однако в тандеме с RPE он стабилизирует и консолидирует устойчивые ассоциации «звук — действие». То есть две системы дополняют друг друга.

Ограничения

Во-первых, большая часть данных набрана на мышах.

Во-вторых, дофамин — это не монолит: разные субпопуляции нейронов, разные терминалы могут кодировать разные свойства. Собственно, данные модели в очередной раз показывают, что дофамин работает в десятки раз сложнее, чем себе представляют средние граждане.

Коротко

Новое платье старого короля

Что за зверь этот ваш APE?

Ограничения

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества