Action Prediction Error (APE) — отдельный сигнал обучения
В представлении среднего гражданина дофамин является гормоном удовольствия. Чуть менее средние граждане знают, что дофамин кодирует ошибки предсказания. В основном исследования были сконцентрированы на ошибке предсказания вознаграждения, но если они вас утомили, то предлагаю почитать свежие исследования об ином типе ошибок предсказания.
Коротко
Action prediction error (APE) — это ошибка предсказания, связанная не с ценностью вознаграждения (как reward prediction error), а с предсказанием самого действия. Недавние эксперименты показали, что дофамин в хвосте стриатума кодирует APE и служит «value-free» обучающим сигналом, который укрепляет повторяющиеся ассоциации «состояние — действие». Вместе с классическим RPE эти два сигнала работают в паре: RPE ориентируется на ценность, а APE формирует привычки и автоматические действия.
Новое платье старого короля
Классическая идея об ошибке предсказания была довольно простой и красивой: мозг сравнивание ожидание и реальность, а разница используется для обновления знаний. Традиционно внимание концентрировалось на ошибке предсказания вознаграждения и роли дофамина в её кодировании. Однако поведенические данные и теория давно намекали, что животные учатся не только на том, что приносит награду (и удовольствие, как частный случай), но и на повторяющихся конкретных действиях независимо от немедленной ценности.
APE — это попытка дать нейрофизиологическую и вычислительную форму вышеупомянутому способу обучения.
Что за зверь этот ваш APE?
Action prediction error — это сигнал, фиксирующий разницу между фактически выполненным действием и тем действием, которое система ожидала выполнить. В отличие от RPE, который обновляет значения состояний или действий на основе вознаграждения, APE укрепляет саму связь «состояние — действие».
Наблюдение APE в дофаминергических сигналах. В задаче аудиальной дискриминации у мышей движение-связанные всплески дофамина в хвосте стриатума соответствовали предсказанным/непредсказанным действиям, а не прямо значению вознаграждения.
Каузальность. Оптогенетические и иные манипуляции с этими сигналами изменяли обучение так, как ожидалось. Вмешательство нарушало закрепление повторяющихся ответов, но не моделировало привычное обновление ценностей. Это отличает APE от RPE по функциональным последствиям.
Модель и взаимодействие с RPE. Компьютерные модели и анализы показали, что APE-сигнал сам по себе не достаточен для обучения, основанного на вознаграждении; однако в тандеме с RPE он стабилизирует и консолидирует устойчивые ассоциации «звук — действие». То есть две системы дополняют друг друга.
Ограничения
Во-первых, большая часть данных набрана на мышах.
Во-вторых, дофамин — это не монолит: разные субпопуляции нейронов, разные терминалы могут кодировать разные свойства. Собственно, данные модели в очередной раз показывают, что дофамин работает в десятки раз сложнее, чем себе представляют средние граждане.
Электрический мини-насос для велосипедных шин
Нашел на Али и аналог на Яндекс Маркет
Ответ на пост «Подлый убивец пристрелил безобидных диких псов на детской площадке?»1
Собак люблю ужасно! Смотрю на своего бедного Йорика и не понимаю- как его можно не любить! Но, есть небольшое НО.
Приятель рассказывал, как его друг после возлияний, в жаркий день не дошел до дома, вырубился в парке и бездомные собаки просто обглодали ему лицо.. Повесился после долгого лечения..
Поэтому, вот таких дам - зоошизиков надо обязывать законом выбрать один из трех пунктов:
1) заткнуться
2) взять пса помойного себе домой и содержать его до выноса тела кого либо из них двоих
3) отстегивать( соблюдая п. 1) 3-5 тыр в месяц на содержание приютов.
Взять к примеру медведи , разве не классные? Классные, но только в лесу и по телевизору- но не в городе. В городе их нужно немедленно уничтожать. На северах никто не вопит- нетроньте белых медведей! Хотя они могут только понюхать вас- правда изнутри..
Вот если бы близкие этой тети попали бы под " обгладывание" лица , уверен, что она думала бы по другому.






