6

Memory access fault

Всем доброго времени суток, пытаюсь обучать трансформер txt2txt, написал саму модель, написал скрипт обучения, собирался обучать, но внезапно столкнулся с ошибкой неизвестного происхождения: "Memory access fault by GPU node-1 (Agent handle: 0x165e34e0) on address 0x776fc5372000. Reason: Page not present or supervisor privilege.". Порыл интернет, забугорные форумы, но дельного ничего не нашёл. Работаю на своём компьютере:

  • rx 7900 xtx

  • 32gb ram

  • amd fx 8350(не спрашивайте)

  • pytorch 2.6.0 + rocm6.2.4

Товарищи, знатоки и потерпевшие(такие же, как и я), подскажите, пожалуйста, как побороть этот недуг?

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако!


Приветствуется:

• уважение к читателям и авторам

• конструктивность комментариев

• простота и информативность повествования

• тег python2 или python3, если актуально

• код публиковать в виде цитаты, либо ссылкой на специализированный сайт


Не рекомендуется:

• допускать оскорбления и провокации

• распространять вредоносное ПО

• просить решить вашу полноценную задачу за вас

• нарушать правила Пикабу