Прошлые домены не функционирует! Используйте адрес ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Анон, нужен хороший материал по этой теме. Желательно с туториалом или просто с легкоперевариваемым примером а-ля "учим nn играть в tictactoe". Also любой годный материал приветствуется.
>>667029 там есть только по deep learning, который включает в себя сверточные nn; reinforcement learning там обходят стороной, как и на coursera. Я не знаю, включает ли nanodegree по MLE reinforcement learning, но брать его ради одной темы точно не выгодно.
Есть мн-во состояний, есть мн-во инпутов, по инпуту система из одного состояния переходит в другое.
В начальный момент времени оценка любого перехода одинакова и система выбирает рандомно.
Реинфорсемент лернинг заключается в том, что каждый устраивающий нас переход вознаграждается повышением его ценности (как следствие - вероятности выбора).
Проблемы - возможных переходов должно быть немного, иначе хуй обучишь - не должна быть важна история, только текущее состояние (очевидный костыль упирается в предыдущий пункт )