Сохранен 15
https://2ch.hk/pr/res/666191.html
Прошлые домены не функционирует! Используйте адрес ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Reinforcement learning

 Аноним 25/02/16 Чтв 13:55:49 #1 №666191 
14563977491840.png
Анон, нужен хороший материал по этой теме. Желательно с туториалом или просто с легкоперевариваемым примером а-ля "учим nn играть в tictactoe". Also любой годный материал приветствуется.
Аноним 25/02/16 Чтв 14:20:12 #2 №666214 
бамп, ну же, анончик
Аноним 25/02/16 Чтв 14:23:30 #3 №666218 
Где-то тут есть тред по ML, там оп отвечает.
Аноним 25/02/16 Чтв 17:19:38 #4 №666398 
>>666218
бамп, там молчат
Аноним 25/02/16 Чтв 18:18:49 #5 №666446 
Едрить тебе неймется, прям вот сию минуту надо. Ну ладно, я сегодня добрый, держи: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
Аноним 25/02/16 Чтв 18:42:32 #6 №666472 
>>666446
вай спасибо
Аноним 25/02/16 Чтв 18:45:27 #7 №666477 
14564151274190.jpg
>>666446
бля а как скачать?
Аноним 25/02/16 Чтв 18:55:17 #8 №666497 
>>666477
Ты и требовательный к тому же. Вот тебе пдф черновика второго издания, это даже лучше должно быть: https://www.dropbox.com/s/b3psxv2r0ccmf80/book2015oct.pdf?dl=0
Аноним 25/02/16 Чтв 20:07:29 #9 №666609 
>>666497
спасибо, анон
sageАноним 25/02/16 Чтв 23:37:49 #10 №667029 
смотри курс гугла на udacity
Аноним 26/02/16 Птн 18:53:57 #11 №667948 
>>667029
там есть только по deep learning, который включает в себя сверточные nn; reinforcement learning там обходят стороной, как и на coursera. Я не знаю, включает ли nanodegree по MLE reinforcement learning, но брать его ради одной темы точно не выгодно.
Аноним 26/02/16 Птн 20:02:26 #12 №668020 
Хуле надо-то.

Есть мн-во состояний, есть мн-во инпутов, по инпуту система из одного состояния переходит в другое.

В начальный момент времени оценка любого перехода одинакова и система выбирает рандомно.

Реинфорсемент лернинг заключается в том, что каждый устраивающий нас переход вознаграждается повышением его ценности (как следствие - вероятности выбора).

Проблемы
- возможных переходов должно быть немного, иначе хуй обучишь
- не должна быть важна история, только текущее состояние (очевидный костыль упирается в предыдущий пункт )

Все епта, че те еще.
Аноним 27/02/16 Суб 10:58:38 #13 №668436 
14565599182840.webm
>>668020
Аноним 28/02/16 Вск 17:53:37 #14 №669975 
>>668020
поразжеваннее есть какой-нибудь материал?
Аноним 28/02/16 Вск 20:14:21 #15 №670211 
>>669975
Da ty ohuel. Куда уж разжеваннее.
Но вообще совсем для детей есть у Гарднера в какой-то из книжек.
comments powered by Disqus