Reinforcement learning

Аноним 25/02/16 Чтв 13:55:49 #1 №666191

Анон, нужен хороший материал по этой теме. Желательно с туториалом или просто с легкоперевариваемым примером а-ля "учим nn играть в tictactoe". Also любой годный материал приветствуется.

Аноним 25/02/16 Чтв 14:20:12 #2 №666214

бамп, ну же, анончик

Аноним 25/02/16 Чтв 14:23:30 #3 №666218

Где-то тут есть тред по ML, там оп отвечает.

Аноним 25/02/16 Чтв 17:19:38 #4 №666398

>>666218
бамп, там молчат

Аноним 25/02/16 Чтв 18:18:49 #5 №666446

Едрить тебе неймется, прям вот сию минуту надо. Ну ладно, я сегодня добрый, держи: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html

Аноним 25/02/16 Чтв 18:42:32 #6 №666472

>>666446
вай спасибо

Аноним 25/02/16 Чтв 18:45:27 #7 №666477

14564151274190.jpg

>>666446
бля а как скачать?

Аноним 25/02/16 Чтв 18:55:17 #8 №666497

>>666477
Ты и требовательный к тому же. Вот тебе пдф черновика второго издания, это даже лучше должно быть: https://www.dropbox.com/s/b3psxv2r0ccmf80/book2015oct.pdf?dl=0

Аноним 25/02/16 Чтв 20:07:29 #9 №666609

>>666497
спасибо, анон

Аноним 25/02/16 Чтв 23:37:49 #10 №667029

смотри курс гугла на udacity

Аноним 26/02/16 Птн 18:53:57 #11 №667948

>>667029
там есть только по deep learning, который включает в себя сверточные nn; reinforcement learning там обходят стороной, как и на coursera. Я не знаю, включает ли nanodegree по MLE reinforcement learning, но брать его ради одной темы точно не выгодно.

Аноним 26/02/16 Птн 20:02:26 #12 №668020

Хуле надо-то.

Есть мн-во состояний, есть мн-во инпутов, по инпуту система из одного состояния переходит в другое.

В начальный момент времени оценка любого перехода одинакова и система выбирает рандомно.

Реинфорсемент лернинг заключается в том, что каждый устраивающий нас переход вознаграждается повышением его ценности (как следствие - вероятности выбора).

Проблемы
- возможных переходов должно быть немного, иначе хуй обучишь
- не должна быть важна история, только текущее состояние (очевидный костыль упирается в предыдущий пункт )

Все епта, че те еще.

Аноним 27/02/16 Суб 10:58:38 #13 №668436

14565599182840.webm

>>668020

Аноним 28/02/16 Вск 17:53:37 #14 №669975

>>668020
поразжеваннее есть какой-нибудь материал?

Аноним 28/02/16 Вск 20:14:21 #15 №670211

>>669975
Da ty ohuel. Куда уж разжеваннее.
Но вообще совсем для детей есть у Гарднера в какой-то из книжек.