Data science thread Сап, программач. Я - аналитик, работаю на BI проекте с этой вашей информатикой, хадупом и dwh. По образованию статистик, английский свободный. ЯП не знаю, могу на джаве калькулятор запилить разве что. В универе работали с SPSS и чутка (совсем чутка R). Сейчас пошла новая тема,

Аноним 26/03/15 Чтв 09:23:04 #1 №455261

Data science thread

Сап, программач.
Я - аналитик, работаю на BI проекте с этой вашей информатикой, хадупом и dwh.
По образованию статистик, английский свободный.
ЯП не знаю, могу на джаве калькулятор запилить разве что. В универе работали с SPSS и чутка (совсем чутка R).

Сейчас пошла новая тема, как я смотрю, под названием наука о данных - смесь математики, статистики и понимания компьютерных технологий. Охуенне модно, оплачиваемо и шикарно.

Вопрос: кто че слышал? Что нужно знать, какие скиллы мне сейчас начинать подтягивать, чтобы туда муануться? Как раз читал, что нужны люди с математическим (статистическим) образованием и шарящие в IT.
Что вообще такие дата аналитики делают по факту? А то я читаю общие фразы типа "анализировать большие объемы данных, находить тренды).

Аноним 26/03/15 Чтв 09:57:26 #2 №455266

14273530463850.png

Подписался. Вброшу пару ссылочек.
http://www.startup.ml/resources
http://www.getadatasciencejob.com/advice/how-to-choose-a-data-science-project-for-your-data-science-portfolio
http://www.datasciencecentral.com/profiles/blogs/most-popular-data-science-skills

Аноним 26/03/15 Чтв 10:10:44 #3 №455268

Тебе стоит тянуть R, Data Mining, Text Mining, Machine Learning.
Тебе не соврали, анализировать большие объемы, строить модели, делать предсказания или же делать открытия на уже имеющейся куче всего. Могу только со стороны биоинформатики что-то вкинуть, например биологи и медики получают гигабайтные матрицы MicroArray или NGS c одного человека и должны на горе таких матриц сделать систему, которая будет диагностировать что угодно. Можно еще анализировать научные статьи и делать новые открытия. Вот. В экономике и психологии наверно вообще нет краю работы.

Здесь проводят соревнования по ДС.
http://www.kaggle.com/

Аноним 26/03/15 Чтв 10:28:37 #4 №455275

Весь т.н. "датасаинс" - обосанное говно для хипстерков.

Аноним 26/03/15 Чтв 10:32:56 #5 №455276

>>455275
Всё т.н. "программирование" - обоссаное говно для быдла.

Аноним 26/03/15 Чтв 10:35:40 #6 №455278

>>455276
Все - обоссаное говно.

Аноним 26/03/15 Чтв 11:02:16 #7 №455286

>>455278
Согласен.

Аноним 26/03/15 Чтв 12:07:03 #8 №455300

Мне вообще интересно какие примерно задания у дата аналитика? Помня свои пары анализа данных в универе, мне кажется, что это будет невероятно мутная поебень, определяющая в конце, что нужно поменять рекламу батончику "Марс".
Типа - вот тебе массивчик, почисти, структурируй, сделай регресионный анализ, а нам интересен процент, который выйдет в конце. Как-то так.

Опишите вообще, что придётся делать, если получаешь работу в сфере? Потому что я пока не уверен, что мне стоит рыпаться.

Аноним 26/03/15 Чтв 12:23:06 #9 №455302

>>455266
Эта картиночка с ачивками твоя?

Аноним 26/03/15 Чтв 12:25:04 #10 №455303

>>455302
da, ещё с edX парочка сертификатов есть.
а что толку, всё-равно работу найти не могу даже обычным программистом, лол

Аноним 26/03/15 Чтв 12:28:41 #11 №455304

Попробовал пару курсов универа Джонса Хопкинса, скука пиздец, подписался еще на два, потом дропнул. Да и этот R - говнище какое-то.

Аноним 26/03/15 Чтв 12:32:59 #12 №455305

Поясните за fexpr в R

Аноним 26/03/15 Чтв 13:15:28 #13 №455309

>>455261
>знает ингришь свободно
>спрашивает совета на двоще

Аноним 26/03/15 Чтв 13:36:42 #14 №455312

>>455309
Ой, блядь, на форчане сидят такие же аутисты, только у некоторых аутистов с двача хоть есть "хитровыебанная" славянская жилка, как выживать в тяжёлых условиях.
>>455303
Живу в Киеве, за последний месяц видел 4 вакансии для дата аналитиков. Сам не подавался, т.к. 3 из них показались скучными, а в четвёртой нужен был уверенный Python.
>>455304
Вот, блядь. Сижу учу джаву - это хоть интересно. В "R" засыпаю на второй странице. Сука, да, я могу построить регрессию, сделать какой-то там факторный анализ, но как же это скучно ебаааааать. Не могу представить себе ежедневного копания в говно-данных, пусть даже я умею это делать.

Аноним 26/03/15 Чтв 14:05:25 #15 №455317

14273679259510.jpg

>>455312
>Сука, да, я могу построить регрессию, сделать какой-то там факторный анализ, но как же это скучно ебаааааать. Не могу представить себе ежедневного копания в говно-данных, пусть даже я умею это делать.
Значит, это не твое. Переучивайся на слесаря.
А мне очень нравится романтика киберпанка, как в "Распознавании образов" Гибсона.

Аноним 26/03/15 Чтв 15:52:33 #16 №455346

>>455312
>"хитровыебанная" славянская жилка
Лол. Просто на форчане - твой вопрос - предмет дохода.

Аноним 28/03/15 Суб 00:10:50 #17 №456094

Анончик, можешь насоветовать каких-то интересных книг с R и анализом данных в этой сфере ? По R читаю Dalgaard P. - Introductory Statistics with R. И еще, что именно вы анализируете ? В каком виде входные данные ?

Аноним 28/03/15 Суб 01:33:56 #18 №456108

>>455305
бамп

Аноним 28/03/15 Суб 02:52:44 #19 №456114

14275003646010.jpg

14275003646061.jpg

14275003646082.png

>>456094
Сложно, что-то конкретное посоветовать. Литературы очень много.

Аноним 28/03/15 Суб 03:23:43 #20 №456120

Хоть один пример типовой задачи кто-нибудь приведёт уже?

Аноним 28/03/15 Суб 07:59:13 #21 №456139

>>456120
Типовая задача -- вот тебе набор данных (желательно в обосанном формате, лучше всего в картинках, которые надо будет распознать, или данные лежат на сайте с пагинацией с 20 элементами на страницу, сделанный на asp.net), скачай его, отредактируй как скажут, потом ебани какую-нибудь классификацию или регрессию, найди паттерн-хуятерн, снова обработай, залей в базу данных.

Аноним 28/03/15 Суб 14:23:26 #22 №456208

>>456120
Есть большая логистическая компания. У них тысячи грузовиков, водителей, перевалочных пунктов и т.д. При перевозке постоянно происходят аварии, неполадки, ЧП. Они хотят знать, по каким признакам можно предсказать вероятность аварии в поездке. Для этого собираются данные о водителях, машинах, маршрутах, а потом данные-ученый пытается построить модель.

Аноним 28/03/15 Суб 18:58:11 #23 №456306

>>455317
>история про типичную пизду-хипстершу и читательницу W-0-S
>романтика киберпанка

Аноним 28/03/15 Суб 19:01:20 #24 №456308

14275584800980.jpg

>>456208
>ученый пытается построить модель

Аноним 28/03/15 Суб 19:05:27 #25 №456309

>>456139
>потом ебани какую-нибудь классификацию или регрессию, найди паттерн-хуятерн, снова обработай
Типичная задача по data-mining из моего вузика, если не интересуешься математикой, то кажется унылым говном, хотя математики жи здесь и нет никакой, хуй знает кароче как не уснуть над этой хуйней. Только если ты ребенок-аутист?

Аноним 28/03/15 Суб 19:06:30 #26 №456310

>>456306
>W-0-S
двощь больше ни нужин)))))

Аноним 28/03/15 Суб 19:11:50 #27 №456312

>>456310
Что за ресурс, чем знаменит?

Аноним 28/03/15 Суб 19:25:48 #28 №456316

>>455278
Охуенно звучит, кстати. Теперь, буду напевать в маршрутке.

Аноним 28/03/15 Суб 19:33:56 #29 №456317

Не выебывайся и становись обыкновенной language-макакой.

Аноним 28/03/15 Суб 19:39:53 #30 №456321

>>456317
Если я получу data science образование, я смогу стать language-макакой?

Аноним 28/03/15 Суб 20:44:09 #31 №456339

>>456321
только если закончишь MIT

Аноним 29/03/15 Вск 00:36:10 #32 №456447

>>456309
>Типичная задача по data-mining из моего вузика,
Ну да, добавь еще визуализацию с графиками и какой-нибудь mapreduce на облаке.

Аноним 30/03/15 Пнд 01:05:34 #33 №456760

У меня вот такой вопрос: насколько тяжёлая мат. статистика ну и прочая математика, которая используется в сабже?

Аноним 31/03/15 Втр 19:14:24 #34 №456982

>>456760
Мат.статистика это что-то на уровне матана. Осилишь матан - осилишь статистику.

Аноним 01/04/15 Срд 17:32:43 #35 №457378

Годнота то в нити будет?

Аноним 02/04/15 Чтв 12:37:54 #36 №457730

Бля пацаны, вы меня расстраиваете. Я вот думал поступать в магистратуру на дата саенс, потому что мне нравится матеша, а тут вы говорите, что матеши там нихуя нет. Скажите, что это неправда.

Аноним 02/04/15 Чтв 13:29:33 #37 №457749

>>457730

Хуйня этот дата сайенс. Т.е. как хуйня: область весьма обширная и включает в себя много разной хуиты, и заниматься статистикой ты там будешь постольку поскольку.

Как у меня по специальность: проектирование и технология электронных средств. Что хочешь, то и делай: можешь платы разводить, можешь транзисторы эпитаксией выращивать, можешь кодить, причем не обязательно на ассемблере. В итоге умеешь всё и ничего. Так же и с твоим датасаенсом будет.

Аноним 03/04/15 Птн 01:10:47 #38 №458166

>>458121
Лови анон #F!x9ZBwAwb!ueq_6VRtk2ybcBhJEGwyEg

Но мы ведь все тут понимаем, что воровать это очень и очень плохо. Точно помню, что всякие шпрингеровские книжки по статистикал лёнинг можно найти в открытом доступе, плюс тот же ар графикс кукбук есть в открытом доступе в виде веб-книги. Всякие новостные рассылки по датасаенсу, типа датасаенсвикли, или дататудей, от ореили медиа, часто постоят ссылочки на книги в открытом доступе. Не говоря уже о количестве всяких гуидов на тематических ресурсах. Кстати, что-то из книжек с животными (вроде, программинг коллектив интеллигенс) даже переводили на русский и его можно купить за копейки.

Добра.

Аноним 03/04/15 Птн 06:56:24 #39 №458209

Гайз, есть шансы у экономиста обмазаться всякими R и прочим достаточно плотно, чтобы потом как-то применять это в работе? В универе преподают R на уровне "запилить регрессию, иерархическую классификацию и подрочить на красивый цветной график". Бтв, в матан почти не умею, даже диффуры уже почти не помню, линейку тоже, увы. Хотя с последним все не так плохо.
Короче, где экономика с анализом данных пересекается (кроме риск-менеджмента)? Что дрочить? Мб стоит забить на эти влажные мечты и пойти каким-нибудь горе-манагером за 30к/месяц?

Аноним 03/04/15 Птн 08:03:38 #40 №458216

>>457749
Во бля. Как и с микроэлектронникой. Закончил профильный колледж и вузик.
Нравилось. Интересно. Ощущаешь себя еба богом. Можешь всё.
А как выяснилось, имеешь представление обо всем. Но нихуя по настоящему не умеешь.
Недопояльщик, недопрограммист, недопроектировщик. Хуйня вобщем.

Аноним 03/04/15 Птн 09:42:23 #41 №458248

14280433435730.jpg

>>458209
Когда бабло надо распилить, тогда и пересекается.
Гугли распил, откат — вот и вся єкономика.

Аноним 03/04/15 Птн 12:24:56 #42 №458305

Ну читает нам один пидорок лекции по дата-майнингу, ну и хуйли он не уехал за бугор и не устроился в пиздатую компанию? Все это просто хуйня. Времени тратится дохуя(но оно хоть интересно, да) а выхлопа нехуя. Шансов устроится видимо немного + личные заебы человека, депрессии, склонность к самоубийству(тут я переборщил, конечно). Вот и работает такой парень потом в каком нибудь сраном вузике.

Аноним 03/04/15 Птн 12:26:44 #43 №458306

>>457730
Что значит матеша нравится? Любишь решать дифуры под водочку? Такое там есть, в принципе.

Аноним 03/04/15 Птн 12:30:46 #44 №458310

Вот, что я скажу. Становитесь language-макаками ради денег, обмазывайтесь литературой по философии, разным наукам, рефлексируйте, ставьте перед собой вопросы, снова рефлексируйте, ебите систему в рот, ссыте на даунят-хабрапидоров. Ну вы поняли, кароч.

Аноним 03/04/15 Птн 13:56:56 #45 №458349

>>458248
Соси хуй, быдло.

Аноним 03/04/15 Птн 16:07:02 #46 №458424

>>458305
Была у меня подобная история. Предмет назывался, вроде, СиМПР, типа системы и методы принятия решений. Хотя от предмета одно название, лекции, как мне сейчас кажется были вольной интерпретацией лекций Воронцова. Не буду тут вдаваться в подробности, но суть в том, что через несколько лет узнал, что наш препод тогда работал параллельно в маленькой конторе тесно связанной, то ли с хуяндексом, то ли с лицокнигой (вроде, занимался задачами распознавания образов). А преподавал он, потому что мог, ну и, в целом, продолжал научную деятельность. Ему, похоже, было норм.

>>458209
Анон, глянь в сторону ФИНАНСОВ и всяких биржевых ботов.
Попробуй погуглить Introduction to R for Quantitative Finance , Intro to Computational Finance with R, Python for Finance и подобные штуки. Посмотри о чем там пишут и что делают, может это поможет как-то сориентироваться.

Аноним 04/04/15 Суб 11:45:40 #47 №458675

>>458306
Да я хуй знает, мне почти все нравится, что в вузе было. Теория графов, линал, что угодно короче. Ну тервер еще, понятное дело.

Аноним 04/04/15 Суб 12:29:27 #48 №458694

Делаю DWH, инструменты и отчёты для Онолитегов.

Жалко этих животных - перекладывают бумажки, делают вид, что полезны и придумывают как оправдать своё существование пиша записки руководителям.

Аноним 04/04/15 Суб 15:16:53 #49 №458747

>>458694
лол как будто работа быдлокодера сильно отличается

R lang Аноним 15/04/15 Срд 11:13:01 #50 №464059

14290855820000.png

Короче сижу сейчас разбираюсь на работе в свободное время.
Есть один вектор с кучей данных. Удалось при помощи кат разбить на 5 частей интервалы(факторы, вроде как на пике видно), удалось также узнать сколько каких элементов при помощи тейбл.

Теперь мне надо:
1)Составить табличку интервалов этих и посмотреть сколько в каждый интервал попадает элементов аля table(stat), но только по интервалам. Что-то я запутался как через фактор это сделать

Аноним 15/04/15 Срд 11:17:53 #51 №464062

>>464059
Хотя все удалось, отбой, лол. Осталось тогда узнать как через датафрейм зафигарить табличку, чтобы в документ сразу хуйнуть и табличку и гистограму по ней

Аноним 15/04/15 Срд 11:18:09 #52 №464063

14290858891310.png

>>464062

Аноним 15/04/15 Срд 15:23:33 #53 №464141

Посоны, посоветуйте книг по машинному обучению и статистике 101, попроще, обзорных типа, а то слишком много терминов, не понятно, что на самом деле используется в data science.

Аноним 05/05/15 Втр 15:30:11 #54 №473924

bump;3

Аноним 05/05/15 Втр 15:52:55 #55 №473933

>>464141
Бамп вопросу.
Кстати, есть тут использующие Julia? Посмотрел, выглядит заебись, хоть и сырая.

Аноним 05/05/15 Втр 16:19:27 #56 №473941

>>464141
Лучше курсы проходи, там разжевывают.
>что на самом деле используется в data science.
Модные фреймворка меняются, как перчатки. Почти как у джаваскриптовых макак.

Аноним 05/05/15 Втр 16:37:45 #57 №473950

14308330652420.png

>>473941
Да я смотрел пару базовых курсов по обучению и статистике, все равно особо непонятно, что используется ежедневно.
>Модные фреймворка меняются, как перчатки.
Что ты имеешь ввиду под фреймворком?

Аноним 05/05/15 Втр 17:23:00 #58 №473960

>>473950
Программные комплексы для решения задач в дэйта саенсе.
Например, пару лет назад все угорали по R, теперь это вроде как не модно уже. Теперь питон в почете с твоим пикрелом. Уверен, что через пару лет и он уступит пьедестал какой-нибудь джулии.

Аноним 05/05/15 Втр 20:15:37 #59 №474039

14308461375960.jpg

>>473960
У нас есть, занесу 80%.
Дорого.

Аноним 10/05/15 Вск 12:56:10 #60 №476264

>>455261
Встречал вот такую статью: habrahabr.ru/post/252743/

Аноним 10/05/15 Вск 22:09:19 #61 №476533

Господа, а бустинг линейными классификаторами это норм идея? Я вот написал и не могу понять оно не работает из-за того что идея тупая или из-за того что реализация тупая. Пытаюсь кучей логистических регрессий линейно неразделимую выборку разделить.

Аноним 11/05/15 Пнд 01:08:02 #62 №476616

>>456339
>только если закончишь MIT
любители раскрывать "правду" давно уже все разобрали по косточкам: mit просто собрание фриков, успешно пиарящих сябя уже пол века, в то время как все it делали в других американских вузах и научных центрах, в завязке на бизнес, разумеется

Аноним 11/05/15 Пнд 12:19:07 #63 №476718

>>476533
Идея тупая. Линейная комбинация линейных классификаторов это линейный классификатор.

Аноним 11/05/15 Пнд 13:20:11 #64 №476735

>>455261
> работаю на BI проекте с этой вашей информатикой, хадупом и dwh.
>ЯП не знаю
В хадупе разве не нужно программировать?

Аноним 11/05/15 Пнд 13:21:38 #65 №476736

>>476718
А нейросеть тогда почему нелинейный классификатор?

Аноним 11/05/15 Пнд 14:08:42 #66 №476763

>>476736
Из-за нелинейной фунции активации.

Аноним 12/05/15 Втр 03:31:43 #67 №477171

>>455261
Где работаешь? Хотя бы город-зарплата.
Что посоветуешь в первую очередь из практики учить, помимо хадупа твоего ебучего.

И вообще вопрос всем анонам, где работу нашли?

мимо начал вкатываться месяц назад

Аноним 12/05/15 Втр 22:33:06 #68 №477537

>>476718
Но ведь логистическая регрессия и перцептрон - линейные классификаторы но бустинг на них по идее будет линейной комбинацией над нелинейными функциями типа сигмоидальной функции активации или функции знака.

А бустинг с ними всё-равно не работает, лол, поясните в чём проблема: https://github.com/olologin/AdaBoost-with-logistic-regression/blob/master/ada_boost.py

Аноним 12/05/15 Втр 23:08:57 #69 №477552

>>477537
>у меня программа не работает, помогите)
Чувак, это же не пхп-тред. Ковыряйся, пока не заработает.
По сути ты прав, и тот мой аргумент здесь не применим, если ты бустишь их вместе с логистической функцией. Но никто тебе не обещал, что это обязано работать.

Аноним 12/05/15 Втр 23:42:10 #70 №477571

>>477552
Ну я же не прошу код исправить, просто посмотрите кому не лень, там на sklearn, по идее ведь всё верно в коде, и в теории ничего не мешает, но на деле не работает.

Аноним 14/05/15 Чтв 09:05:34 #71 №478115

>>455312
>Не могу представить себе ежедневного копания в говно-данных
Без исследовательского интереса в анализе данных делать нечего. Потому как вся суть работы, кайф в том, чтобы выдвигать гипотезы, а затем придумывать статистики и алгоритмы для проверки этих гипотез на данных. Одним словом, играться с данными.
>>455304
>R - говнище какое-то
Согласен, плохой синтаксис, медленные стандартные решения, но обилие пакетов заточенных для самых разных задач оставляют его вне конкуренции. Поглядываю в сторону: http://julialang.org/, но предобработку данных провожу таки на питоне.
>>456094
Читай Хэсти и Тибширани (особенно вторую)
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf
http://statweb.stanford.edu/~tibs/ElemStatLearn/

Мое мнение читать книги по языку, довольно бессмысленно. По математической теории - да. А по языку бессмысленно. Нужна хорошая практическая задача. Решая ее разберешься в тонкостях языка.
>>464062
data.frame сосет, data.table решает :)

Занимаюсь буквально говноданными (человечий метагеном)

Аноним 14/05/15 Чтв 15:05:52 #72 №478205

>>478115
> По математической теории - да
А какая нужна математическая теория?
Какие MOOC`и/видеолекции (желательно с задачами) посоветуете?
Какие книги?

Аноним 14/05/15 Чтв 23:06:28 #73 №478525

14316339885800.png

>>478205
Царских путей и тут нет.
Матан, алгебра -> вероятность -> статистика, машинное обучение, дискретная математика. Это что касается математики. Это все должно ложиться на хорошее знание алгоритмов: когда размер данных исчисляется сотнями Гб всё имеет значение, понимаешь, что вычислительная сложность - это не просто слова. Помню, как проклинал себя, когда расчет занимавший порядка недели на нашем кластере после небольших изменений сработал за несколько часов.
В довесок к этой базе уже можно какие-то специальные знания добавить типа NLP или биоинформатики.

Если есть возможность, поступай в ШАД или Питерский CS клуб. Если такой возможности нет, то можно ориентируюсь на их же программу построить самообучение.
https://yandexdataschool.ru/edu-process/courses

Тут я собрал книжки по предметам, связанным с анализом данных разного уровня сложности, может кому окажется полезным: https://mega.co.nz/#F!jpFXxTTT!Pc7huVY_ssq4-scbz_hrWQ

MOOC я не проходил. Но, вроде, для начинающих хороши эти два:
https://class.coursera.org/ml-005/lecture
https://work.caltech.edu/telecourse.html
По статистике хороший трек:
https://www.coursera.org/specialization/jhudatascience/1

Я нечасто бываю в /pr , а вообще эта тематика (науки о данных) широкие массы ананасов интересует?

Аноним 15/05/15 Птн 01:25:06 #74 №478596

>>478525
Интересует конечно.

Аноним 15/05/15 Птн 02:35:36 #75 №478616

>>478525
Широкие, наверное, нет. Но парочка жаждущих ананов имеется.
Скажи. как устраивался? Сам учился, или с корочкой какой?

Закончил днищенский примат в днищенском региональном универе. Сейчас опомнился. Вот потихоньку читаю теорию и дрочу kaggle. думаю как на работку вкатиться.

Аноним 15/05/15 Птн 23:55:10 #76 №479033

>>478616
Что читаешь?

Аноним 17/05/15 Вск 09:59:20 #77 №479624

>>478525
>а вообще эта тематика (науки о данных) широкие массы ананасов интересует?
Да. Ну тут анона 4-5 интересует.

Аноним 17/05/15 Вск 10:54:40 #78 №479628

14318492806610.jpg

>>478616
Сейчас я заканчиваю аспирантуру. В анализ данных я пришел из науки. Вообще, как я это вижу, сейчас в трех областях науки требуются специалисты по работе с большими данными.
Первое, это физика высоких энергий. За примером далеко ходить не надо, Яндекс сотрудничает с ЦЕРНом (центром европейских ядерных исследований). Они делают систему сбора, хранения и обработки данных для них: https://events.yandex.ru/lib/talks/1142/ Более того у них периодически появляются соответствующие вакансии.

Второе, это социальные исследования. Тут диапазон широк от текст майнинга газетных и научных статей до исследования поведения в соцсетях. Как яркий пример - лаборатория Цезаря Идальго: http://macroconnections.media.mit.edu/

И третье, это современная молекулярная биология и генетика. С 00-х годов появились так называемые омиксные технологии (геномика, протеомика, метаболомика, транскриптомика и еще куча всяких ..омик), когда измеряются сразу тысячи молекулярно-биологических параметров. Это все надо как-то обрабатывать. В первых двух областях более или менее обходятся своими людьми. В биологии же жесточайший дефицит кадров. Не потому что биолог туп и не может обработать то, что намерил, а потому что у них мышление несколько отличается от технического.

Поэтому, ананас, если ты хочешь всерьез заняться анализом данных в биологии (а в ближайшее время биоинформатические стартапы начнут появляться как грибы после дождя), советую:
Летняя школа по биоинформатике (прием заявок до 25 мая: http://bioinformaticsinstitute.ru/summer2015

Московская школа биоинформатики (прием анкет до 20 мая):
http://bioinformaticseminar.com/ru/wiki/new/
https://docs.google.com/forms/d/1CVgNV2K6ahV3n3ZoxX3OqJyB0T8s8fLtKZvwKuvpzwI/viewform?c=0&w=1

Питерская школа: http://bioinformaticsinstitute.ru/admission

Канал ФББ на ютубе: http://www.youtube.com/channel/UCIJFh3YRq7nVQNJAd68nkOw

Аноним 17/05/15 Вск 11:10:18 #79 №479633

>>455261
>Что вообще такие дата аналитики делают по факту? А то я читаю общие фразы типа "анализировать большие объемы данных, находить тренды).

Так как я больше по науке, мне трудно судить об индустрии, но судя по рассказам знакомых, ML вот для чего может быть нужно.
Пример 1: Сбербанк. Нужно выдать кредит, как определить благонадежность клиента? Поднимается статистика по выплатам людей с таким же доходом, профилем трат, образованием и т.д. На основании этого выносится решение.
Пример 2: Амазон. Ты смотрел эти и вот эти книжечки, что тебе посоветовать, чтобы ты купил в довесок к просмотренным? Все то же, поднимается статистика, смотрится какие книги люди чаще покупают вместе.

Пример 3: Яндекс, Гугл: таргетированная реклами, нафсэд.

Пример 4: Ив Роше: есть статистика по продажам кучи разных духов за последние 5 лет. Видны всплески и падения спроса в разное время. Задача - обучиться на этих данных и построить эффективную систему для определения цены товара.

Аноним 18/05/15 Пнд 19:56:32 #80 №480360

Есть вообще какие-нибудь конфы или форумы по этой теме? Ну чтоб серьёзные вопросы задать, алгоритмы обсудить. Англоязычные сообщества там. В этом разделе нас не много и тут особо не задашь вопросов.

Аноним 18/05/15 Пнд 20:35:14 #81 №480383

>>479628
можно в биоинформатику если не знаешь ничего про данные: биологию, химию?
я начал с биологии клетки. даже не смотрел, чем занимается биоинформатика. курс по биоинформатике, который глянул мельком, дает алгоритмы. хотя не особо разбирался, но оперирует непонятными словами из биологии.
а так-же взялся за химию.
но далеко не ушел, так-как не понял про энтропию и начал изучать статистическую физику, а до нее матан и много всего другого нужно изучить.

Аноним 18/05/15 Пнд 21:21:19 #82 №480419

>>480360
тут неплохой набор ссылок http://www.reddit.com/r/MachineLearning/wiki/index

Аноним 18/05/15 Пнд 23:15:05 #83 №480551

>>480419
>>480360
Я как-то так и не смог привыкнуть к реддиту, но регулярно почитываю:
http://www.r-bloggers.com/
http://flowingdata.com/

>>480383
Ну так можно до бесконечности расползаться вширь. Да, биоинформатика требует понимания биологической сути дела, но это понимание приходит уже в работе в процессе обсуждения с людьми.
Курс биологии:
https://goo.gl/srmq2g

Аноним 19/05/15 Втр 00:19:32 #84 №480584

Как вам программа
Сперва курс R
Затем курсы статистики на удасити.
Затем продолжить курсы дата саенс на курэре.
Затем куда?

Аноним 19/05/15 Втр 00:33:10 #85 №480590

>>480584
Полы мести.

Аноним 19/05/15 Втр 13:56:09 #86 №480741

>>480383
>а до нее матан и много всего другого нужно изучить
Сначала нужно изучить логику, основания математики. Скоро ты поймешь, что без хорошей базы по философии и методологии науки ты далеко не продвинешься.
Затем тебя ждет увлекательный мир теологии, космологии, этики, истории. Тебе откроется понимание на совершенно новом уровне таких областей, как юриспруденция и политика. Когда ты поймешь самую суть трудов Маркса и Гете, когда ты сможешь назвать основные параллели между книгами Ленина и мифами древней Эллады, ты, наконец, сможешь удалиться от общества в пещеру и посвятить остаток своей жизни изучению самого сложного явления во вселенной: своего разума.

Аноним 19/05/15 Втр 18:58:45 #87 №480867

>>480741
Хочешь причаститься к миру сложной электроники - надо познать саунддизайн. Начинай с чего-нибудь простенького типа эмбиента/академического минимализма. Постепенно двигайся в сторону фри импрова/академического авангарда. Эти 4 жанра должны отучить тебя от мышления категориями нот и ритмов. Дальше начинай слушать Noisia, Phace, Teebee, Blu Mar Ten. Потом снова приходи за советом.

Аноним 23/05/15 Суб 14:09:32 #88 №483318

Что можно по NLP почитать?

Аноним 23/05/15 Суб 15:22:04 #89 №483362

>>483318
лол, в /psy

Аноним 23/05/15 Суб 18:25:18 #90 №483455

>>483362
Казалось бы, причём тут natural language processing.

Аноним 27/05/15 Срд 16:01:21 #91 №485953

Братишки, будьте людьми, посоветуйте серьёзную не модельную выборку в которой все признаки вещественные или натуральные числа, ну и желательно чтоб только 2 класса было. Надо лабу сдать, написал бустинг над решающими деревьями на R (Всю реализацию). Но преподу приелись всякие ирисы и прочее, хочет чего-то реального.

Аноним 27/05/15 Срд 16:16:14 #92 №485971

>>485953
https://www.kaggle.com/

Аноним 27/05/15 Срд 16:23:31 #93 №485982

>>485971
Да я и на UCI смотрел, сложно найти что-то подходящее, в kaggle вообще сортировки нет по параметрам выборки.

Аноним 02/06/15 Втр 13:48:02 #94 №489787

Бамп этому говну. Хочу в сфере ИИ вариться, стоит ли идти в ШАД?

Аноним 02/06/15 Втр 18:22:07 #95 №490012

>>489787
Там не особо простой экзамен и программа умеренной сложности, на много месяцев. Зачем?

Аноним 03/06/15 Срд 00:06:06 #96 №490208

http://blog.kaggle.com/2015/05/26/microsoft-malware-winners-interview-1st-place-no-to-overfitting/
Бомбануло малёха, парни не особо шарят и сделали совсем наркоманские шаги типа добавления признаков интенсивностей пикселей, если читать дизассемблированный текстовый файл как grayscale изображение. И при этом всё оно работает, они не знают почему но оно работает.

>>489787
В ШАД можно только Москвичам?

Аноним 03/06/15 Срд 00:08:35 #97 №490211

Посоны, чёт задумался, а можно ли граф неопределённого размера представить в удобоваримом виде для ML алгоритмов? Ну всмысле какие признаки выделить можно чтоб к примеру сравнить 2 графа?

Аноним 03/06/15 Срд 11:55:52 #98 №490388

>>490208
>если читать дизассемблированный текстовый файл как grayscale изображение
Это фактически вариант 1-gram фичей. Изображение тут ни при чем, насколько я понял. Непонятно, зачем они его приплели. Фактически там читается текстовый файл, как бинарный, и в качестве фичей используются ASCII коды текста дизассемблера. Нормальный poor man's подход.

Аноним 04/06/15 Чтв 00:25:28 #99 №490775

>>490211
Я не совсем понял твой вопрос. Но если ты говоришь про общие топологические свойства графа, то
Распределения степеней вершин, центральностей (centrality), длин путей, кол-во связанных компонент

Аноним 04/06/15 Чтв 00:32:45 #100 №490777

>>485953
Как, я понимаю, любой датасет картинок тебе подойдет.

Аноним 08/06/15 Пнд 22:04:45 #101 №493576

Кто с R может помочь, есть вектор с 100 элементами, надо чтобы он как-то равномерно его разбил на интервалы на 10 частей, допустим 1-4 5-9 и т.д. и показал бы сколько элементов в каждый интервал входит. Я пока не могу понять как делать, разобрался как просто вывести сколько элементов каждого типа (Table(stat)
А с интервальным никак

Аноним 09/06/15 Втр 08:58:50 #102 №493661

>>493576
1. Катом
table( cut ( v, breaks=c(5:5:100) ) )
2. Можно даже и делением нацело
table( v %/% 5 )

Аноним 09/06/15 Втр 14:32:17 #103 №493784

>>493661
С катом разобрался, но как-то криво порезал он мне, по идее мастита делаю, по формуле получилось на 8 разбивший шагом 2. А он мне наркоманию выдал, в итоге в окончательной формуле ниифига не 1 получает, а меньше, если брать средне интервальное

Аноним 10/06/15 Срд 09:22:46 #104 №494418

Никто не хочет на Kaggle порешать задачи? Я вот смотрю на https://www.kaggle.com/c/denoising-dirty-documents и не могу понять, она уже решена и типа вводной для ньюфагов или это хорошая задача? Ну потому-что я не особо представляю как от такого шума избавляться, т.е вроде и примерно догадываюсь но алгоритм не могу придумать чтоб это всё быстро считалось.

Аноним 10/06/15 Срд 12:24:23 #105 №494495

>>494418
>Acknowledgements
>Kaggle is hosting this competition for the machine learning community to use for fun and practice

Инструментарий Аноним 04/07/15 Суб 01:57:48 #106 №508816

14359642685560.png

Дамы и господа, просветите по некоторым вопросам плз:

1) R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? Что более востребовано на сегодня? В гугле по этому вопросу всякий шлак: сравнение производительности, синтаксиса, etc. Много ли в R либ, которые реально очень нужны для полноценной работы, но отсутствуют в питоне?

2) Какова реальная важность SQLя в ds?
2.1) Во всех вакансиях просят %sql% от "уверенного" до "экспертного", хотя, как я понимаю, важно только достать данные из базы, а вся основная варка происходит в питоне или арррр. Я ведь правильно понимаю?

3) Есть ли нормальные альтернативы перечисленному выше софту? Почему у таблеау(см рис. 1)%вообще ни разу не видел в вакансиях% такая з\п медиана, тут есть подвох?
Видели ли вы хоть раз в данной сфере вольфрам математику?

Аноним 04/07/15 Суб 02:29:45 #107 №508830

>>508816

> 2) Какова реальная важность SQLя в ds?
Не знаю, но я бы лично людей не освоивших нормализацию, транзакции и внешние ключи, к написанию SQL кода не подпускал бы вообще (заметьте я не включил индексы в список).

Аноним 04/07/15 Суб 14:45:01 #108 №508986

>>508816
>R vs Python + (numpy + .. + pandas). В чём фундаментальная разница?
R - изначально язык анализа данных (причем, с предшествующей историей в виде S и S-plus), тогда как все костыли для пистона - всего лишь костыли для всего лишь проходного ЯП.

Аноним 04/07/15 Суб 20:17:11 #109 №509112

>>508986
R - тормозное говно, спасают его коммерческие реализации. python его вытеснит.

Аноним 04/07/15 Суб 20:36:47 #110 №509121

>>508816
> R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? Что более востребовано на сегодня?

Аноним 04/07/15 Суб 20:43:52 #111 №509124

>>508816
> R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? Что более востребовано на сегодня?
В этой отрасли обычно это личный выбор исполнителя. Конечно, если тебя возьмут 10-м, то придется подстраиваться, а так, что тебе удобнее, то и выбираешь. А знать нужно ВСЕ, лол.

Аноним 07/07/15 Втр 18:00:32 #112 №510454

Новый положняк вышел, кажется. gbm больше не в моде, четкие пацаны пользуют xgboost.

Аноним 08/07/15 Срд 00:59:15 #113 №510742

Работаю быдлокодером в около-cs теме (кластеризация, ранжирование). Вечно для работы не хватает знаний линала и статистики. Не подскажите годные курсы? Осло по машинному обучению курсы на курсере тож слабоваты.

Аноним 08/07/15 Срд 01:35:55 #114 №510762

>>510742
Тебе, видимо, мозгов не хватает, а не знаний линала. Но вообще почитай An Introduction to the Conjugate Gradient Method Without the Agonizing Pain

Аноним 08/07/15 Срд 16:53:34 #115 №511053

>>480360
Давайте запилим свою конфу.

Аноним 08/07/15 Срд 19:48:30 #116 №511133

>>511053
Плюсую предложение

Аноним 08/07/15 Срд 21:07:13 #117 №511198

>>455300
>деляющая в конце, что нужно поменять рекламу батончику "Марс".
>Типа - вот тебе массивчик, почисти, структурируй, сделай регресионный анализ, а нам интересен процент, который выйдет в конце. Как-то так.
>
>Опишите вообще, что придётся делать, если получаешь работу в сфере? Потому что я пока не уверен, что мне стоит рыпаться.
Ты почти уловил суть аналитики, только тебя спрашивают, сколько надо говна чтобы было ништяк. Ты придумываешь алгоритм, вырываешь массивы данных из различных источников, сводишь, анализируешь, виртуалишь зависимость ништяка от повышения уровня говна, находишь эффективные значения, выдаешь. Приходишь к Боссу говоришь, вот расчеты, нам нужно 5 кг говна.

Аноним 08/07/15 Срд 21:09:44 #118 №511205

>>455300
Ну и плюс да, отчетность по ключевым моментам, из больших массивов выдаешь красивые циферки с динамикой и хорошо-плохо графиками.
Во всяком случае у меня так.
511198-кун

Аноним 09/07/15 Чтв 02:13:19 #119 №511356

>>511205
А где работаешь? В Этой Стране вообще возможно джуниору попасть на работу, или шесть лет учить питоныхадупы в Гималаях перед этим?

Аноним 09/07/15 Чтв 12:45:56 #120 №511483

>>511198
Что-то как-то скучновато и не очень интересно.

Аноним 09/07/15 Чтв 13:11:53 #121 №511497

Вот ведь стрёмно будет несколько лет вникать в машинное обучение только для того, чтобы написать рекомендационный движок, который подскажет тысяче жирных пидоров какой дилдак ему может понравиться. Я хочу двигать индустрию и науку вперёд, а помогать продавать всякую тупую хуйню.

Аноним 09/07/15 Чтв 13:29:33 #122 №511511

>>511497
Двигателей науки нужно не очень много, и все эти места заняты более умными и инициативными людьми. А торговцев дилдаками нужно много, да и требования там пониже.
Твои желания никого не волнуют. Будешь продвигать дилдаки.

Аноним 09/07/15 Чтв 13:54:33 #123 №511530

>>511497
Разделение теории и практики сосёт. Чистая прикладуха = только ради результата, а программист ради результата - это неустойчивая временная точка, так как если результат - деньги, которые ему обеспечивают что-то другое, то такой человек будет тяготеть не работать вообще, если этих денег достаточно, а если недостаточно - быть менеджером или директором каким-то, ведь там можно заработать больше и проще, а если результат - софт, то такой человек напишет софт который ему нужен и потеряет цель. Если человек продолжает делать Х даже если у него нет острой надобности в деньгах, и даже если он уже написал какую-то хуйню которая была его целью в прошлом - это уже значит, что человек НЕ ЯВЛЯЕТСЯ чистым практиком. Чистая теория сосёт тем, что эльфы изучают реальность, находясь за её пределами и не имея возможности к ней прикоснуться. Понятно, что попутно не получается хороших аппликаций результатов их деятельности к RealWorld. А раз их нету, закономерно, что финансирование на такую деятельность можно ожидать только от государства в виде дотаций. Грантовые подачки - это реально полная хуйня, это неестественно и несправедливо. Бизнес должен платить за науку, результатами которой он пользуется. И то, что результаты уходят после этого в общественное достяние - это норма, зато созданные в процессе их аппликации остаются частной собственностью конкретного бизнеса.

Аноним 09/07/15 Чтв 23:32:49 #124 №512057

>>511530
Сеги даунам с модными баззвордами

Аноним 11/07/15 Суб 13:37:11 #125 №512876

Тут есть какие-нибудь знатоки нейронных сетей? Можете подсказать, как их обычно визуализируют? Где-то что-то видел про карту активации, но ничего не гуглится на эту тему, возможно кто-то сам для себя придумал этот термин.

Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает?

Аноним 11/07/15 Суб 19:35:38 #126 №513013

>>512876
Бамп вопросу, епт

Аноним 11/07/15 Суб 19:52:17 #127 №513023

>>513013
Я не знаток.

Аноним 11/07/15 Суб 20:10:51 #128 №513031

>>512876
https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C_%D0%9A%D0%BE%D1%85%D0%BE%D0%BD%D0%B5%D0%BD%D0%B0 и диаграмма Вороного.

Аноним 11/07/15 Суб 20:20:23 #129 №513039

>>512876
>Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает?
Так нагугли код как он это делает. Оптимизируется вход так, чтобы на выходе было требуемое. Оптимизируется с помощью градиентного спуска, градиент вычисляется обратным распространением ошибки.

Аноним 12/07/15 Вск 05:29:07 #130 №513240

>>513039
Я не оч в теме разбираюсь но кажется формула градиента используется для обратного распространиения ошибки а не наоборот.
Олсо нашел годные курсы наконец http://ocw.mit.edu/courses/#mathematics думаю попроходить что-нибудь

Аноним 12/07/15 Вск 06:21:20 #131 №513259

>>513240
Градиент вычисляется с помощью обратного распространения. Там исходников 20 строк (функция make_step что ли), неужели трудно разобраться?

Аноним 12/07/15 Вск 11:23:14 #132 №513304

14366893941950.jpg

Уроды, как же вы затрахали. БИГ ДАТА, ДАТА САЁНС, ДАТА МАЙНИНГ СТИЛЬНО МОДНО МОЛОДЕЖНО МНЕ 30 ЛЕТ ОБРАЗОВАНИЯ НЕТ ХОЧУ БЫТЬ УЧЁНЫМ - причем таких полуёбков дохуя не только здесь. Откуда вы такие тупорылые вылезаете? Что вы собрались анализировать? С чего вы взяли, что именно вы будете получать бешеные тысячи, имея знания в такой узкой области, как статистический анализ данных? Это же всего лишь инструмент.

Аноним 12/07/15 Вск 12:08:22 #133 №513312

>>513304
> всего лишь инструмент
И сразу нахуй. Я долго думал и анализировал этот аргумент и пришёл к выводу, что он совершенно ебанатский и глубоко нигилистический. Первое его раскрытие превращается в что-то вроде "это всего лишь способ решать такие-то задачи, а потому он не имеет ценности если ты не решаешь конкретную задачу прямо сейчас". И уже здесь можно смело слать дибила нахуй. Потому что любая профессиональная деятельность заключается в надрачивании инструментов и методов для решения задач, которые перед соответствующим (будущим) профессионалом ЕЩЁ НЕ ПОСТАВЛЕНЫ, и НЕИЗВЕСТНО КАКИЕ ИМЕННО ОНИ БУДУТ. Представь себе если б никто не начинал изучать программирование до тех пор, пока их не взяли на работу и не дали задачу. Вот ты предлагаешь такой подход в дата сцае. Еблан. Ты вообще хоть программист, или очередной залётный заправщик картриджей из /s/, который неосилил даже кодинг, потому что ГДЕ ГАРАНТИИ ЧТО ИМЕННО МЕНЯ ВОЗЬМУТ НА РАБОТУ С ИМЕННО ТАКИМИ ТЕХНОЛОГИЯМИ? Короче нахуй иди мразь тупая.

Аноним 12/07/15 Вск 14:34:24 #134 №513349

14367008642150.jpg

>>513304
Уроды, изучайте матчасть. Вы взрослые уже.

Аноним 12/07/15 Вск 15:03:32 #135 №513356

>>513304
У меня есть познания в том, как ебать твою мамашу-шлюху. Анализируя её поведение во время процесса, можно будет определить, в какие моменты нужно присунуть поглубже, а в какие - замедлиться. В итоге, она будет давать мне больше денег.

Аноним 12/07/15 Вск 15:21:20 #136 №513362

14367036805380.png

14367036805401.png

>>513312
А вот и вся суть бигдаты:

Аноним 12/07/15 Вск 16:33:35 #137 №513397

>>513362
Рептилоиды раньше форсили PLT в надежде что людей увлёкшихся языкодрочем можно потом посадить за любые задачи. Но суть и мотивацию этих людей они не поняли, подопытные в итоге оказались особой породой пуристых теоретиков шизоидов любителей фундаментального дроча в крайне экзотическом для таких вещей контексте. Теперь рептилоиды переключилсь на датасцай, чтобы подсовывать людям корпоративную парашу под видом всяких BI, к которым аккуратно пробрасывается ассоциативный ряд датасцая. Я подозреваю, что их ждёт абсолютно аналогичный провал. Хорошие датасцаетисты окажутся экзотическим сортом computational статистиков и вероятностных теоретиков, и будут говорить, что офисное говно тривиальное и скучное, это ненастоящая статистика и им там делать нечего.

Аноним 12/07/15 Вск 16:38:38 #138 №513401

А я почему-то всегда как-то скептично относился ко всем этим big data, data mining, data science etc.

А теперь открыалсь кое-где позиция профессора в одном институте по big data. Вот, сижу, думаю, писать ли резюме.

Мимо controls engineer

Аноним 27/07/15 Пнд 00:29:50 #139 №521348

14379461907300.jpg

Маленько проиграл только-что. В США обычная жавамакака Раджеш вызубрившая паттерны и пихая их куда попало получает 100к$ в год, в то время как выпускник престижного университета, матанщик посвятивший всю жизнь статистике и науке получает 130к$. Вот так рыночек порешал, оно того стоит, лол. Это я уже молчу о том что если вас уволят то найти такую работу будет не просто, в отличии от вездесущего жавамакакинга

http://www.oreilly.com/data/free/files/stratasurvey.pdf
Отчёт 2013-го года, но до сих пор ничего не изменилось.

Аноним 27/07/15 Пнд 00:37:14 #140 №521354

>>521348
Матанщик запустил расчет на кластере и двачует капчу, и хуй ты его проконтролируешь. А жабомакак ебут скрамоаджайлами по 40 часов в неделю.

Аноним 27/07/15 Пнд 00:40:50 #141 №521357

>>521354
Ты не прав, матанщику ставят задачу сделать что-то с данными, а ведь он может и не справиться, ибо это не инженерная область а научная, а может вообще это не возможно.

А вот жабомакаке ставят посильные задачи, более того, он по 20 часов в неделю сидит и ничего не делает на скрамоаджайлах, за которые ему платят деньги.

Аноним 27/07/15 Пнд 01:30:44 #142 №521372

>>521357
Чё ты так? Скрам - боль, ретроспектива - боль помноженая на длинну спринта.

Аноним 27/07/15 Пнд 01:36:51 #143 №521376

>>521357
Ну вот и сравни, в первом случае челлендж и свобода, а во втором - рутина и рабство, с двачеванием капчи тайком от хозяина.

Аноним 27/07/15 Пнд 08:20:20 #144 №521426

>>521354
А потом выяснится, что в коде была ошибка и ему придется работать все выходные (а иначе выйдет так, что он за неделю ничего не сделал).

Аноним 27/07/15 Пнд 08:23:26 #145 №521427

>>521376
Рабство в случае обычной жавамакаки даже меньше. Ибо ему проще поменять хозяина.
>>521426
Овертаймы могут быть везде.

Аноним 27/07/15 Пнд 08:57:14 #146 №521429

>>521427
Это работает в обе стороны, поэтому никакого рабства нет. Есть партнерство ученого и бизнесмена. Бизнесмен берет на себя риски, а ученый помогает ему с бизнесом. Если бизнесмен попробует устроить галерную потогонку, то закономерно соснет хуйцов, потому что из ученого нельзя выжать соки - он должен пинать хуи, читать пейперы и ездить на конференции. Отсюда и все другое - и учет времени, и собеседования и т. п. Поэтому и качество этих 100К и 130К долларов весьма разное.

Аноним 27/07/15 Пнд 09:08:43 #147 №521431

>>521429
> из ученого нельзя выжать соки - он должен пинать хуи, читать пейперы и ездить на конференции
Там где платят бабки, выжимают соки еще как.

Аноним 27/07/15 Пнд 14:05:04 #148 №521512

>>521431
this. Любой бизнессмен постарается выжать из рабочего всё что может за фиксированную зарплату. Ему без разницы кем ты там себя считаешь. Чем более узкоспециализированная отрасль тем сложнее тебе будет ему противостоять, ибо твоя реальная рыночная стоимость определяется только оффером с другого места работы. Вот приносишь текущему работодателю оффер где написано 170к в год - он тебе может и заплатит столько, не приносишь - он может понижать твою зарплату до какого угодно уровня, и ты ничего не сможешь сделать, ведь ты не знаешь на какую работу ещё сможешь пойти без оффера. В этом смысле жавамакаки вообще как сыр в масле, ибо до 100к ты можешь обсыкать работодателя.

Аноним 27/07/15 Пнд 16:10:37 #149 №521559

14380026378160.png

>>512876
>Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает?
Если ты о пикрелейтед-подобной поебени, то все просто. Сверточная нейросеть обрабатывает картинки в виде тензора, массива размерностью ХхУхЙ, где Х - число пикселей по горизонтали, У - по вертикали, Й = 3 (R,G,B). Каждый слой такой сети представляет исходную картинку в виде тензора согласно результатам обработки ее на данном слое (выделение признаков и т.д.), суть в том, что тензор с любого слоя сверточной сети можно представить в виде цветной картинки, просто приписав значениям тензора выраженность красной, синей и зеленой компоненты в зависимости от слоя тензора (всего их 3). В итоге, сделали игрушку школоте.

Аноним 28/07/15 Втр 17:57:31 #150 №522175

>>521512
Изначально речь шла о том, почему жабамакаки получают 100, а статистики 130.
>>521559
Ебанат нихуя не понял, но рассуждает. Чтобы получить такую картинку, модифицируется вход, во внутренних слоях ничего подобного не будет. Зато про школьников что-то вякнул.

Аноним 28/07/15 Втр 18:11:48 #151 №522190

>>522175
>Чтобы получить такую картинку, модифицируется вход, во внутренних слоях ничего подобного не будет.
Потому что так сказал какой-то еблан? Ну ок.

Аноним 28/07/15 Втр 19:02:52 #152 №522230

https://www.youtube.com/watch?v=C5e6Nb5-xsU

Аноним 29/07/15 Срд 08:35:09 #153 №522542

>>522190
Потому что именно это происходит в коде. Кто виноват в том, что ты читать не умеешь?

Аноним 29/07/15 Срд 17:54:07 #154 №522906

>>522542
В каком коде? Покажи, где именно сверточная сеть работает так как ты считаешь, что она работает.

Аноним 29/07/15 Срд 22:25:05 #155 №523067

А кто-нибудь здесь выполнял фриланс заказы на тему дата саенса? Просто дико тянет в эту область и думаю как зарабатывать на начальном этапе, ибо уже обладаю навыками бекенд-девелопера, но от этой хуйни блевать тянет.

В воображении представляю себя этаким независимым аналитиком-исследоватаелем-ученым в ЧОРНОМ плаще, который к тому же шарит в области машинного интеллекта.

Аноним 29/07/15 Срд 22:25:11 #156 №523068

>>522906
В коде deepdream.py, который и генерит эти изображения, и который ты в глаза не видел. Ты думаешь, что это просто визуализация некоторого слоя в сети, хотя ("тензор с любого слоя сверточной сети можно представить в виде цветной картинки"), и это чушь, глубокие слои нейросети так нелинейно перепидорашивают картинку, что ничего подобного ты там не увидишь, а увидишь просто белые точки на черном фоне.
Твой пикрелейтед делается таким образом (https://github.com/VISIONAI/clouddream/blob/master/deepdream/deepdream.py#L84):
1. Подаем на вход картинку, делаем forward-pass до нужного слоя.
2. Устанавливаем "ошибку" нейросети как данные полученные в п. 1. Делаем backpropagation до первого слоя.
3. Результат backpropagation - градиент того, как нужно изменить данные на входе, чтобы данные в нужном слое максимизировались.
4. Прибавляем этот градиент к исходному изображению.
Делаем п. 1-4 раз 5 для разных разрешений изображения и сводим результат.

То есть это не визуализация какого-то слоя, как ты себе выдумал, это оптимизация входа так, чтобы какой-то слой имел максимальный сигнал.

Вот и получается, несет школьник хуйню, зато "В итоге, сделали игрушку школоте.".

Аноним 30/07/15 Чтв 02:33:06 #157 №523168

14382127860300.jpg

>Я - аналитик

Аноним 30/07/15 Чтв 13:47:36 #158 №523302

>>523067
Работы гораздо меньше в отношении заказы/количество индусов. Большинство либо профи с чеком миллион баксов в час, либо, да, Праты с Раджами.

Аноним 04/08/15 Втр 14:14:06 #159 №525430

Зашёл сюда и не понял ни одного вопроса, это нормально? Что они читают что такие офигенные вопросы задают?
https://stats.stackexchange.com/

Аноним 04/08/15 Втр 14:18:51 #160 №525431

>>525430
В машинном обучении немного ориентируюсь, но там все вопросы по статистике какой-то адовой. Я таких слов даже не видел раньше. Такое ощущение что какие-то профессора между собой там общаются. Это не на StackOverflow рассказывать как кнопку на форму поместить.

Аноним 31/08/15 Пнд 11:40:40 #161 №537273

Вопрос платиновый, но как вкатиться? Вот я зашел на kaggle, смотрю в раздел getting started, а че почитать, чтоб решить эти челленджи? Ну то есть я могу придумать сам какие-то эвристики, но хуйня же будет. В общем, посоветуйте самую энтрилевельную книжку. Язык python.

Аноним 31/08/15 Пнд 11:47:21 #162 №537276

>>537273
Читай описания работы победителей уже закрытых челленджей, они же там принципиально публикуются, найдешь в них там список дыр (на самом деле дырищ размером с анус твоей мамаши) в твоем образовании. Плюс там еще форум есть с обсуждениями.

Аноним 15/09/15 Втр 22:58:14 #163 №543610

Есть два стула - Информационно-аналитические системы и Компьютерное моделирование. Куда податься не ебу. ИАС выглядит поинтереснее там вроде и Big Data и Machine Learning, но ведут эту программу чуваки из конторы и статистика прошлого года довольно печальная: из 10 магистрантов - 6 перевелись на другие специальности(не из-за сложности, а похуизма преподов) и 4 написали диплом по данной тематике. С компьютерным моделированием в плане ответственного подхода вроде бы лучше, но куда я блять с этим моделированием дальше пойду?

Аноним 16/09/15 Срд 01:36:50 #164 №543650

14423566102960.jpg

Аноним 16/09/15 Срд 02:23:33 #165 №543665

14423594136340.png

>>456308
Данные соответствуют теоретическим выкладкам, коллега.

Аноним 16/09/15 Срд 10:56:21 #166 №543734

>>521348
Есть ещё вариант создать свой проект и найти инвестора. В престижных университетах этому даже учат. Только вот рисков больше чем у Раджеша и выпускника, да.

Аноним 16/09/15 Срд 12:28:05 #167 №543773

>>543734
Вообще судить по тому, кто больше получает, это даунство какое-то. Много кто больше получает, и что теперь, на Майдане скакать?

Аноним 16/09/15 Срд 13:30:55 #168 №543801

>>543773
> судить по тому, кто больше получает, это даунство какое-то
Ну, например, мне не нравится никакая работа вообще. Потому рассуждения, что прибыльнее и менее напряжно очень актуальны.
> Много кто больше получает, и что теперь, на Майдане скакать?
Конечно! Не работать, а требовать всего того же за просто так, в качестве пособия, как в ведущих европейских странах.