Сап, программач. Я - аналитик, работаю на BI проекте с этой вашей информатикой, хадупом и dwh. По образованию статистик, английский свободный. ЯП не знаю, могу на джаве калькулятор запилить разве что. В универе работали с SPSS и чутка (совсем чутка R).
Сейчас пошла новая тема, как я смотрю, под названием наука о данных - смесь математики, статистики и понимания компьютерных технологий. Охуенне модно, оплачиваемо и шикарно.
Вопрос: кто че слышал? Что нужно знать, какие скиллы мне сейчас начинать подтягивать, чтобы туда муануться? Как раз читал, что нужны люди с математическим (статистическим) образованием и шарящие в IT. Что вообще такие дата аналитики делают по факту? А то я читаю общие фразы типа "анализировать большие объемы данных, находить тренды).
Тебе стоит тянуть R, Data Mining, Text Mining, Machine Learning. Тебе не соврали, анализировать большие объемы, строить модели, делать предсказания или же делать открытия на уже имеющейся куче всего. Могу только со стороны биоинформатики что-то вкинуть, например биологи и медики получают гигабайтные матрицы MicroArray или NGS c одного человека и должны на горе таких матриц сделать систему, которая будет диагностировать что угодно. Можно еще анализировать научные статьи и делать новые открытия. Вот. В экономике и психологии наверно вообще нет краю работы.
Мне вообще интересно какие примерно задания у дата аналитика? Помня свои пары анализа данных в универе, мне кажется, что это будет невероятно мутная поебень, определяющая в конце, что нужно поменять рекламу батончику "Марс". Типа - вот тебе массивчик, почисти, структурируй, сделай регресионный анализ, а нам интересен процент, который выйдет в конце. Как-то так.
Опишите вообще, что придётся делать, если получаешь работу в сфере? Потому что я пока не уверен, что мне стоит рыпаться.
>>455309 Ой, блядь, на форчане сидят такие же аутисты, только у некоторых аутистов с двача хоть есть "хитровыебанная" славянская жилка, как выживать в тяжёлых условиях. >>455303 Живу в Киеве, за последний месяц видел 4 вакансии для дата аналитиков. Сам не подавался, т.к. 3 из них показались скучными, а в четвёртой нужен был уверенный Python. >>455304 Вот, блядь. Сижу учу джаву - это хоть интересно. В "R" засыпаю на второй странице. Сука, да, я могу построить регрессию, сделать какой-то там факторный анализ, но как же это скучно ебаааааать. Не могу представить себе ежедневного копания в говно-данных, пусть даже я умею это делать.
>>455312 >Сука, да, я могу построить регрессию, сделать какой-то там факторный анализ, но как же это скучно ебаааааать. Не могу представить себе ежедневного копания в говно-данных, пусть даже я умею это делать. Значит, это не твое. Переучивайся на слесаря. А мне очень нравится романтика киберпанка, как в "Распознавании образов" Гибсона.
Анончик, можешь насоветовать каких-то интересных книг с R и анализом данных в этой сфере ? По R читаю Dalgaard P. - Introductory Statistics with R. И еще, что именно вы анализируете ? В каком виде входные данные ?
>>456120 Типовая задача -- вот тебе набор данных (желательно в обосанном формате, лучше всего в картинках, которые надо будет распознать, или данные лежат на сайте с пагинацией с 20 элементами на страницу, сделанный на asp.net), скачай его, отредактируй как скажут, потом ебани какую-нибудь классификацию или регрессию, найди паттерн-хуятерн, снова обработай, залей в базу данных.
>>456120 Есть большая логистическая компания. У них тысячи грузовиков, водителей, перевалочных пунктов и т.д. При перевозке постоянно происходят аварии, неполадки, ЧП. Они хотят знать, по каким признакам можно предсказать вероятность аварии в поездке. Для этого собираются данные о водителях, машинах, маршрутах, а потом данные-ученый пытается построить модель.
>>456139 >потом ебани какую-нибудь классификацию или регрессию, найди паттерн-хуятерн, снова обработай Типичная задача по data-mining из моего вузика, если не интересуешься математикой, то кажется унылым говном, хотя математики жи здесь и нет никакой, хуй знает кароче как не уснуть над этой хуйней. Только если ты ребенок-аутист?
Бля пацаны, вы меня расстраиваете. Я вот думал поступать в магистратуру на дата саенс, потому что мне нравится матеша, а тут вы говорите, что матеши там нихуя нет. Скажите, что это неправда.
Хуйня этот дата сайенс. Т.е. как хуйня: область весьма обширная и включает в себя много разной хуиты, и заниматься статистикой ты там будешь постольку поскольку.
Как у меня по специальность: проектирование и технология электронных средств. Что хочешь, то и делай: можешь платы разводить, можешь транзисторы эпитаксией выращивать, можешь кодить, причем не обязательно на ассемблере. В итоге умеешь всё и ничего. Так же и с твоим датасаенсом будет.
Но мы ведь все тут понимаем, что воровать это очень и очень плохо. Точно помню, что всякие шпрингеровские книжки по статистикал лёнинг можно найти в открытом доступе, плюс тот же ар графикс кукбук есть в открытом доступе в виде веб-книги. Всякие новостные рассылки по датасаенсу, типа датасаенсвикли, или дататудей, от ореили медиа, часто постоят ссылочки на книги в открытом доступе. Не говоря уже о количестве всяких гуидов на тематических ресурсах. Кстати, что-то из книжек с животными (вроде, программинг коллектив интеллигенс) даже переводили на русский и его можно купить за копейки.
Гайз, есть шансы у экономиста обмазаться всякими R и прочим достаточно плотно, чтобы потом как-то применять это в работе? В универе преподают R на уровне "запилить регрессию, иерархическую классификацию и подрочить на красивый цветной график". Бтв, в матан почти не умею, даже диффуры уже почти не помню, линейку тоже, увы. Хотя с последним все не так плохо. Короче, где экономика с анализом данных пересекается (кроме риск-менеджмента)? Что дрочить? Мб стоит забить на эти влажные мечты и пойти каким-нибудь горе-манагером за 30к/месяц?
>>457749 Во бля. Как и с микроэлектронникой. Закончил профильный колледж и вузик. Нравилось. Интересно. Ощущаешь себя еба богом. Можешь всё. А как выяснилось, имеешь представление обо всем. Но нихуя по настоящему не умеешь. Недопояльщик, недопрограммист, недопроектировщик. Хуйня вобщем.
Ну читает нам один пидорок лекции по дата-майнингу, ну и хуйли он не уехал за бугор и не устроился в пиздатую компанию? Все это просто хуйня. Времени тратится дохуя(но оно хоть интересно, да) а выхлопа нехуя. Шансов устроится видимо немного + личные заебы человека, депрессии, склонность к самоубийству(тут я переборщил, конечно). Вот и работает такой парень потом в каком нибудь сраном вузике.
Вот, что я скажу. Становитесь language-макаками ради денег, обмазывайтесь литературой по философии, разным наукам, рефлексируйте, ставьте перед собой вопросы, снова рефлексируйте, ебите систему в рот, ссыте на даунят-хабрапидоров. Ну вы поняли, кароч.
>>458305 Была у меня подобная история. Предмет назывался, вроде, СиМПР, типа системы и методы принятия решений. Хотя от предмета одно название, лекции, как мне сейчас кажется были вольной интерпретацией лекций Воронцова. Не буду тут вдаваться в подробности, но суть в том, что через несколько лет узнал, что наш препод тогда работал параллельно в маленькой конторе тесно связанной, то ли с хуяндексом, то ли с лицокнигой (вроде, занимался задачами распознавания образов). А преподавал он, потому что мог, ну и, в целом, продолжал научную деятельность. Ему, похоже, было норм.
>>458209 Анон, глянь в сторону ФИНАНСОВ и всяких биржевых ботов. Попробуй погуглить Introduction to R for Quantitative Finance , Intro to Computational Finance with R, Python for Finance и подобные штуки. Посмотри о чем там пишут и что делают, может это поможет как-то сориентироваться.
Короче сижу сейчас разбираюсь на работе в свободное время. Есть один вектор с кучей данных. Удалось при помощи кат разбить на 5 частей интервалы(факторы, вроде как на пике видно), удалось также узнать сколько каких элементов при помощи тейбл.
Теперь мне надо: 1)Составить табличку интервалов этих и посмотреть сколько в каждый интервал попадает элементов аля table(stat), но только по интервалам. Что-то я запутался как через фактор это сделать
>>464059 Хотя все удалось, отбой, лол. Осталось тогда узнать как через датафрейм зафигарить табличку, чтобы в документ сразу хуйнуть и табличку и гистограму по ней
Посоны, посоветуйте книг по машинному обучению и статистике 101, попроще, обзорных типа, а то слишком много терминов, не понятно, что на самом деле используется в data science.
>>464141 Лучше курсы проходи, там разжевывают. >что на самом деле используется в data science. Модные фреймворка меняются, как перчатки. Почти как у джаваскриптовых макак.
>>473941 Да я смотрел пару базовых курсов по обучению и статистике, все равно особо непонятно, что используется ежедневно. >Модные фреймворка меняются, как перчатки. Что ты имеешь ввиду под фреймворком?
>>473950 Программные комплексы для решения задач в дэйта саенсе. Например, пару лет назад все угорали по R, теперь это вроде как не модно уже. Теперь питон в почете с твоим пикрелом. Уверен, что через пару лет и он уступит пьедестал какой-нибудь джулии.
Господа, а бустинг линейными классификаторами это норм идея? Я вот написал и не могу понять оно не работает из-за того что идея тупая или из-за того что реализация тупая. Пытаюсь кучей логистических регрессий линейно неразделимую выборку разделить.
>>456339 >только если закончишь MIT любители раскрывать "правду" давно уже все разобрали по косточкам: mit просто собрание фриков, успешно пиарящих сябя уже пол века, в то время как все it делали в других американских вузах и научных центрах, в завязке на бизнес, разумеется
>>476718 Но ведь логистическая регрессия и перцептрон - линейные классификаторы но бустинг на них по идее будет линейной комбинацией над нелинейными функциями типа сигмоидальной функции активации или функции знака.
>>477537 >у меня программа не работает, помогите) Чувак, это же не пхп-тред. Ковыряйся, пока не заработает. По сути ты прав, и тот мой аргумент здесь не применим, если ты бустишь их вместе с логистической функцией. Но никто тебе не обещал, что это обязано работать.
>>477552 Ну я же не прошу код исправить, просто посмотрите кому не лень, там на sklearn, по идее ведь всё верно в коде, и в теории ничего не мешает, но на деле не работает.
>>455312 >Не могу представить себе ежедневного копания в говно-данных Без исследовательского интереса в анализе данных делать нечего. Потому как вся суть работы, кайф в том, чтобы выдвигать гипотезы, а затем придумывать статистики и алгоритмы для проверки этих гипотез на данных. Одним словом, играться с данными. >>455304 >R - говнище какое-то Согласен, плохой синтаксис, медленные стандартные решения, но обилие пакетов заточенных для самых разных задач оставляют его вне конкуренции. Поглядываю в сторону: http://julialang.org/, но предобработку данных провожу таки на питоне. >>456094 Читай Хэсти и Тибширани (особенно вторую) http://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf http://statweb.stanford.edu/~tibs/ElemStatLearn/
Мое мнение читать книги по языку, довольно бессмысленно. По математической теории - да. А по языку бессмысленно. Нужна хорошая практическая задача. Решая ее разберешься в тонкостях языка. >>464062 data.frame сосет, data.table решает :)
Занимаюсь буквально говноданными (человечий метагеном)
>>478115 > По математической теории - да А какая нужна математическая теория? Какие MOOC`и/видеолекции (желательно с задачами) посоветуете? Какие книги?
>>478205 Царских путей и тут нет. Матан, алгебра -> вероятность -> статистика, машинное обучение, дискретная математика. Это что касается математики. Это все должно ложиться на хорошее знание алгоритмов: когда размер данных исчисляется сотнями Гб всё имеет значение, понимаешь, что вычислительная сложность - это не просто слова. Помню, как проклинал себя, когда расчет занимавший порядка недели на нашем кластере после небольших изменений сработал за несколько часов. В довесок к этой базе уже можно какие-то специальные знания добавить типа NLP или биоинформатики.
Если есть возможность, поступай в ШАД или Питерский CS клуб. Если такой возможности нет, то можно ориентируюсь на их же программу построить самообучение. https://yandexdataschool.ru/edu-process/courses
>>478525 Широкие, наверное, нет. Но парочка жаждущих ананов имеется. Скажи. как устраивался? Сам учился, или с корочкой какой?
Закончил днищенский примат в днищенском региональном универе. Сейчас опомнился. Вот потихоньку читаю теорию и дрочу kaggle. думаю как на работку вкатиться.
>>478616 Сейчас я заканчиваю аспирантуру. В анализ данных я пришел из науки. Вообще, как я это вижу, сейчас в трех областях науки требуются специалисты по работе с большими данными. Первое, это физика высоких энергий. За примером далеко ходить не надо, Яндекс сотрудничает с ЦЕРНом (центром европейских ядерных исследований). Они делают систему сбора, хранения и обработки данных для них: https://events.yandex.ru/lib/talks/1142/ Более того у них периодически появляются соответствующие вакансии.
Второе, это социальные исследования. Тут диапазон широк от текст майнинга газетных и научных статей до исследования поведения в соцсетях. Как яркий пример - лаборатория Цезаря Идальго: http://macroconnections.media.mit.edu/
И третье, это современная молекулярная биология и генетика. С 00-х годов появились так называемые омиксные технологии (геномика, протеомика, метаболомика, транскриптомика и еще куча всяких ..омик), когда измеряются сразу тысячи молекулярно-биологических параметров. Это все надо как-то обрабатывать. В первых двух областях более или менее обходятся своими людьми. В биологии же жесточайший дефицит кадров. Не потому что биолог туп и не может обработать то, что намерил, а потому что у них мышление несколько отличается от технического.
Поэтому, ананас, если ты хочешь всерьез заняться анализом данных в биологии (а в ближайшее время биоинформатические стартапы начнут появляться как грибы после дождя), советую: Летняя школа по биоинформатике (прием заявок до 25 мая: http://bioinformaticsinstitute.ru/summer2015
>>455261 >Что вообще такие дата аналитики делают по факту? А то я читаю общие фразы типа "анализировать большие объемы данных, находить тренды).
Так как я больше по науке, мне трудно судить об индустрии, но судя по рассказам знакомых, ML вот для чего может быть нужно. Пример 1: Сбербанк. Нужно выдать кредит, как определить благонадежность клиента? Поднимается статистика по выплатам людей с таким же доходом, профилем трат, образованием и т.д. На основании этого выносится решение. Пример 2: Амазон. Ты смотрел эти и вот эти книжечки, что тебе посоветовать, чтобы ты купил в довесок к просмотренным? Все то же, поднимается статистика, смотрится какие книги люди чаще покупают вместе.
Пример 3: Яндекс, Гугл: таргетированная реклами, нафсэд.
Пример 4: Ив Роше: есть статистика по продажам кучи разных духов за последние 5 лет. Видны всплески и падения спроса в разное время. Задача - обучиться на этих данных и построить эффективную систему для определения цены товара.
Есть вообще какие-нибудь конфы или форумы по этой теме? Ну чтоб серьёзные вопросы задать, алгоритмы обсудить. Англоязычные сообщества там. В этом разделе нас не много и тут особо не задашь вопросов.
>>479628 можно в биоинформатику если не знаешь ничего про данные: биологию, химию? я начал с биологии клетки. даже не смотрел, чем занимается биоинформатика. курс по биоинформатике, который глянул мельком, дает алгоритмы. хотя не особо разбирался, но оперирует непонятными словами из биологии. а так-же взялся за химию. но далеко не ушел, так-как не понял про энтропию и начал изучать статистическую физику, а до нее матан и много всего другого нужно изучить.
>>480383 Ну так можно до бесконечности расползаться вширь. Да, биоинформатика требует понимания биологической сути дела, но это понимание приходит уже в работе в процессе обсуждения с людьми. Курс биологии: https://goo.gl/srmq2g
>>480383 >а до нее матан и много всего другого нужно изучить Сначала нужно изучить логику, основания математики. Скоро ты поймешь, что без хорошей базы по философии и методологии науки ты далеко не продвинешься. Затем тебя ждет увлекательный мир теологии, космологии, этики, истории. Тебе откроется понимание на совершенно новом уровне таких областей, как юриспруденция и политика. Когда ты поймешь самую суть трудов Маркса и Гете, когда ты сможешь назвать основные параллели между книгами Ленина и мифами древней Эллады, ты, наконец, сможешь удалиться от общества в пещеру и посвятить остаток своей жизни изучению самого сложного явления во вселенной: своего разума.
>>480741 Хочешь причаститься к миру сложной электроники - надо познать саунддизайн. Начинай с чего-нибудь простенького типа эмбиента/академического минимализма. Постепенно двигайся в сторону фри импрова/академического авангарда. Эти 4 жанра должны отучить тебя от мышления категориями нот и ритмов. Дальше начинай слушать Noisia, Phace, Teebee, Blu Mar Ten. Потом снова приходи за советом.
Братишки, будьте людьми, посоветуйте серьёзную не модельную выборку в которой все признаки вещественные или натуральные числа, ну и желательно чтоб только 2 класса было. Надо лабу сдать, написал бустинг над решающими деревьями на R (Всю реализацию). Но преподу приелись всякие ирисы и прочее, хочет чего-то реального.
Посоны, чёт задумался, а можно ли граф неопределённого размера представить в удобоваримом виде для ML алгоритмов? Ну всмысле какие признаки выделить можно чтоб к примеру сравнить 2 графа?
>>490208 >если читать дизассемблированный текстовый файл как grayscale изображение Это фактически вариант 1-gram фичей. Изображение тут ни при чем, насколько я понял. Непонятно, зачем они его приплели. Фактически там читается текстовый файл, как бинарный, и в качестве фичей используются ASCII коды текста дизассемблера. Нормальный poor man's подход.
>>490211 Я не совсем понял твой вопрос. Но если ты говоришь про общие топологические свойства графа, то Распределения степеней вершин, центральностей (centrality), длин путей, кол-во связанных компонент
Кто с R может помочь, есть вектор с 100 элементами, надо чтобы он как-то равномерно его разбил на интервалы на 10 частей, допустим 1-4 5-9 и т.д. и показал бы сколько элементов в каждый интервал входит. Я пока не могу понять как делать, разобрался как просто вывести сколько элементов каждого типа (Table(stat) А с интервальным никак
>>493661 С катом разобрался, но как-то криво порезал он мне, по идее мастита делаю, по формуле получилось на 8 разбивший шагом 2. А он мне наркоманию выдал, в итоге в окончательной формуле ниифига не 1 получает, а меньше, если брать средне интервальное
Никто не хочет на Kaggle порешать задачи? Я вот смотрю на https://www.kaggle.com/c/denoising-dirty-documents и не могу понять, она уже решена и типа вводной для ньюфагов или это хорошая задача? Ну потому-что я не особо представляю как от такого шума избавляться, т.е вроде и примерно догадываюсь но алгоритм не могу придумать чтоб это всё быстро считалось.
Дамы и господа, просветите по некоторым вопросам плз:
1) R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? Что более востребовано на сегодня? В гугле по этому вопросу всякий шлак: сравнение производительности, синтаксиса, etc. Много ли в R либ, которые реально очень нужны для полноценной работы, но отсутствуют в питоне?
2) Какова реальная важность SQLя в ds? 2.1) Во всех вакансиях просят %sql% от "уверенного" до "экспертного", хотя, как я понимаю, важно только достать данные из базы, а вся основная варка происходит в питоне или арррр. Я ведь правильно понимаю?
3) Есть ли нормальные альтернативы перечисленному выше софту? Почему у таблеау(см рис. 1)%вообще ни разу не видел в вакансиях% такая з\п медиана, тут есть подвох? Видели ли вы хоть раз в данной сфере вольфрам математику?
> 2) Какова реальная важность SQLя в ds? Не знаю, но я бы лично людей не освоивших нормализацию, транзакции и внешние ключи, к написанию SQL кода не подпускал бы вообще (заметьте я не включил индексы в список).
>>508816 >R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? R - изначально язык анализа данных (причем, с предшествующей историей в виде S и S-plus), тогда как все костыли для пистона - всего лишь костыли для всего лишь проходного ЯП.
>>508816 > R vs Python + (numpy + .. + pandas). В чём фундаментальная разница? Что более востребовано на сегодня? В этой отрасли обычно это личный выбор исполнителя. Конечно, если тебя возьмут 10-м, то придется подстраиваться, а так, что тебе удобнее, то и выбираешь. А знать нужно ВСЕ, лол.
Работаю быдлокодером в около-cs теме (кластеризация, ранжирование). Вечно для работы не хватает знаний линала и статистики. Не подскажите годные курсы? Осло по машинному обучению курсы на курсере тож слабоваты.
>>510742 Тебе, видимо, мозгов не хватает, а не знаний линала. Но вообще почитай An Introduction to the Conjugate Gradient Method Without the Agonizing Pain
>>455300 >деляющая в конце, что нужно поменять рекламу батончику "Марс". >Типа - вот тебе массивчик, почисти, структурируй, сделай регресионный анализ, а нам интересен процент, который выйдет в конце. Как-то так. > >Опишите вообще, что придётся делать, если получаешь работу в сфере? Потому что я пока не уверен, что мне стоит рыпаться. Ты почти уловил суть аналитики, только тебя спрашивают, сколько надо говна чтобы было ништяк. Ты придумываешь алгоритм, вырываешь массивы данных из различных источников, сводишь, анализируешь, виртуалишь зависимость ништяка от повышения уровня говна, находишь эффективные значения, выдаешь. Приходишь к Боссу говоришь, вот расчеты, нам нужно 5 кг говна.
>>455300 Ну и плюс да, отчетность по ключевым моментам, из больших массивов выдаешь красивые циферки с динамикой и хорошо-плохо графиками. Во всяком случае у меня так. 511198-кун
Вот ведь стрёмно будет несколько лет вникать в машинное обучение только для того, чтобы написать рекомендационный движок, который подскажет тысяче жирных пидоров какой дилдак ему может понравиться. Я хочу двигать индустрию и науку вперёд, а помогать продавать всякую тупую хуйню.
>>511497 Двигателей науки нужно не очень много, и все эти места заняты более умными и инициативными людьми. А торговцев дилдаками нужно много, да и требования там пониже. Твои желания никого не волнуют. Будешь продвигать дилдаки.
>>511497 Разделение теории и практики сосёт. Чистая прикладуха = только ради результата, а программист ради результата - это неустойчивая временная точка, так как если результат - деньги, которые ему обеспечивают что-то другое, то такой человек будет тяготеть не работать вообще, если этих денег достаточно, а если недостаточно - быть менеджером или директором каким-то, ведь там можно заработать больше и проще, а если результат - софт, то такой человек напишет софт который ему нужен и потеряет цель. Если человек продолжает делать Х даже если у него нет острой надобности в деньгах, и даже если он уже написал какую-то хуйню которая была его целью в прошлом - это уже значит, что человек НЕ ЯВЛЯЕТСЯ чистым практиком. Чистая теория сосёт тем, что эльфы изучают реальность, находясь за её пределами и не имея возможности к ней прикоснуться. Понятно, что попутно не получается хороших аппликаций результатов их деятельности к RealWorld. А раз их нету, закономерно, что финансирование на такую деятельность можно ожидать только от государства в виде дотаций. Грантовые подачки - это реально полная хуйня, это неестественно и несправедливо. Бизнес должен платить за науку, результатами которой он пользуется. И то, что результаты уходят после этого в общественное достяние - это норма, зато созданные в процессе их аппликации остаются частной собственностью конкретного бизнеса.
Тут есть какие-нибудь знатоки нейронных сетей? Можете подсказать, как их обычно визуализируют? Где-то что-то видел про карту активации, но ничего не гуглится на эту тему, возможно кто-то сам для себя придумал этот термин.
Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает?
>>512876 >Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает? Так нагугли код как он это делает. Оптимизируется вход так, чтобы на выходе было требуемое. Оптимизируется с помощью градиентного спуска, градиент вычисляется обратным распространением ошибки.
>>513039 Я не оч в теме разбираюсь но кажется формула градиента используется для обратного распространиения ошибки а не наоборот. Олсо нашел годные курсы наконец http://ocw.mit.edu/courses/#mathematics думаю попроходить что-нибудь
Уроды, как же вы затрахали. БИГ ДАТА, ДАТА САЁНС, ДАТА МАЙНИНГ СТИЛЬНО МОДНО МОЛОДЕЖНО МНЕ 30 ЛЕТ ОБРАЗОВАНИЯ НЕТ ХОЧУ БЫТЬ УЧЁНЫМ - причем таких полуёбков дохуя не только здесь. Откуда вы такие тупорылые вылезаете? Что вы собрались анализировать? С чего вы взяли, что именно вы будете получать бешеные тысячи, имея знания в такой узкой области, как статистический анализ данных? Это же всего лишь инструмент.
>>513304 > всего лишь инструмент И сразу нахуй. Я долго думал и анализировал этот аргумент и пришёл к выводу, что он совершенно ебанатский и глубоко нигилистический. Первое его раскрытие превращается в что-то вроде "это всего лишь способ решать такие-то задачи, а потому он не имеет ценности если ты не решаешь конкретную задачу прямо сейчас". И уже здесь можно смело слать дибила нахуй. Потому что любая профессиональная деятельность заключается в надрачивании инструментов и методов для решения задач, которые перед соответствующим (будущим) профессионалом ЕЩЁ НЕ ПОСТАВЛЕНЫ, и НЕИЗВЕСТНО КАКИЕ ИМЕННО ОНИ БУДУТ. Представь себе если б никто не начинал изучать программирование до тех пор, пока их не взяли на работу и не дали задачу. Вот ты предлагаешь такой подход в дата сцае. Еблан. Ты вообще хоть программист, или очередной залётный заправщик картриджей из /s/, который неосилил даже кодинг, потому что ГДЕ ГАРАНТИИ ЧТО ИМЕННО МЕНЯ ВОЗЬМУТ НА РАБОТУ С ИМЕННО ТАКИМИ ТЕХНОЛОГИЯМИ? Короче нахуй иди мразь тупая.
>>513304 У меня есть познания в том, как ебать твою мамашу-шлюху. Анализируя её поведение во время процесса, можно будет определить, в какие моменты нужно присунуть поглубже, а в какие - замедлиться. В итоге, она будет давать мне больше денег.
>>513362 Рептилоиды раньше форсили PLT в надежде что людей увлёкшихся языкодрочем можно потом посадить за любые задачи. Но суть и мотивацию этих людей они не поняли, подопытные в итоге оказались особой породой пуристых теоретиков шизоидов любителей фундаментального дроча в крайне экзотическом для таких вещей контексте. Теперь рептилоиды переключилсь на датасцай, чтобы подсовывать людям корпоративную парашу под видом всяких BI, к которым аккуратно пробрасывается ассоциативный ряд датасцая. Я подозреваю, что их ждёт абсолютно аналогичный провал. Хорошие датасцаетисты окажутся экзотическим сортом computational статистиков и вероятностных теоретиков, и будут говорить, что офисное говно тривиальное и скучное, это ненастоящая статистика и им там делать нечего.
Маленько проиграл только-что. В США обычная жавамакака Раджеш вызубрившая паттерны и пихая их куда попало получает 100к$ в год, в то время как выпускник престижного университета, матанщик посвятивший всю жизнь статистике и науке получает 130к$. Вот так рыночек порешал, оно того стоит, лол. Это я уже молчу о том что если вас уволят то найти такую работу будет не просто, в отличии от вездесущего жавамакакинга
>>521354 Ты не прав, матанщику ставят задачу сделать что-то с данными, а ведь он может и не справиться, ибо это не инженерная область а научная, а может вообще это не возможно.
А вот жабомакаке ставят посильные задачи, более того, он по 20 часов в неделю сидит и ничего не делает на скрамоаджайлах, за которые ему платят деньги.
>>521427 Это работает в обе стороны, поэтому никакого рабства нет. Есть партнерство ученого и бизнесмена. Бизнесмен берет на себя риски, а ученый помогает ему с бизнесом. Если бизнесмен попробует устроить галерную потогонку, то закономерно соснет хуйцов, потому что из ученого нельзя выжать соки - он должен пинать хуи, читать пейперы и ездить на конференции. Отсюда и все другое - и учет времени, и собеседования и т. п. Поэтому и качество этих 100К и 130К долларов весьма разное.
>>521431 this. Любой бизнессмен постарается выжать из рабочего всё что может за фиксированную зарплату. Ему без разницы кем ты там себя считаешь. Чем более узкоспециализированная отрасль тем сложнее тебе будет ему противостоять, ибо твоя реальная рыночная стоимость определяется только оффером с другого места работы. Вот приносишь текущему работодателю оффер где написано 170к в год - он тебе может и заплатит столько, не приносишь - он может понижать твою зарплату до какого угодно уровня, и ты ничего не сможешь сделать, ведь ты не знаешь на какую работу ещё сможешь пойти без оффера. В этом смысле жавамакаки вообще как сыр в масле, ибо до 100к ты можешь обсыкать работодателя.
>>512876 >Вот недавно Гугл как-то красиво визуализовал работу своих сетей, распознающих изображения, но как он это делает? Если ты о пикрелейтед-подобной поебени, то все просто. Сверточная нейросеть обрабатывает картинки в виде тензора, массива размерностью ХхУхЙ, где Х - число пикселей по горизонтали, У - по вертикали, Й = 3 (R,G,B). Каждый слой такой сети представляет исходную картинку в виде тензора согласно результатам обработки ее на данном слое (выделение признаков и т.д.), суть в том, что тензор с любого слоя сверточной сети можно представить в виде цветной картинки, просто приписав значениям тензора выраженность красной, синей и зеленой компоненты в зависимости от слоя тензора (всего их 3). В итоге, сделали игрушку школоте.
>>521512 Изначально речь шла о том, почему жабамакаки получают 100, а статистики 130. >>521559 Ебанат нихуя не понял, но рассуждает. Чтобы получить такую картинку, модифицируется вход, во внутренних слоях ничего подобного не будет. Зато про школьников что-то вякнул.
>>522175 >Чтобы получить такую картинку, модифицируется вход, во внутренних слоях ничего подобного не будет. Потому что так сказал какой-то еблан? Ну ок.
А кто-нибудь здесь выполнял фриланс заказы на тему дата саенса? Просто дико тянет в эту область и думаю как зарабатывать на начальном этапе, ибо уже обладаю навыками бекенд-девелопера, но от этой хуйни блевать тянет.
В воображении представляю себя этаким независимым аналитиком-исследоватаелем-ученым в ЧОРНОМ плаще, который к тому же шарит в области машинного интеллекта.
>>522906 В коде deepdream.py, который и генерит эти изображения, и который ты в глаза не видел. Ты думаешь, что это просто визуализация некоторого слоя в сети, хотя ("тензор с любого слоя сверточной сети можно представить в виде цветной картинки"), и это чушь, глубокие слои нейросети так нелинейно перепидорашивают картинку, что ничего подобного ты там не увидишь, а увидишь просто белые точки на черном фоне. Твой пикрелейтед делается таким образом (https://github.com/VISIONAI/clouddream/blob/master/deepdream/deepdream.py#L84): 1. Подаем на вход картинку, делаем forward-pass до нужного слоя. 2. Устанавливаем "ошибку" нейросети как данные полученные в п. 1. Делаем backpropagation до первого слоя. 3. Результат backpropagation - градиент того, как нужно изменить данные на входе, чтобы данные в нужном слое максимизировались. 4. Прибавляем этот градиент к исходному изображению. Делаем п. 1-4 раз 5 для разных разрешений изображения и сводим результат.
То есть это не визуализация какого-то слоя, как ты себе выдумал, это оптимизация входа так, чтобы какой-то слой имел максимальный сигнал.
Вот и получается, несет школьник хуйню, зато "В итоге, сделали игрушку школоте.".
>>525430 В машинном обучении немного ориентируюсь, но там все вопросы по статистике какой-то адовой. Я таких слов даже не видел раньше. Такое ощущение что какие-то профессора между собой там общаются. Это не на StackOverflow рассказывать как кнопку на форму поместить.
Вопрос платиновый, но как вкатиться? Вот я зашел на kaggle, смотрю в раздел getting started, а че почитать, чтоб решить эти челленджи? Ну то есть я могу придумать сам какие-то эвристики, но хуйня же будет. В общем, посоветуйте самую энтрилевельную книжку. Язык python.
>>537273 Читай описания работы победителей уже закрытых челленджей, они же там принципиально публикуются, найдешь в них там список дыр (на самом деле дырищ размером с анус твоей мамаши) в твоем образовании. Плюс там еще форум есть с обсуждениями.
Есть два стула - Информационно-аналитические системы и Компьютерное моделирование. Куда податься не ебу. ИАС выглядит поинтереснее там вроде и Big Data и Machine Learning, но ведут эту программу чуваки из конторы и статистика прошлого года довольно печальная: из 10 магистрантов - 6 перевелись на другие специальности(не из-за сложности, а похуизма преподов) и 4 написали диплом по данной тематике. С компьютерным моделированием в плане ответственного подхода вроде бы лучше, но куда я блять с этим моделированием дальше пойду?
>>521348 Есть ещё вариант создать свой проект и найти инвестора. В престижных университетах этому даже учат. Только вот рисков больше чем у Раджеша и выпускника, да.
>>543773 > судить по тому, кто больше получает, это даунство какое-то Ну, например, мне не нравится никакая работа вообще. Потому рассуждения, что прибыльнее и менее напряжно очень актуальны. > Много кто больше получает, и что теперь, на Майдане скакать? Конечно! Не работать, а требовать всего того же за просто так, в качестве пособия, как в ведущих европейских странах.
Сап, программач.
Я - аналитик, работаю на BI проекте с этой вашей информатикой, хадупом и dwh.
По образованию статистик, английский свободный.
ЯП не знаю, могу на джаве калькулятор запилить разве что. В универе работали с SPSS и чутка (совсем чутка R).
Сейчас пошла новая тема, как я смотрю, под названием наука о данных - смесь математики, статистики и понимания компьютерных технологий. Охуенне модно, оплачиваемо и шикарно.
Вопрос: кто че слышал? Что нужно знать, какие скиллы мне сейчас начинать подтягивать, чтобы туда муануться? Как раз читал, что нужны люди с математическим (статистическим) образованием и шарящие в IT.
Что вообще такие дата аналитики делают по факту? А то я читаю общие фразы типа "анализировать большие объемы данных, находить тренды).