Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Дорога в Data Science глазами новичка Data Science, Программирование, Машинное обучение, Искусственный интеллект, Нейронные сети, IT, Человек наук, Длиннопост

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

Дорога в Data Science глазами новичка Data Science, Программирование, Машинное обучение, Искусственный интеллект, Нейронные сети, IT, Человек наук, Длиннопост

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

Дорога в Data Science глазами новичка Data Science, Программирование, Машинное обучение, Искусственный интеллект, Нейронные сети, IT, Человек наук, Длиннопост

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

Дорога в Data Science глазами новичка Data Science, Программирование, Машинное обучение, Искусственный интеллект, Нейронные сети, IT, Человек наук, Длиннопост

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

•Курс «Основы дискретной математики» на Stepik

•Курс «Основы теории графов» на Stepik

•Курс «Дискретные структуры» на Stepik

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

•Курс «Основы программирования на Python», Coursera

•Курс «Python: основы и применение», Stepik

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Дорога в Data Science глазами новичка Data Science, Программирование, Машинное обучение, Искусственный интеллект, Нейронные сети, IT, Человек наук, Длиннопост

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Лига образования

4.3K поста21.8K подписчика

Добавить пост

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:


ДЛЯ АВТОРОВ:


Приветствуются:

-уважение к читателю и открытость

-желание учиться

Не рекомендуются:

-публикация недостоверной информации


ДЛЯ ЧИТАТЕЛЕЙ:


Приветствуются:

-конструктивные дискуссии на тему постов

Не рекомендуются:

-личные оскорбления и провокации

-неподкрепленные фактами утверждения


В этом сообществе мы все союзники - мы все хотим учиться! :)

Вы смотрите срез комментариев. Показать все
1
Автор поста оценил этот комментарий

Простите, что в пост годовой давности пишу..

А почему специалистам вы рекомендуете курс от Яндекса и МФТИ, а новичкам от Стэнфорда? Почему не Яндекс последней ступенью?

Яндекс помощь с трудоустройством обещают по окончанию. Или на это вообще не надо обращать внимания?

раскрыть ветку (7)
2
Автор поста оценил этот комментарий

На самом деле, курс от Яндекса в разы сложнее, его и правда стоит проходить в конце пути. Стэнфордский более обзорный, чтобы понять, что из себя представляет область в целом. За этот год, кстати, и на Степике появилось пара замечательных курсов:

Машинное обучение: https://stepik.org/course/8057/syllabus . Довольно лёгкий обзорный курс, может дать поверхностное понимание основных алгоритмов

Введение в Data Science и машинное обучение: https://stepik.org/course/4852/syllabus . Замечательный курс от того же автора, чьи курсы по статистике в посте. Очень мотивирующий, понятный и приятный. Как только есть база хотя бы в статистике, очень рекомендую пройти!


По поводу трудоустройства не уверен. Но если осилить специализацию от Яндекса, это можно смело добавить в студенческое резюме


Мой взгляд за год довольно сильно изменился и стал менее романтичным, на самом деле :) Но область очень нравится, хотя бы попробовать рекомендую

раскрыть ветку (5)
Автор поста оценил этот комментарий

Здравствуйте, интересует, смогли ли вы устроиться на работу после самостоятельного обучения? Если да, то нравится ли вам эта работа? Думаю, что выбрать cg 3d модели или data science? У меня техническое образование, да и вакансии в биг дата лучше. Сможете подсказать?

раскрыть ветку (3)
Автор поста оценил этот комментарий

Я не могу дать хороший совет по поводу работы, потому что пока учусь в университете и не занимаюсь её поиском. Я занимаюсь анализом данных и получаю за это деньги, сопоставимые с зарплатой, но вы находитесь в другой ситуации и лучше спросить совета у человека с положением более близким к вам


С такими людьми я, впрочем, могу помочь :) Есть телеграм/слак каналы, в котором много людей из индустрии. Можете поискать самостоятельно, это должно быть вполне реально найти. Я, в основном, нахожусь в локальных томских каналах. Но если вы вдруг тоже из этого города, могу подсказать хорошую компанию людей

раскрыть ветку (2)
Автор поста оценил этот комментарий

Спасибо за ответ, я из Москвы. То есть вы занимаетесь анализом данных на фрилансе?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Да, в какой-то степени, но в научной сфере :)

Автор поста оценил этот комментарий

Спасибо большое)

Автор поста оценил этот комментарий

еще один верующий в устройство от платных курсов ахахахахах

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку