Программа обучения Data science для самостоятельного изучения
Я решил собрать некоторые материалы в одном месте для всех тех, кто хочет войти в науку о данных.
Некоторые курсы я считаю обязательными (их я выделил жирным), некоторые желательными для более глубокого понимания области. Я считаю, что прохождение «жирных» курсов позволит вам приобрести некое понимание о data science, пройдя же все курсы, вы сможете претендовать на начальную позицию.Этот текст - моё видение, некоторые дополнительные ссылки я приложу в конце поста. Буду рад любой конструктивной критике.
1. Основы программирования
Введение в python (обязательно):
https://stepik.org/course/67 — введение в Питон
https://stepik.org/course/512 — введение в Питон чуть более глубокое.
Без программирования аналитику данных представить сложно.
2. Основы математики и статистики
Высшая математика и теория вероятности (желательны для глубокого понимания):
https://stepik.org/course/95/promo — введение в матанализ
https://stepik.org/course/716/promo — матанализ 1
https://stepik.org/course/711/promo — матанализ 2
https://stepik.org/course/2461/promo — курс по линейной алгебре
https://stepik.org/course/3089 — теория вероятности
Подготовительный курс по R (язык программирования для работы с данными):
https://stepik.org/course/497/promo — курс по языку программирования R
Высшая математика позволит вам понимать, что вообще происходит. Без высшей математики вы будете в науке о данных как разнорабочий на стройке — положить кирпичи можете, положить цемент можете, а вот построить крепкую стену/дом без прораба уже не сможете. Так и в науке о данных — будете знать, что такое классификатор, что такое регрессия, алгоритм k-соседей, а вот построить хорошую предсказывающую модель не сможете.
Статистика (обязательно):
https://stepik.org/course/2152
Статистика нужна. Статистика позволяет понять, как работать с данными в первом приближении.
Курсы по алгоритмам и технологиям (не обязательно, но желательно для понимания):
https://stepik.org/course/2614 — базы данных
https://stepik.org/course/217— алгоритмы
https://stepik.org/course/1547 — алгоритмы 2
Последние три курса нужны для лучшего вхождения в сферу и понимания того, что вы делаете. Так, к примеру, знание базовой алгоритмистики позволит вам избежать очень большого количества глупых ошибок.
3. Машинное обучение
Введение в машинное обучение и искусственный интеллект (обязательно):
https://stepik.org/course/4852 — введение в машинное обучение
https://stepik.org/course/401 — машинное обучение
https://stepik.org/course/8057 — машинное обучение
Тут без пояснений — если вы учите data science, то сам data science учить придется.
4. Специализация
Специализация (крайне желательно):
https://stepik.org/course/54098 — обработка текста
http://web.stanford.edu/class/cs224n/ — обработка текста
http://cs231n.stanford.edu/ — обработка изображений
https://stepik.org/course/50352 — компьютерное зрение
Специализация позволит вам применить полученные ранее навыки. Список курсов приведен крайне короткий, и вам придется самим выбирать в каком направлении двигаться дальше.
Полезные материалы
Полезности:
https://vk.com/mlcourse - классная группа, где собрано много полезной информации.
https://habr.com/ru/company/ods/blog/322626/ — курс по data science.
Источники:
Мой путь в data science — история успеха.
https://habr.com/ru/company/plarium/blog/505458/ — история успеха 2.
https://docs.google.com/document/d/1TbMBahh6PNz-qK5hCojfrTJj... (сравнительная таблица).
https://youtu.be/w-IdSp_mQuM — ещё один план-трек.
Искусственный интеллект
5.4K пост11.8K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан