Data Scientist — это что за профессия? Объясняет сотрудник Пикабу

Есть профессии, которые не особо понятны простому смертному человеку, не связанному с IT. Среди них Data Scientist. Вроде бы все просто Data — данные, Scientist — ученый. Но как все это связать и понять, чем он занимается? Чтобы разобраться в вопросе, мы обратились напрямую к дата саентисту Пикабу – Данилу. Выпытываем, что именно он делает и как этому научиться.

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

1. Как правильно называть твою профессию и что в нее входит?


Аналитик, ученый по данным, специалист по машинному обучению — все это правильно, но я предпочитаю называть себя дата (или дэйта) саентист, как в оригинале на английском оно и звучит. Просто какого-то адекватного перевода на русский нет.


В широком смысле это человек, который работает с данными «по-научному». Он умеет извлекать из массива данных полезную информацию, строить алгоритмы обработки этих данных и автоматизировать процессы. При этом свою работу подкрепляет научными обоснованиями. В этом как раз отличие дата саентиста от тети Люды со склада, которая вбивает приход-расход в табличку Excel. Вроде бы она тоже работает с массивом данных, но совсем по-другому.


В более узком смысле дата саентисты могут заниматься и анализом данных о клиентах, и построением предиктивных моделей, и компьютерным зрением, и, что особенно хайпово, искусственным интеллектом (ИИ) — да, те самые нейросети, которые говорят голосами знаменитостей или играют в «Доту». Наверное, сегодня именно они в основном и составляют Data Science, потому что во многих сферах нейросети стали эдаким «универсальным молотком». С их помощью можно решить почти любую задачу и сделать это без особых усилий.

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

Но стоит понимать, что не любой ИИ — это нейросети или вообще машинное обучение. Вот, например, роботы из Boston Dynamics ведут себя так, что вполне себе сойдут за искусственный интеллект, который мы видели в каком-нибудь «Терминаторе». Тем не менее, говорят, никакого машинного обучения там нет, а все их действия описываются строгими алгоритмами.

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

2. Чем ты конкретно занимаешься на Пикабу?


С результатами моей работы сталкивается каждый, кто заходит на Пикабу: сортировка постов в «Горячем» — это тоже алгоритм, который работает с данными. Если же говорить о более высоких материях, то сейчас, например, мы тестируем новую нейросеть. Она будет советовать пользователю немного подумать перед тем, как он пытается оставить оскорбительный комментарий. Некоторые из вас уже могли заметить подобный совет, если пытались дать кому-то нелестный эпитет. Как знать, может быть, это поможет сделать атмосферу на сайте еще приятнее и оградит пользователей от банов за слова, сказанные сгоряча.

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

Кстати, вы могли уже видеть рабочее место Данила (и его кота) в инстаграме Пикабу.


Наряду с такими задачами приходится заниматься и чем-то более обыденным, вроде анализа действий пользователей или сбора статистики. Любые данные могут быть полезны: чем больше ты «копаешь», тем больше находишь возможностей, как улучшить Пикабу.


3. Какие навыки нужны, чтобы стать дата саентистом?


Математика. Чем лучше вы ее знаете, тем проще будет освоить что угодно из мира Data Science. В первую очередь это матанализ, линейная алгебра, теория вероятностей и статистика. Но этими предметами все не ограничивается. В науке о данных правило такое: чем больше вам приходилось работать с различными областями математики, тем лучше. Полезной может быть даже экономика или астрофизика.


Я окончил мехмат МГУ. При этом изначально я вообще занимался механикой композитных материалов и несколько лет работал инженером-прочнистом. Но после того, как я слегка разочаровался в нашей тяжелой промышленности, мне было несложно освоить машинное обучение и нейросети.


Естественно, помимо знания чистой математики, вам придется много программировать. Но не совсем в классическом понимании. Скорее всего, основным вашим языком станет Python. Он будет инструментом для оперирования теми теоретическими знаниями, которые у вас есть. В итоге работа будет скорее похожа на расчеты на «продвинутом калькуляторе», нежели на будни обычного разработчика.


Все это выглядит сложно, но даже с нуля реально научиться анализировать данные. Конечно, будет хорошо, если у вас есть какой-никакой технический бэкграунд. Но даже если нет, учиться на факультете математики в вузе не обязательно. Есть куча литературы, статьи, видеолекции и обучающие программы. Здесь нужно четко понимать, за что и в какой последовательности браться. Если пока вообще не представляете, с чего начать, идите на курсы. Или не идите. Благо любую науку сейчас можно освоить, не вставая с дивана.


4. Какие направления в Data Science сейчас актуальны? В какую сферу идти?


Самое яркое проявление Data Science — машинное обучение. Но чтобы объяснить, что это такое, зайдем немного издалека. Алгоритмы, грубо говоря, это способы автоматизации. Их придумывают люди, составляя понятный набор инструкций. Но в некоторых случаях человеку сложно в явном виде описать, что нужно делать для выполнения какой-то задачи. Зато у него есть куча примеров того, как эта задача должна выполняться. Например, сложно описать алгоритм работы программы, которая по фотографии будет отличать кошечек от собачек. Но у нас есть тысячи фотографий, где мы знаем, что изображена кошечка или собачка. Тут-то и приходит на помощь машинное обучение, где мы «учим» программу действовать так, как ожидает человек. «Скармливаем» программе вводные данные и задаем результат, который хотим получить. При этом нам не нужно составлять алгоритм. Программа сделает это сама.


В этом плане связка «данные + машинное обучение» рождает уже своего рода программирование 2.0 (автоматизацию создания алгоритмов). Из-за бума нейросетей это направление сильный скакнуло в развитии. И это очень круто, потому что зачастую мы можем вообще не заботиться о кодировании и обработке данных, а просто скармливать их программе как есть в том виде, в котором их потреблял бы человек. И это еще на шаг приближает нас к пресловутому искусственному интеллекту.


Сегодня подобные алгоритмы могут куда лучше людей распознавать лица, играть в Starcraft или го, рекомендовать контент, улучшать изображение или даже делать вот такие вещи:

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

Крутой и в некотором смысле пугающий факт: уже появляются нейросети, обученные тому, чтобы «обманывать» другие нейросети. Например, Facebook, судя по всему, готовится в скором времени внедрить фичу, которая будет немного изменять ваши фотографии, чтобы с ними не могли работать алгоритмы распознавания лиц.


А помните, я говорил о программировании 2.0? Уже сейчас активно развивается направление AutoML — автоматического создания моделей машинного обучения. Как это делается? Правильно, тоже при помощи машинного обучения. В итоге есть программы, которые обучены автоматически создавать программы, которые обучены автоматически создавать программы, которые автоматизируют какой-то процесс. В общем, вы поняли.

Data Scientist — это что за профессия? Объясняет сотрудник Пикабу Гифка, Длиннопост

Где всему это учиться?


Профессии Data Scientist с нуля обучают онлайн в SkillFactory. В программе шесть курсов:

– Python,

– Math&Stat,

– Machine Learning,

– Deep Learning и нейросети,

– Data Engineering и менеджмент.


Специализация подойдет как для программистов и аналитиков, так и для новичков без математической подготовки. Большой плюс: в курсе всего лишь 20% теории и 80% практики на реальных данных. Вместе с менторами (практикующими дата саентистами) вы будете создавать свои проекты в сфере распознавания изображений, NLP и скоринга. По каждому получите фидбэк и сможете проработать детали.


Если очень постараетесь, то за год освоите профессию Junior Data Scientist, подготовите Git-репозиторий с решенными кейсами и соберете портфолио на Kaggle! Программа позволяет, так что все в ваших руках. В SkillFactory помогают с трудоустройством и рекомендуют к стажировке в крупных компаниях.

А еще в SkillFactory началась «Черная пятница» — скидки до 50%. Успевайте записаться на любой курс по выгодной цене до 2 декабря включительно (предложение не суммируется с другими скидками и промокодами).

Хочу записаться на курс со скидкой 50% (и стать дата сентистом)

Показать полностью 5