-1

Data science, что у нас тут собственно происходит.

// АД - анализ данных, DS - data scientist, data science

Ну что ж, расскажу немного о работе Data Scientist-а, то есть человека, занимающийся машинным обучением.

Тут пикабушники, рассказывая о своей работе, фотографируют корабли, автомобили и так далее. Что ж, тоже что-нибудь придумаю.


Итак, кто мы (уже АД-овцы)?


Вообще, программисты, но так мы себя не называем, на то есть причины:

1) Обычно кода совсем мало: DS за весь проект может написать 500 строк кода, а то и меньше.

2) Программисты - это какой-то средний уровень, а ds все-таки уже скорей ученые. По-разному, конечно.


Какие задачи?


Задачи по АДу - это задачи, нерешаемые классическими алгоритмами. И в самом деле: как можно алгоритмами и "if"-ами можно предсказывать что-то совершенно не очевидное иногда даже для человека или, например, найти на картинке автомобиль за миллисекунды?


Что нам дают?


Набор данных для обучения нашей модели называется датасет. Датасеты могут быть совершенно разными, зависит от задачи. Например,

Для предсказания вида "будет ли дождь" обычно дают датасет в виде csv таблицы, где строки - это примеры, а столбцы - фичи, то есть условия, при которых идет/не идет дождь.

Для нахождения соли на поверхности Земли нам дают картинки

Data science, что у нас тут собственно происходит. Data Science, Анализ данных, Машинное обучение, Длиннопост

Здесь первая, третья, 5-ая и т. д. - это поверхность Земли (фрагмент), 2-ая, 3-я и т. д. - это маски, то есть фрагменты, где указано местонахождение соли. И нам для других фрагментов нужно предсказать где соль. (это соревнование доступно на kaggle)


Есть задачи наоборот, нарисовать картинку, или написать текст. Тогда нам дают картинку, которую нейросетка понимает, а потом воспроизводит. Если так сделать много раз, то можно будет где-то в середине сети (где она поняла картинку) заполнять своими числами, и она будет рисовать другие картинки.


Как мы решаем?


Способов много. До этого я всегда говорил про нейронные сети, но существует огромное количество других методов машинного обучения. Просто мне интереснее говорить про нс. Нейросети - это как раз глубинное обучение.


Пока так, про подбор архитектуры, kaggle, метрику - в следующем посту :). Пишите, что непонятно, а про что поподробнее.


P. S. Кстати, у ds есть такая штука - loss, это наш фетиш) Но об этом в следующем посту.

Дубликаты не найдены

+2

Мне не нравится аббревиатура АД. До меня долго доходило что это.

раскрыть ветку 4
+1

Пофиксил

раскрыть ветку 3
0

>уже АД-овцы

И как вы будете называться если убрать АД?

раскрыть ветку 2
0

Задачи по АДу - это задачи, нерешаемые классическими алгоритмами. И в самом деле: как можно алгоритмами и "if"-ами можно предсказывать что-то совершенно не очевидное иногда даже для человека или, например, найти на картинке автомобиль за миллисекунды?

If-ами автомобиль не найдешь, а вот дерево решений составить можно.
Есть несколько вопросов:
1) При устройстве на работу какой уровень подготовки у Вас был? Какие проекты делали в качестве учебных?
2) Когда Вам дают данные, в CSV например, делаете ли вы предобработку - привести значения в нужную форму (нормализация это называется вроде, может ошибаюсь) или заполнение пропущенных данных (хотя, вероятнее всего, это уже непосредственно задача ДС)
Спасибо за статью, жду продолжения.

раскрыть ветку 1
0

Про дерево: хех, замечание интересное. Но автомобиль и деревом не найти :).

1) Я не работаю в какой-либо компании. Я основатель научного сообщества ASC, пусть пока не очень известного. Про подготовку - трудно сказать. Если вам интересен вуз, то скажем так: для прохождения в вуз я еще слишком молод. А так изучал сам, курсы проходил, читал книги по матану.

2) Зависит от задачи, например если больные ублюдки те, кто дают данные пихают картинки в csv, то конечно нет. Но когда речь идет о данных, где есть не вся инфа, тогда смотрим: можно заполнять нулями (простейшее), средним значением. Если такого мусора немного, то я обычно выкидываю их из выборки, это реально помогает. Но, повторюсь, зависит от задачи, думаю решение может быть совершенно неожиданным.

0

Где найти книги по математике, в которой объясняют зачем она нужна, а не тупо формулы с фразами "отсюда очевидно..."

раскрыть ветку 1
0

Кто "она", не воткнул? Но вообще, если хочется ml, то на хабре и википедии вроде достаточно понятная теория, до какой-то степени хотя бы...

0

Подписался.

Похожие посты
Похожие посты закончились. Возможно, вас заинтересуют другие посты по тегам: