RStudio. Machine Learning. RandomForest. Нужна помощь от программистов.

Здравствуйте народ. Плз, поднимите немножечко в топ. Комменты для минусов оставлю.

Для устройства на работу выслали одно интересное задание связанное с Data mining, Machine learning-ом. Посмотрел туториал на ютюбе где решают задачу с титаником с Kaggle. Но мое задание немного другого типа и нужен совет по определенным вопросам. Кто знаком с машинным обучением и Rstudio и может подсказать/помочь, плиз, отпишитесь в комментах как с вами связаться.

Лига фрилансеров

2.2K постов16.9K подписчика

Правила сообщества

Не забывайте поддерживать авторов плюсами!


Нельзя:

- Добавлять нетематические посты, последнее решение за модератором

- Рекламировать какую-либо продукцию в виде постов


Можно:

- Делится любыми интересными историями, связанными с фрилансом :)

2
Автор поста оценил этот комментарий
Ну смотри.
1. Найди шлак в тренировочной выборке и выкинь его.
2. Поиграйся с препроцессингом. По опыту скажу, что это часто даёт бешеный прирост.
3. Судя по всему, у вас задача регрессии. Её можно решать как регрессию, но иногда можно и как классификацию. Попробуй h20 ai , а там бустинг решающих деревьев для задачи регрессии.
4. Посмотри импакт разных переменных, а затем повторяй с 2 до 4 до победного конца.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Спасибо большое за подсказки! Прошел тест!)

показать ответы
1
Автор поста оценил этот комментарий
Сам по себе vin это абракадабра, лучше из него сразу выделить в отдельные столбцы значимую информацию, такую как марка, модель, страна производства. Цвет, если есть. Но цвет может быть заводило у разных производителей по разному, поэтому либо выкидывайте либо приводите к некоторому списку стандартных значений.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Пока еще не знал что это машинг лернинг, сделал вот такую сортировку в экселе. Если верить интернету, то первые три цифры ВИН это страна производитель, завод, и что то еще. Я решил Что если первые три цифры совпадают то это машины одной марки. А последние 6 цифр это серийный номер авто. Нам дано 3 цифры(наверное для упрощения задачи). В конце 2 незакрашенных столбца это разница между AVG_COST и ESTIM_COST и процент который составляет эстимейт от эверейджа. Иногда, вроде для одной и той же машины разница в разнице довольно ощутимая. Моя главная проблема в том что это не дискретные значения и их много. А в титанике было просто 1 если жив и 0 если помер. И я не знаю как обучить машинку. =\

Иллюстрация к комментарию
показать ответы
2
Автор поста оценил этот комментарий
А что конкретно интересует? Просто по R куча ресурсов, по анализу тоже. Если есть время то я мог бы посоветовать курс на edx, если есть деньги то можно сделать задание на kaggle и за вас все сделают.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Ну, в принципе до пятницы есть время. А сделать надо самому. Да и для себя в какой-то степени.

1
Автор поста оценил этот комментарий
Вам нужно линейную модель строить. Если говорить про R то ищите функции lm и glm. Но вообще не уверен что так сходу можно. По крайней мере в том курсе что я учил не одна неделя этому посвящалась. Но честно говоря построить прикидочную модель можно буквально десятком строк. Если завтра не забуду, то накидаю.
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Спасибо большое за подсказки! Прошел тест!) Действительно понадобилась лишь пара строк кода и lm.

показать ответы
0
Автор поста оценил этот комментарий

А есть эти файлы? Можешь все выложить куда-нибудь на гугл диск?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Пока еще не знал что это машинг лернинг, сделал вот такую сортировку в экселе. Если верить интернету, то первые три цифры ВИН это страна производитель, завод, и что то еще. Я решил Что если первые три цифры совпадают то это машины одной марки. А последние 6 цифр это серийный номер авто. Нам дано 3 цифры(наверное для упрощения задачи). В конце 2 незакрашенных столбца это разница между AVG_COST и ESTIM_COST и процент который составляет эстимейт от эверейджа. Иногда, вроде для одной и той же машины разница в разнице довольно ощутимая. Моя главная проблема в том что это не дискретные значения и их много. А в титанике было просто 1 если жив и 0 если помер. И я не знаю как обучить машинку. =\

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Т.е. я думал так. если кожа то + n цена к average, если велюр то + m. Если состояние удовл. то -x и если отличный то +y т.д. Ну как в реальном мире. И в зависимости от всех этих признаков строится цена ESTIMATE отталкиваясь от average. Но тут даже если все признаки совпадают(кроме вин 15 16 17) то и аверейдж другой и разница естимейта от аверейджа. =/.

P.S. Спс за советы. пойду почитаю/попробую сделать то что вы(Рогволд и ефис) написали.

0
Автор поста оценил этот комментарий

Тостер, stackoverflow, там не пробовал? Тебя же сейчас сольют не просто ниже плинтуса, а до уровня грунтовых вод xD

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

В stackoverflow пробовал, да. К сожалению там молчать уже долгое время. И в основном на английском надо. И с этим трудности.

Я понимаю, но что поделать. В отчаянии.

2
Автор поста оценил этот комментарий
А что конкретно интересует? Просто по R куча ресурсов, по анализу тоже. Если есть время то я мог бы посоветовать курс на edx, если есть деньги то можно сделать задание на kaggle и за вас все сделают.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий
И что надо?
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

У меня есть файл train.csv. В нем поля:

YEAR – возраст авто (год оценки – год выпуска авто),

VIN_TOTAL – полный ВИН-код и далее каждый из 17 символов в отдельности,

ENGINE_VOLUME – объем двигателя,

FUEL_TYPE – тип топлива,

BODY_TYPE – тип кузова,

TYPE_OF_DIVE – тип привода,

INTERIOR_TYPE – тип салона,

TRANSM_TYPE – тип КПП,

AUTO_CONDITION – тех. состояние авто,

AVG_COST – средн. рыночная стоимость.

ESTIM_COST - стоимость данного автомобиля.


В test.csv все тоже самое, кроме ESTIM_COST. Основываясь на данных с train должен найти ESTIM_COST машин в test.csv.


В примере по титанику нужно было найти только survibility. 1 если выживет. 0 если нет. А тут как бы, не дискретные значения, и их много(можете на скрине внизу посмотреть). А RandomForrest работает, как я понял, с макс. 32 факторам. и теперь Я не совсем понимаю как рассчитать стоимость. Мне сделать диапазон цен в AVG_COST? Спросил бы еще что нибудь, но пока чтото в ауте я(

Данных в трейне 6000. нужно оценить 3249 в тесте.


P.S. Для успешного выполнения задания нужно, чтобы более 78% проставленных оценок в витрине TEST были в диапазоне +/- 10% от фактических значений

Иллюстрация к комментарию
показать ответы
11
Автор поста оценил этот комментарий

да ну, нахуй, потом еще работать за тебя ..

раскрыть ветку (1)
Автор поста оценил этот комментарий

нет, я не буду просить сделать все задание. Нужен просто совет. Реально запарился, весь инет перерыл.

показать ответы
Автор поста оценил этот комментарий

Коммент для миинусов 2

Автор поста оценил этот комментарий

Коммент для минусов 1

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества