RStudio. Machine Learning. RandomForest. Нужна помощь от программистов.

Здравствуйте народ. Плз, поднимите немножечко в топ. Комменты для минусов оставлю.

Для устройства на работу выслали одно интересное задание связанное с Data mining, Machine learning-ом. Посмотрел туториал на ютюбе где решают задачу с титаником с Kaggle. Но мое задание немного другого типа и нужен совет по определенным вопросам. Кто знаком с машинным обучением и Rstudio и может подсказать/помочь, плиз, отпишитесь в комментах как с вами связаться.

Лига фрилансеров

2.3K поста16.9K подписчика

Правила сообщества

Не забывайте поддерживать авторов плюсами!


Нельзя:

- Добавлять нетематические посты, последнее решение за модератором

- Рекламировать какую-либо продукцию в виде постов


Можно:

- Делится любыми интересными историями, связанными с фрилансом :)

Вы смотрите срез комментариев. Показать все
1
Автор поста оценил этот комментарий
И что надо?
раскрыть ветку (6)
0
Автор поста оценил этот комментарий

У меня есть файл train.csv. В нем поля:

YEAR – возраст авто (год оценки – год выпуска авто),

VIN_TOTAL – полный ВИН-код и далее каждый из 17 символов в отдельности,

ENGINE_VOLUME – объем двигателя,

FUEL_TYPE – тип топлива,

BODY_TYPE – тип кузова,

TYPE_OF_DIVE – тип привода,

INTERIOR_TYPE – тип салона,

TRANSM_TYPE – тип КПП,

AUTO_CONDITION – тех. состояние авто,

AVG_COST – средн. рыночная стоимость.

ESTIM_COST - стоимость данного автомобиля.


В test.csv все тоже самое, кроме ESTIM_COST. Основываясь на данных с train должен найти ESTIM_COST машин в test.csv.


В примере по титанику нужно было найти только survibility. 1 если выживет. 0 если нет. А тут как бы, не дискретные значения, и их много(можете на скрине внизу посмотреть). А RandomForrest работает, как я понял, с макс. 32 факторам. и теперь Я не совсем понимаю как рассчитать стоимость. Мне сделать диапазон цен в AVG_COST? Спросил бы еще что нибудь, но пока чтото в ауте я(

Данных в трейне 6000. нужно оценить 3249 в тесте.


P.S. Для успешного выполнения задания нужно, чтобы более 78% проставленных оценок в витрине TEST были в диапазоне +/- 10% от фактических значений

Иллюстрация к комментарию
раскрыть ветку (5)
1
Автор поста оценил этот комментарий
Сам по себе vin это абракадабра, лучше из него сразу выделить в отдельные столбцы значимую информацию, такую как марка, модель, страна производства. Цвет, если есть. Но цвет может быть заводило у разных производителей по разному, поэтому либо выкидывайте либо приводите к некоторому списку стандартных значений.
раскрыть ветку (2)
1
Автор поста оценил этот комментарий

Пока еще не знал что это машинг лернинг, сделал вот такую сортировку в экселе. Если верить интернету, то первые три цифры ВИН это страна производитель, завод, и что то еще. Я решил Что если первые три цифры совпадают то это машины одной марки. А последние 6 цифр это серийный номер авто. Нам дано 3 цифры(наверное для упрощения задачи). В конце 2 незакрашенных столбца это разница между AVG_COST и ESTIM_COST и процент который составляет эстимейт от эверейджа. Иногда, вроде для одной и той же машины разница в разнице довольно ощутимая. Моя главная проблема в том что это не дискретные значения и их много. А в титанике было просто 1 если жив и 0 если помер. И я не знаю как обучить машинку. =\

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Т.е. я думал так. если кожа то + n цена к average, если велюр то + m. Если состояние удовл. то -x и если отличный то +y т.д. Ну как в реальном мире. И в зависимости от всех этих признаков строится цена ESTIMATE отталкиваясь от average. Но тут даже если все признаки совпадают(кроме вин 15 16 17) то и аверейдж другой и разница естимейта от аверейджа. =/.

P.S. Спс за советы. пойду почитаю/попробую сделать то что вы(Рогволд и ефис) написали.

0
Автор поста оценил этот комментарий

А есть эти файлы? Можешь все выложить куда-нибудь на гугл диск?

раскрыть ветку (1)
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества