Я задал этот вопрос на сайте обмена стеками matemathics, и его рекомендовали задать здесь.
Я работаю над хобби-проектом и мне нужна помощь в решении следующей проблемы.
Немного контекста
Допустим, есть коллекция предметов с описанием возможностей и ценой. Представьте себе список автомобилей и цены. У всех автомобилей есть список характеристик, например, размер двигателя, цвет, мощность в лошадиных силах, модель, год и т. Д. Для каждой марки, что-то вроде этого:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Более того, список автомобилей с ценами публикуется с некоторым интервалом времени, что означает, что у нас есть доступ к историческим данным о ценах. Может не всегда включать в себя одни и те же автомобили.
проблема
Я хотел бы понять, как смоделировать цены на любой автомобиль на основе этой базовой информации, а главное - автомобилей, которых нет в первоначальном списке.
Ford, v6, red, automatic, 130hp, 2009
Для вышеупомянутого автомобиля, он почти такой же, как в списке, только немного отличается в лошадиных силах и году. Чтобы оценить это, что нужно?
Я ищу что-то практичное и простое, но я также хотел бы услышать о более сложных подходах к моделированию чего-то подобного.
Что я пробовал
Вот что я экспериментировал до сих пор:
1) Использование исторических данных для поиска автомобиля X. Если не найдено, цены нет. Это, конечно, очень ограничено, и его можно использовать только в сочетании с некоторым затуханием времени, чтобы изменить цены на известные автомобили с течением времени.
2) использование весовой схемы автомобиля вместе с ценовой моделью автомобиля. В основном, что есть базовая цена и характеристики просто изменить это с некоторым фактором. На основании этого определяется цена любого автомобиля.
Первого оказалось недостаточно, а второе оказалось не всегда правильным, и у меня, возможно, не было лучшего подхода к использованию весов. Это также кажется немного тяжелым для поддержания весов, поэтому я подумал, что, может быть, есть какой-то способ использовать исторические данные в качестве статистики для получения весов или для чего-то еще. Я просто не знаю с чего начать.
Другие важные аспекты
- интегрировать в какой-то программный проект, который у меня есть. Либо с помощью существующих библиотек, либо самостоятельно пишу алгоритм.
- быстрый пересчет при поступлении новых исторических данных.
Любые предложения, как можно решить эту проблему? Все идеи приветствуются.
Большое спасибо заранее и с нетерпением ждем ваших предложений!
источник
Я согласен с @whuber, что линейная регрессия - это путь, но нужно соблюдать осторожность при интерпретации результатов. Проблема в том, что в экономике цена всегда связана со спросом. Если спрос растет, цены растут, если спрос падает, цены снижаются. Таким образом, цена определяется спросом, а взамен спрос определяется ценой. Таким образом, если мы моделируем цену как регрессию из некоторых атрибутов без спроса, существует реальная опасность того, что оценки регрессии будут неверными из -за смещения без учета переменных .
источник
После некоторого обсуждения, вот мое полное представление о вещах
Проблема
Цель: понять, как лучше оценить автомобили
Контекст: в процессе принятия решения люди решают несколько вопросов: нужна ли мне машина, если я делаю, какие качества я предпочитаю (в том числе цену, потому что, будучи рациональным, я хотел бы иметь машину с лучшим соотношением цена / качество) , сравните количество атрибутов между разными автомобилями и выбирайте, оценивая их совместно .
С позиции продавца я бы хотел установить как можно более высокую цену и как можно быстрее продать автомобиль. Так что, если я установлю цену слишком высоко и жду месяцами, она может считаться не востребованной на рынке и отмеченной 0 по сравнению с очень востребованными наборами атрибутов.
Наблюдения: реальные сделки, которые связывают атрибуты конкретного автомобиля с ценой, установленной в процессе переговоров (относительно предыдущего замечания важно знать, сколько времени потребуется, чтобы установить сделку).
Плюсы: вы наблюдаете за вещами, которые были фактически куплены на рынке, поэтому вы не догадываетесь, существует ли человек с достаточно высокой ценой резервирования, который хочет купить конкретный автомобиль
Минусы:
Методы решения
Первая, как предлагает Уубер, - это классическая модель регрессии наименьших квадратов.
Плюсы:
Минусы:
В случае классической регрессии, поскольку вы не ограничены в степенях свободы, попробуйте и другие термины взаимодействия.
Поэтому более сложным решением будет либо модель Тобита, либо модель Хекмана , вы можете обратиться к AC Cameron и PK Trivedi Microeconometrics: методы и приложения для получения более подробной информации по основным методам.
Плюсы:
Минусы:
И, наконец, если вам просто интересно, как цена влияет на вероятность покупки, вы можете работать с какими-то моделями логита .
Мы согласились, что совместный анализ здесь не подходит, потому что у вас другой контекст и наблюдения.
Удачи.
источник
Это похоже на проблему линейной регрессии мне тоже, но как насчет K ближайших соседей KNN . Вы можете придумать формулу расстояния между каждым автомобилем и вычислить цену как среднее между ближайшим K (скажем, 3). Формула расстояния может быть основана на евклидовой системе, например, разница в цилиндрах, разница в дверях, разница в лошадиных силах и так далее.
Если вы идете с линейной регрессией, я бы предложил пару вещей:
Другая идея - сделать гибрид между моделями. Используйте regresion и KNN как точки данных и создайте окончательную цену как средневзвешенное значение или что-то в этом роде.
источник
Помимо сказанного и не очень отличающегося от некоторых уже сделанных предложений, вы можете взглянуть на обширную литературу по гедонистическим моделям ценообразования. . То, к чему это сводится, является регрессионной моделью, пытающейся объяснить цену составного товара как функцию его атрибутов.
Это позволит вам оценивать автомобиль, зная его атрибуты (мощность, размер, марка и т. Д.), Даже если в вашем образце отсутствует точно такое же сочетание атрибутов. Это очень популярный подход для оценки активов, которые практически не тиражируются - как недвижимость в реальном состоянии. Если вы Google для "гедонистических моделей", вы найдете много ссылок и примеров.
источник