Как смоделировать покупательское поведение пользователя на Amazon?

9

Для нашего окончательного курсового проекта в Data Science мы предложили следующее:

Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon. Например, на Amazon есть миллионы продуктов. И набор данных дает вам представление о том, какие продукты связаны, какие продукты были объединены, просмотрены вместе и т. Д. (Мы можем построить график с этой информацией, также просматриваемой и покупаемой). Он также дает вам отзывы, связанные с каждым продуктом в течение 14 лет. Используя всю эту информацию, мы будем оценивать / оценивать продукты на Amazon. Теперь вы являетесь продавцом на Amazon и хотите улучшить трафик на страницу своего продукта. Наш алгоритм помогает вам определить стратегические позиции на графике, где вы можете разместить свое объявление, чтобы вы могли получить максимальный трафик.

Теперь вопрос нашего профессора: как вы проверите свой алгоритм без реальных пользователей? Мы сказали-

Мы можем моделировать фиксированный набор пользователей. Некоторые пользователи следуют also_boughtи also_viewedссылаются на третий переход чаще, чем первый или пятый переход. Там поведение пользователей нормально распределено. Некоторые другие пользователи едва ли переходят за пределы первого прыжка. Этот набор поведения пользователей экспоненциально распределен.

Наш Профессор сказал: «Какой бы ни была рассылка пользователей, пользователи переходят по ссылкам на похожие продукты. Ваш алгоритм ранжирования также учитывает сходство ч / б 2 продуктов для ранжирования продуктов. Таким образом, использование этого алгоритма проверки является своего рода cheating. Приходите с другим поведением пользователя, более реалистичным и ортогональным алгоритму.

Любые идеи о том, как моделировать поведение пользователей? Я рад предоставить более подробную информацию о алгоритме.

Паван Манджунатх
источник

Ответы:

1

Как вы будете проверять свой алгоритм?

Вместо того, чтобы пытаться ответить на второй вопрос, подумайте, что ваш ответ на первый вопрос может нуждаться в пересмотре ...

Какие методы вы использовали для проверки методов обучения на протяжении всего курса по науке о данных? Сначала вы хотите определить определенный набор числовых метрик, чтобы оценить успех или неудачу вашей модели. Во-вторых, какие методы вы можете использовать для создания очень реалистичной популяции тестирования (более реалистичной, чем моделирование популяции)? Первый совет, который я дам, заключается в том, что набор данных Amazon Reviews очень велик, поэтому ваши данные очень пригодны для этого метода. Второй намек, который я дам, заключается в том, что этот метод, вероятно, тот, который вы использовали в 95% контролируемых проблем обучения, над которыми вы работали в классе ...

Надеюсь, это поможет ... Я отредактирую это, если нужно, основываясь на комментариях, добавленных ОП, но не хочу сразу предлагать решение, чтобы выявить некоторые органические мысли, например, так как это проблема класса, а Проф также пытаюсь помочь вам найти правильное решение самостоятельно.

AN6U5
источник
0

Есть два требования к модели поведения, которые вы должны использовать: (1) «более реалистичный» и (2) ортогональный вашему алгоритму.

(1) Реально предположим, что это означает, что поведение должно отражать поведение, наблюдаемое в других, более широких контекстах, чем конкретный контекст покупок Amazon.

(2) Ортогональность более проста для понимания. Моделируемое поведение не должно быть обусловлено сходством продуктов.

Простой подход к выполнению этих двух требований вытекает из того факта, что покупательское поведение определяется социально-демографическими характеристиками, такими как пол, возраст, местоположение (например, город / село) и экономические ограничения (доход и цена).

У вас есть набор пользователей и набор продуктов. Вы можете оценить взаимосвязь между социально-демографическими переменными и спросом на продукт, используя простые, но осторожные методы регрессии. При необходимости вы можете использовать внешние источники данных, чтобы делать предположения относительно важных отсутствующих переменных, таких как доход.

Тогда, если вы продавец, социально-демографическая модель будет предсказывать, какие группы с наибольшей вероятностью приобретут ваш продукт.

Надеюсь, это поможет :)

Бен

Бенджамин Танненбаум
источник