Рекомендуется, чтобы у нас были данные о пользовательских продуктах, которые помечены, например, как «клик». Чтобы узнать модель, мне нужны данные по кликам и без кликов.
Простейший подход к генерации - это взять пары продуктов пользователя, которые не найдены в данных о кликах. Однако это может вводить в заблуждение. Пример:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Я могу взять user1 со всеми продуктами, кроме product1, и пометить их как «no_click» и так далее. Но это не может быть правдой. Возможно, user1 щелкнул бы product2, если бы ему показали product2. Но только потому, что ему были показаны другие наборы продуктов - у него не было возможности решить кликнуть / не кликнуть товар2.
Итак, как решить проблему унарных данных?
источник
Ответы:
Итак, есть две проблемы.
Для (1) вы должны записывать эту информацию. Если он в данный момент не записывается, вы должны начать запись этой информации. Учитывая, что у вас нет этой информации, вы хотите дать рекомендации. К счастью, просто щелкнув данные, вы все равно можете создать служебную матрицу, см. 9.1.1.
http://i.stanford.edu/~ullman/mmds/ch9.pdf
Затем вы можете использовать совместную фильтрацию на основе пользователя или элемента, как описано в документе. По сути, это упражнение по заполнению матрицы утилит и попыткам найти «оценки» для не кликнувших пунктов. Ваша рекомендация - это пункт без клика с наибольшим количеством очков.
Для (2) вы все равно будете давать рекомендации по неотбираемым предметам. Таким образом, это само по себе не проблема. Однако вы захотите оптимизировать свои впечатления. Вы также не можете полностью знать, где пользователь может видеть все возможные варианты. Вам нужно записывать впечатления и понимать множество вещей.
Это огромная тема, и в основном это проблемная область интернет-рекламы. Однако механизм рекомендаций пытается найти интересующие элементы в длинном хвосте, что немного отличается от оптимизации рекламы. Это цикл обратной связи для оценки вашей рекомендации. A / B тесты распространены. Вы захотите проверить рейтинг кликов и ошибки рекомендаций между вашей текущей системой и новой системой.
Также смотрите здесь.
http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf
http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
источник