Рассмотрим проблему совместной фильтрации. У нас есть матрица размера #users * #items. если пользователь i любит элемент j, если пользователь i не любит элемент j иесли нет данных о (i, j) паре. Мы хотим предсказать для будущего пользователя, пары предметов.
Стандартный подход совместной фильтрации заключается в представлении M как произведения двух матриц , так что минимально (например, минимизируется среднеквадратичная ошибка для известных элементов ).
Для меня функция логистической потери кажется более подходящей, почему все алгоритмы используют MSE?
Ответы:
Мы используем логистическую потерю для неявной матричной факторизации в Spotify в контексте музыкальных рекомендаций (с использованием количества игр). Мы только что опубликовали статью о нашем методе на предстоящем семинаре NIPS 2014. Документ называется «Факторизация логистической матрицы для данных неявной обратной связи» и может быть найден здесь http://stanford.edu/~rezab/nips2014workshop/submits/logmat.pdf.
Код для статьи можно найти на моем Github https://github.com/MrChrisJohnson/logistic-mf
источник
Большинство статей, которые вы найдете по этому вопросу, будут касаться матриц, где рейтинги находятся по шкале [0,5]. Например, в контексте премии Netflix, матрицы имеют дискретные оценки от 1 до 5 (+ отсутствующие значения). Вот почему квадратичная ошибка является наиболее распространенной функцией стоимости. Могут быть замечены некоторые другие измерения ошибок, такие как расхождение Кульбака-Лейблера.
Другая проблема, которая может возникнуть при стандартной матричной факторизации, состоит в том, что некоторые элементы матриц U и V могут быть отрицательными (особенно на первых этапах). Это причина, почему вы не использовали бы здесь потерю журнала в качестве функции стоимости.
Тем не менее, если вы говорите о неотрицательной матричной факторизации, вы должны использовать потерю журнала в качестве функции затрат. Вы находитесь в том же случае, что и Логистическая регрессия, где потери в журнале используются в качестве функции стоимости: ваши наблюдаемые значения равны 0 и 1, и вы прогнозируете число (вероятность) между 0 и 1.
источник