Я хотел бы протестировать новый алгоритм совместной фильтрации . Типичный вариант использования - рекомендовать фильмы на основе предпочтений пользователей, похожих на конкретного пользователя.
Какие наборы эталонных данных часто используют исследователи для проверки своих алгоритмов? Я знаю, что в Computer Vision люди часто используют MNIST или CIFAR, но я не нашел подобных наборов данных для совместной фильтрации.
Ответы:
Очевидным ответом будет призовой набор данных Netflix, в нем много исследований, и большинство алгоритмов CF имеют известные оценки.
Существуют и другие доступные наборы данных, которые обычно используются в качестве эталонов:
Набор данных кинообъективов : набор данных по 20 миллионам рейтингов, используемый для сравнительного анализа алгоритмов CF;
Набор данных Jester : набор данных с рекомендациями для шутки с более чем 6 миллионами оценок;
Вы можете найти много других наборов данных по этой ссылке
источник
У меня есть хранилище, которое может вам помочь.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
источник