Я изучаю матричную факторизацию для рекомендательных систем и вижу, что этот термин latent features
встречается слишком часто, но я не могу понять, что он означает. Я знаю, что такое функция, но я не понимаю идею скрытых функций. Не могли бы вы объяснить это? Или, по крайней мере, указать мне бумагу / место, где я могу прочитать об этом?
24
Ответы:
За счет чрезмерного упрощения скрытые функции являются «скрытыми», чтобы отличать их от наблюдаемых. Скрытые признаки вычисляются из наблюдаемых признаков с использованием матричной факторизации. Примером может служить анализ текстовых документов. «слова», извлеченные из документов, являются особенностями. Если вы анализируете данные слов, вы можете найти «темы», где «тема» - это группа слов с семантической релевантностью. Факторизация низкого ранга отображает несколько строк (наблюдаемые признаки) в меньший набор строк (скрытые признаки). Чтобы уточнить, в документе могли быть обнаружены такие особенности (слова), как [парусная лодка, шхуна, яхта, пароход, крейсер], которые «разлагались» на скрытые элементы (тему), такие как «корабль» и «лодка».
[парусник, шхуна, яхта, пароход, крейсер, ...] -> [корабль, лодка]
Основная идея заключается в том, что скрытые признаки являются семантически значимыми «совокупностями» наблюдаемых признаков. Если у вас есть крупномасштабные, крупномасштабные и шумные наблюдаемые объекты, имеет смысл построить ваш классификатор на скрытых функциях.
Это, конечно, упрощенное описание для разъяснения концепции. Для получения точного описания вы можете прочитать подробности о модели скрытого распределения по Дирихле (LDA) или вероятностного анализа скрытого семантического анализа (pLSA).
источник
Предположим, у вас естьИкся ж
(MxN)
разреженная матрица, гдеM
- обозначает количество пользователей, которые дали рекомендации, иN
количество рекомендуемых элементов. элемент матрицы является рекомендация дается, с некоторыми элементами отсутствует, т.е. предсказать.Тогда ваша матрица может быть «факторизована» посредством введения
K
«скрытых факторов», так что вместо одной матрицы у вас есть две:(MxK)
- для пользователей и(KxN)
- для элементов, при умножении которых получается исходная матрица.Наконец, на ваш вопрос: каковы скрытые особенности в матричной факторизации? Они являются неизвестными функциями (
K
) в пользовательских вкусах и рекомендуемых элементах, поэтому, когда эти две матрицы умножаются, они производят матрицу известных рекомендаций. Определенные веса (пользовательских предпочтений по отношению к определенному элементу и количеству элемента в конкретном элементе) определяются с помощью так называемого альтернативного алгоритма наименьших квадратов, подробнее о котором вы можете прочитать здесь.источник
Мне кажется, что скрытые признаки - это термин, используемый для описания критериев классификации сущностей по их структуре, другими словами, по признакам (признакам), которые они содержат, вместо классов, к которым они принадлежат. Значение слова «скрытый» здесь, скорее всего, похоже на его значение в социальных науках, где очень популярный термин «скрытая переменная» ( http://en.wikipedia.org/wiki/Latent_variable ) означает ненаблюдаемую переменную (концепцию).
Раздел «Введение» в следующей статье дает хорошее объяснение значения и использования скрытых функций при моделировании явлений социальных наук: http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- ссылка-прогноз.pdf .
источник
Другой пример, рассмотрим случай, когда пользователи используют матрицу рейтинга фильмов, например, настройку Netflix. Это будет огромная разреженная матрица, которую сложно обработать.
Обратите внимание, что у каждого пользователя будут определенные предпочтения, такие как научно-фантастические фильмы, романтические фильмы и т. Д. Таким образом, вместо сохранения всех рейтингов фильмов мы можем сохранить одну скрытую функцию, такую как категория фильмов, которая относится к разным жанрам, например: sci-fi или романтика, в зависимости от того, количественно его вкус для каждой категории. Они называются скрытыми функциями , которые отражают суть его вкуса, а не хранят весь список фильмов.
Конечно, это будет приблизительное значение, но, с другой стороны, у вас есть очень мало для хранения.
источник