Как выбрать K для PCA? K - количество измерений, на которое нужно спроецировать. Единственное требование - не терять слишком много информации. Я понимаю, что это зависит от данных, но я больше ищу простой общий обзор о том, какие характеристики следует учитывать при выборе K.
12
Ответы:
После выполнения алгоритма PCA вы получаете основные компоненты, отсортированные по количеству информации, которую они содержат. Если вы сохраняете весь набор, информация не теряется. Удаляя их один за другим и проецируя их обратно в исходное пространство, вы можете рассчитать потери информации. Вы можете представить эту потерю информации в зависимости от количества удаленных основных компонентов и посмотреть, имеет ли она «колено» там, где это имеет смысл. Многое зависит от вашего варианта использования.
источник
Я обычно проверяю процент информации, содержащейся в значении К. Скажем, из 8 полей, 2 из них содержат 90% информации. Тогда нет смысла включать остальные 6 или 5 полей. Если вы знаете данные MNIST, из 768 входных данных я использовал только 250, что повысило мою точность с 83 до 96%. Факт в том, что больше размерности приносит больше проблем. Так что отрежь их. Я обычно беру только К, который владеет только 90% информации, и это работает для меня.
источник