Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты неизвестны (и должны оцениваться), но известно, что они не имеют полного ранга. Это единственное, что я понимаю.
Остальная часть математики вне меня. Даже не помогает, что авторы говорят «можно показать» и оставляют вещи как упражнение.
Может кто-нибудь помочь объяснить, что здесь происходит, интуитивно? В этой главе якобы обсуждаются новые методы? или что?
Ответы:
1. Что такое регрессия пониженного ранга (RRR)?
Рассмотрим многовариантную множественную линейную регрессию, т.е. регрессию с независимыми переменными и q зависимыми переменными. Пусть X и Y будут центрированными наборами данных предиктор ( n × p ) и ответ ( n × q ). Тогда обычная регрессия по методу наименьших квадратов (OLS) может быть сформулирована как минимизация следующей функции стоимости:p q X Y n×p n×q
где - матрица весов регрессии p × q . Ее решение дается формулой B O L S = ( Х ⊤ Х ) - 1 х ⊤ Y , и это легко видеть , что это эквивалентно делать Q отдельные МНК регрессии, по одному для каждой зависимой переменной.B p×q
Снижение ранг регрессия вводит ограничение на ранг , а именно L должны быть сведен к минимуму с рангом ( B ) ≤ R , где R является максимально допустимым ранг B .B L rank(B)≤r r B
2. Как получить решение RRR?
Оказывается, что RRR можно рассматривать как проблему собственных векторов. В самом деле, используя тот факт , что МНК является по существу ортогональной проекцией на колонке пространства , можно переписать L , как L = ‖ У - Х Б О Л S | | 2 + | | Х Б О Л С - Х Б | | 2 . Первое слагаемое не зависит от B , а второй член может быть сведен к минимуму с помощью SVD / PCA из подогнанных значений Y = X BИкс L
В частности, если сначала R главные оси Y , то B R R R = B O L S U R U ⊤ г .Uр р Y^
3. Для чего нужен RRR?
Может быть две причины использовать RRR.
Во-первых, его можно использовать для регуляризации. Аналогично конька регрессии (RR), лассо и т.д., RRR вводит некоторые «усадка» штраф на . Оптимальный ранг r может быть найден путем перекрестной проверки. По моему опыту, RRR легко превосходит OLS, но имеет тенденцию проигрывать RR. Однако RRR + RR может работать (немного) лучше, чем один RR.В р
Во-вторых, его можно использовать как метод уменьшения размерности / исследования данных. Если у нас есть куча переменных-предикторов и куча зависимых переменных, то RRR создаст «скрытые факторы» в пространстве предикторов, которые лучше всего объясняют дисперсию DV. Затем можно попытаться интерпретировать эти скрытые факторы, построить их и т. Д. Насколько я знаю, это обычно делается в экологии, где RRR известен как анализ избыточности и является примером того, что они называют методами ординации ( см. Ответ @ GavinSimpson здесь ).
4. Связь с другими методами уменьшения размерности
RRR тесно связан с другими методами уменьшения размерности, такими как CCA и PLS. Я немного рассказал об этом в своем ответе на вопрос « Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?
Смотрите там для более подробной информации.
См. Torre, 2009, Структура наименьших квадратов для анализа компонентов, где подробно рассматривается, как большинство обычных линейных многомерных методов (например, PCA, CCA, LDA, - но не PLS!) Можно рассматривать как RRR.
5. Почему этот раздел в Hastie et al. так запутанно?
Hastie et al. используйте термин RRR для обозначения немного другой вещи! Вместо того чтобы использовать функции потерь они используют L = ‖ ( У - Х Б ) ( Y ⊤ Y ) - 1 / 2 | | 2 , как можно видеть в их формуле 3.68. Это вводит Y
Ничто из этого не объяснено должным образом в этом разделе, следовательно, путаница.
См. Мой ответ на дружественный учебник или введение в регрессию пониженного ранга для дальнейшего чтения.
источник
Регрессия с пониженным рангом - это модель, в которой не один Y-результат, а несколько Y-результатов. Конечно, вы можете просто подогнать отдельную многомерную линейную регрессию для каждого ответа, но это кажется неэффективным, когда функциональные отношения между предикторами и каждым ответом явно схожи. Посмотрите это упражнение в ситуации, когда я считаю, что это очевидно верно.
https://www.kaggle.com/c/bike-sharing-demand/data
Есть несколько связанных методов для решения этой проблемы, которые строят «факторы» или «компоненты» из переменных X, которые затем используются для предсказания Ys. Эта страница документации от SAS помогла мне разобраться. Регрессия пониженного ранга, по-видимому, связана с извлечением компонентов, которые максимально учитывают различия между ответами, в отличие от частично наименьших квадратов, которые извлекают компоненты, максимально учитывающие различия между ответами и предикторами.
https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm
источник