Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи регрессии. Примеры таких методов включают в себя секвированную обратную регрессию, главные гессианские направления, оценку средней дисперсии ломтики, регрессионную секцию в ядре, регрессию главных компонентов и т. Д.
С точки зрения перекрестной проверки RMSE, если алгоритм работал лучше в задаче регрессии без какого-либо уменьшения размерности, то каково реальное использование уменьшения размерности для регрессии? Я не понимаю смысл этих методов.
Используются ли эти методы случайно для уменьшения пространственно-временной сложности регрессии? Если это является основным преимуществом, некоторые ресурсы по снижению сложности для многомерных наборов данных при использовании этих методов будут полезны. Я спорю об этом с тем фактом, что для запуска техники DRR или SDR требуется некоторое время и пространство. Является ли эта регрессия SDR / DRR + для набора данных с более низким уровнем яркости быстрее, чем регрессия только для набора данных с высоким уровнем яркости?
Была ли эта установка изучена исключительно для абстрактного интереса и не имеет хорошего практического применения?
В качестве побочной мысли: иногда бывают предположения, что совместное распределение признаков и отклика лежит на многообразии. В этом контексте имеет смысл изучить многообразие из наблюдаемой выборки для решения задачи регрессии.Y
Ответы:
В соответствии с гипотезой о многообразии предполагается, что данные лежат на низкоразмерном коллекторе, что подразумевает, что остаток представляет собой шум, поэтому, если вы правильно сделаете уменьшение размерности, вам следует повысить производительность, моделируя сигнал, а не шум. Это не просто вопрос пространства и сложности.
источник
Целью уменьшения размерности в регрессии является регуляризация.
Большинство техник, которые вы перечислили, не очень хорошо известны; Я не слышал ни о одном из них, кроме регрессии основных компонентов (ПЦР). Поэтому я отвечу о ПЦР, но ожидаю, что то же самое относится и к другим методам.
Два ключевых слова здесь - переоснащение и регуляризация . Для длительного обсуждения и обсуждения я отсылаю вас к элементам статистического обучения , но очень кратко, что произойдет, если у вас много предикторов ( ) и недостаточно выборок ( ), если стандартная регрессия будет соответствовать данным, и вы будете построить модель, которая, кажется, имеет хорошую производительность на тренировочном наборе, но на самом деле имеет очень низкую производительность на любом тестовом наборе.нп N
В крайнем примере, когда количество предикторов превышает количество выборок (люди называют это проблемой ), вы можете фактически идеально подобрать любую переменную ответа , достигнув, по-видимому, производительности. Это явно глупость.у 100 %р > н Y 100 %
Чтобы справиться с переоснащением, нужно использовать регуляризацию , и существует множество различных стратегий регуляризации. В некоторых подходах один пытается резко сократить число предикторов, сводя задачу к ситуации, а затем использовать стандартную регрессию. Это именно то, что делает регрессия главных компонентов. Пожалуйста, смотрите Элементы , разделы 3.4--3.6. ПЦР обычно неоптимальна, и в большинстве случаев некоторые другие методы регуляризации будут работать лучше, но ее легко понять и интерпретировать.р « п
Обратите внимание, что ПЦР также не является произвольной (например, случайное хранение измерений, вероятно, будет работать намного хуже). Причиной этого является то, что ПЦР тесно связана с регрессией гребня, которая является стандартным регулятором усадки, который, как известно, хорошо работает в самых разных случаях. Смотрите мой ответ здесь для сравнения: взаимосвязь между регрессией гребня и регрессией PCA .п
Чтобы увидеть увеличение производительности по сравнению со стандартной регрессией, вам нужен набор данных с большим количеством предикторов и не так много выборок, и вам определенно необходимо использовать перекрестную проверку или независимый набор тестов. Если вы не заметили увеличения производительности, возможно, в вашем наборе данных недостаточно измерений.
Связанные темы с хорошими ответами:
Регрессия в условиях (прогнозирование эффективности лекарственного средства по экспрессии генов с помощью 30k предикторов и ~ 30 образцов)p ≫ N
Регрессия в настройке : как выбрать метод регуляризации (Lasso, PLS, PCR, ridge)?р > н
источник