В чем преимущество уменьшения размерности предикторов для целей регрессии?

11

Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи регрессии. Примеры таких методов включают в себя секвированную обратную регрессию, главные гессианские направления, оценку средней дисперсии ломтики, регрессионную секцию в ядре, регрессию главных компонентов и т. Д.

  1. С точки зрения перекрестной проверки RMSE, если алгоритм работал лучше в задаче регрессии без какого-либо уменьшения размерности, то каково реальное использование уменьшения размерности для регрессии? Я не понимаю смысл этих методов.

  2. Используются ли эти методы случайно для уменьшения пространственно-временной сложности регрессии? Если это является основным преимуществом, некоторые ресурсы по снижению сложности для многомерных наборов данных при использовании этих методов будут полезны. Я спорю об этом с тем фактом, что для запуска техники DRR или SDR требуется некоторое время и пространство. Является ли эта регрессия SDR / DRR + для набора данных с более низким уровнем яркости быстрее, чем регрессия только для набора данных с высоким уровнем яркости?

  3. Была ли эта установка изучена исключительно для абстрактного интереса и не имеет хорошего практического применения?

В качестве побочной мысли: иногда бывают предположения, что совместное распределение признаков и отклика лежит на многообразии. В этом контексте имеет смысл изучить многообразие из наблюдаемой выборки для решения задачи регрессии.YXY

катафалк
источник
1
Вы говорите о многогранном обучении, так что следующий пост может быть полезен
kjetil b halvorsen

Ответы:

5

В соответствии с гипотезой о многообразии предполагается, что данные лежат на низкоразмерном коллекторе, что подразумевает, что остаток представляет собой шум, поэтому, если вы правильно сделаете уменьшение размерности, вам следует повысить производительность, моделируя сигнал, а не шум. Это не просто вопрос пространства и сложности.

Эмре
источник
но я не вижу, чтобы такие методы, как SIR, работали лучше после уменьшения размерности. Поправьте меня, если я не прав или если вы знаете технику SDR / DDR, которая может лучше находить этот сигнал - в настройке регрессии, дайте мне знать, что это за техника (название).
катафалк
Конечно, это зависит от алгоритма регрессии и внутренней размерности данных. В частности, я не могу говорить о SIR, но вот статья, в которой сравниваются различные алгоритмы регрессии в наборе данных MNIST, который является низкоразмерным. Может быть, вы могли бы поделиться некоторыми проблемными данными, чтобы люди могли взломать их.
Эмре
Что такое «гипотеза многообразия»?
говорит амеба: восстанови монику
Интересно, похож ли этот материал на нейронные сети и нелинейное многомерное масштабирование в том смысле, что он «звучит так», что он должен быть великолепным везде, но на практике он хорошо работает в более ограниченном числе случаев
shadowtalker
6

Целью уменьшения размерности в регрессии является регуляризация.

Большинство техник, которые вы перечислили, не очень хорошо известны; Я не слышал ни о одном из них, кроме регрессии основных компонентов (ПЦР). Поэтому я отвечу о ПЦР, но ожидаю, что то же самое относится и к другим методам.

Два ключевых слова здесь - переоснащение и регуляризация . Для длительного обсуждения и обсуждения я отсылаю вас к элементам статистического обучения , но очень кратко, что произойдет, если у вас много предикторов ( ) и недостаточно выборок ( ), если стандартная регрессия будет соответствовать данным, и вы будете построить модель, которая, кажется, имеет хорошую производительность на тренировочном наборе, но на самом деле имеет очень низкую производительность на любом тестовом наборе.нpn

В крайнем примере, когда количество предикторов превышает количество выборок (люди называют это проблемой ), вы можете фактически идеально подобрать любую переменную ответа , достигнув, по-видимому, производительности. Это явно глупость.у 100 %p>ny100%

Чтобы справиться с переоснащением, нужно использовать регуляризацию , и существует множество различных стратегий регуляризации. В некоторых подходах один пытается резко сократить число предикторов, сводя задачу к ситуации, а затем использовать стандартную регрессию. Это именно то, что делает регрессия главных компонентов. Пожалуйста, смотрите Элементы , разделы 3.4--3.6. ПЦР обычно неоптимальна, и в большинстве случаев некоторые другие методы регуляризации будут работать лучше, но ее легко понять и интерпретировать.pn

Обратите внимание, что ПЦР также не является произвольной (например, случайное хранение измерений, вероятно, будет работать намного хуже). Причиной этого является то, что ПЦР тесно связана с регрессией гребня, которая является стандартным регулятором усадки, который, как известно, хорошо работает в самых разных случаях. Смотрите мой ответ здесь для сравнения: взаимосвязь между регрессией гребня и регрессией PCA .p

Чтобы увидеть увеличение производительности по сравнению со стандартной регрессией, вам нужен набор данных с большим количеством предикторов и не так много выборок, и вам определенно необходимо использовать перекрестную проверку или независимый набор тестов. Если вы не заметили увеличения производительности, возможно, в вашем наборе данных недостаточно измерений.

Связанные темы с хорошими ответами:

амеба говорит восстановить монику
источник
1
Учитывая его публикации , можно предположить, что он это знает.
Эмре
Спасибо, @Emre, я понятия не имел, кто такой ОП. Возможно, я неправильно понял вопрос, но теперь, перечитав его, я не понимаю, как я могу интерпретировать его по-другому. Если кто-то спрашивает, каково практическое преимущество ПЦР, тогда ответом является регуляризация; ПЦР на самом деле тесно связана с регрессией гребня, которая является одним из самых стандартных методов регуляризации.
говорит амеба: восстанови монику
p>n
@ssdecontrol: я согласен. Я думаю, что консенсус заключается в том, что ПЦР в значительной степени неконкурентоспособен и почти всегда существуют лучшие подходы. Это также то, что я написал в своем ответе (не так ли?), Но вопрос был конкретно об уменьшении размерности предикторов и о том, какова его цель. Мой ответ таков: цель - регуляризация.
говорит амеба, восстанови Монику
Понял. Но я думаю, что мы можем согласиться с тем, что вопрос загружен специально, чтобы оспорить его полезность, учитывая, что на самом деле это не лучший способ упорядочить, несмотря на его интуитивную привлекательность
shadowtalker