Я пытаюсь прочитать об исследованиях в области регрессии больших размеров; когда больше , то есть . Похоже, термин часто встречается в терминах скорости сходимости для оценок регрессии.
Например, здесь уравнение (17) говорит, что для подгонки лассо удовлетворяет
Обычно это также означает, что должно быть меньше .
- Есть ли какая-то интуиция, почему это соотношение так заметно?
- Кроме того, из литературы кажется, что проблема многомерной регрессии усложняется, когда . Почему это так?
- Есть хороший справочник, в котором обсуждаются вопросы о том, как быстро должны расти и по сравнению друг с другом?
regression
lasso
convergence
high-dimensional
Greenparker
источник
источник
Ответы:
(Перенесено из комментариев к ответу по запросу @Greenparker)
Часть 1)
Часть 2)
По сути, у вас есть две силы, которые вы должны контролировать:
В классической статистике мы обычно фиксируем и позволяем n переходить в бесконечность: этот режим не очень полезен для теории больших измерений, потому что он (асимптотически) в режиме низких измерений по построению .p n
В качестве альтернативы, мы могли бы позволить перейти в бесконечность, а n остаться неизменным, но тогда наша ошибка просто взорвется, поскольку проблема становится практически невозможной. В зависимости от проблемы ошибка может переходить в бесконечность или останавливаться на некоторой естественной верхней границе ( например , ошибка ошибочной классификации 100%).p n
Поскольку оба эти случая немного бесполезны, мы вместо этого рассматриваем оба переходящие в бесконечность, так что наша теория актуальна (остается многомерной), не будучи апокалиптической (бесконечные особенности, конечные данные).n,p
Наличие двух «ручек», как правило, сложнее, чем наличие одной ручки, поэтому мы фиксируем для некоторого фиксированного f и позволяем n переходить в бесконечность (и, следовательно, p переходит в бесконечность косвенно). [F2] Выбор f определяет поведение проблемы. По причинам, приведенным в моем ответе на часть 1, выясняется, что «плохость» от дополнительных функций растет только как log p, а «доброта» от дополнительных данных растет как n .p=f(n) f n p f logp n
Этот последний режим иногда называют в литературе «сверхвысокой размерностью». Насколько я знаю, термин «сверхвысокомерный» не имеет строгого определения, но неофициально это просто «режим, который нарушает лассо и подобные оценки».
Мы можем продемонстрировать это с помощью небольшого имитационного исследования в довольно идеализированных условиях. Здесь мы берем теоретическое руководство по оптимальному выбору из [BRT09] и выбираем λ = 3 √λ .λ=3log(p)/n−−−−−−−√
Сначала рассмотрим случай, когда . Это в «управляемом» многомерном режиме, описанном выше, и, как предсказывает теория, мы видим, что ошибка предсказания сходится к нулю:p=f(n)=3n
Код для воспроизведения:
Мы можем сравнить это со случаем, когда остается примерно постоянным: я называю это «пограничным» режимом сверхвысокой размерности, но это не стандартный термин:logpn
Здесь мы видим, что ошибка прогнозирования (с использованием той же схемы, что и выше) выравнивается, а не продолжается до нуля.
Несмотря на то, что я сказал выше и как это может выглядеть, режим сверхвысокой размерности на самом деле не является полностью безнадежным (хотя он и близок), но он требует гораздо более сложных методов, чем просто максимальное число гауссовских случайных величин для контроля ошибки. Необходимость использования этих сложных методов является основным источником сложности, которую вы отмечаете.
Часть 3)
Если вам удобно и вы хотите углубиться в исследовательскую литературу, я бы посмотрел на работы Jianqing Fan и Jinchi Lv, которые выполнили основную работу над проблемами сверхвысокой размерности. («Скрининг» - хороший термин для поиска)
[F1] На самом деле, любая субгауссова случайная величина, но это не так уж много добавляет к этому обсуждению.
[F3] Т. Хасти, Р. Тибширани и М. Уэйнрайт. Статистическое обучение с редкостью. Монографии по статистике и прикладной вероятности 143. CRC Press, 2015. Доступно для бесплатного скачивания по адресу https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf.
[BRT] Питер Дж. Биккель, Яков Ритов и Александр Б. Цыбаков. «Одновременный анализ лассо и селектора Данцига». Летопись статистики 37 (4), с. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620
источник