Лассо в порядке отставания?

9

Предположим, у меня есть продольные данные вида (у меня есть несколько наблюдений, это просто форма одного). Я заинтересован в ограничениях . Неограниченная эквивалентна взятию с .Σ Σ Y j = α j + j - 1 = 1 ϕ j Y j j - + ε jY=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

Обычно это не делается, поскольку требует оценки параметров ковариации. Модель является "lag- " если мы возьмем т.е. мы используем только предшествующее терминов, чтобы предсказать из истории.k Y j = α j + k = 1 ϕ j Y j - + ε j , k Y jO(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

То, что я действительно хотел бы сделать, это использовать какую-то идею сжатия, чтобы обнулить некоторые из , такие как LASSO. Но дело в том, что я также хотел бы метод я использую , чтобы предпочесть модели , которые lag- для некоторых ; Я хотел бы штрафовать лаги более высокого порядка больше, чем лаги более низкого порядка. Я думаю, что это то, что мы особенно хотели бы сделать, учитывая, что предикторы сильно коррелируют. k kϕjkk

Еще одна проблема заключается в том, что если (скажем) сокращено до мне бы также хотелось, чтобы сокращено до , т. Е. Одинаковое запаздывание используется во всех условных распределениях. 0 ϕ 36 0ϕ350ϕ360

Я мог бы спекулировать на этом, но я не хочу изобретать велосипед. Существуют ли какие-либо методы LASSO, предназначенные для решения этой проблемы? Мне лучше просто делать что-то еще, например, поэтапное включение ордеров с задержкой? Так как мое модельное пространство мало, я мог бы даже использовать штраф для этой проблемы, я полагаю?L0

парень
источник

Ответы:

2

Вы можете выполнить перекрестную проверку несколько раз от k = 0 до любого максимального значения и построить график зависимости производительности от k. Поскольку модель тестируется на данных, которые она не видела ранее, нет гарантии, что сложные модели будут работать лучше, и, действительно, вы должны увидеть снижение производительности, если модель станет слишком сложной из-за переобучения. Лично я думаю, что это безопаснее и легче обосновать, чем произвольный штрафной коэффициент, но ваш пробег может варьироваться.

Я также не очень понимаю, как заказанный Лассо отвечает на вопрос. Это кажется слишком ограничительным, оно полностью заставляет упорядочивать коэффициенты. Принимая во внимание, что оригинальный вопрос может закончиться для некоторых данных, имеющих решение, где не уменьшается строго с l.ϕlj

Нир Фридман
источник
Чтобы добавить LaTeX к вашему вопросу, заключите выражение между знаками доллара ($).
Патрик Куломб
1
(1) Из одной модели не очевидно, что упорядочение коэффициентов желательно, но по существу это разумно. Например, в клинических испытаниях с повторными измерениями нет существенной причины ожидать, что небольшое возмущение будет стохастически влиять на больше, чем небольшое возмущение . Заказанный LASSO лучше использует это априорное знание с небольшим риском, что это может быть неправдой. Y j Y j - 1Yj2YjYj1
парень
(2) Как правило, я бы не использовал эту стратегию CV хотя бы частично, потому что она слишком догматична. Я могу получить более точные прогнозы, разумно сократив лаг, а не выбрасывая его полностью.
парень
Нир, полезный комментарий по заказанному LASSO. Я отредактировал свой ответ, чтобы быть немного более полным. Спасибо!
Шон Пасха
Спасибо Шон. Парень, я не думаю, что это слишком догматично. Вы не устанавливаете ак в камне, а скорее позволяете ему варьироваться. K он выбирает, будет в начале переоснащения. Я также категорически не согласен с вашим утверждением о предполагаемых априорных знаниях. Нечто, кажущееся разумным и зная, что это совершенно другое. Я должен признать, что в традиционной статистике, кажется, есть сопротивление перекрестной проверке, которую я никогда не понимал. Я бы предпочел прогнозную эффективность на основе выборочных данных, чем добавлять допущения в любой день.
Нир Фридман
2

β1...j|β1||β2|...|βj|

Это решает вторую задачу обнуления коэффициентов для лагов более высокого порядка, но является более ограничительным, чем единственное ограничение предпочтения модели с более низким лагом. И, как отмечают другие, это серьезное ограничение, которое может быть очень трудно оправдать.

Не обращая внимания на предостережения, в статье представлены результаты метода как на реальных, так и на смоделированных данных временных рядов, а также подробно описаны алгоритмы для нахождения коэффициентов. В заключении упоминается пакет R, но статья довольно свежая, и поиск в CRAN для «заказанного LASSO» оказывается пустым, поэтому я подозреваю, что пакет все еще находится в разработке.

В статье также предлагается обобщенный подход, в котором два параметра регуляризации «поощряют почти монотонность». (См. Стр. 6.) Другими словами, нужно уметь настраивать параметры, чтобы можно было упростить порядок. К сожалению, ни примеры, ни сравнения расслабленного метода не предоставлены. Но авторы пишут, что реализация этого изменения - это простой вопрос замены одного алгоритма другим, поэтому можно надеяться, что он станет частью следующего пакета R.

Шон Пасха
источник
Спасибо, это действительно интересно, что это недавняя идея. На самом деле, я пришел к той же идее, обсуждая проблему с другом, когда задавал вопрос 9 месяцев назад, но никогда не изучал ее подробно! Я просто предположил, что идея не в этом романе или что кто-то уже написал статью об этом.
парень
Добро пожаловать! Я был удивлен, что это было так недавно сам.
Шон Пасха
1

Можно использовать вложенный штраф LASSO ( pdf ), но для него нет пакетов R.

user53874
источник
1
В настоящее время это скорее комментарий, чем ответ. Можете ли вы немного расширить его, возможно, обсудив вложенный штраф LASSO и т. Д.?
gung - Восстановить Монику
0

Я знаю, что вы написали это как предпосылку, но я бы не использовал упорядоченный LASSO, не будучи абсолютно уверенным, что это то, что нужно, потому что допущения упорядоченного LASSO не подходят непосредственно для прогнозирования временных рядов. В качестве контрпримера рассмотрим случай, когда у вас есть время задержки, скажем, десять временных шагов между измерением и целью. Очевидно, что упорядоченные ограничения LASSO не могут справиться с такими эффектами, не приписывая бессмысленности первым девяти параметрам.

λλλ=0

λ

davidhigh
источник
Очевидно, меня не интересовали бы ограничения порядка коэффициентов, если бы у меня не было веских априорных причин верить в это. Для моделей, которые я подозреваю, вероятно, эвристически упорядоченный LASSO должен быть более эффективным. Наличие коэффициента запаздывания-10, когда остальные 9 равны 0, не имеет смысла в моей основной ситуации. Это проблема, над которой работали мои коллеги (упорядоченная усадка на лагах), но они использовали идеи Байесуана и поэтому не рассматривали (не байесовский) LASSO.
парень
Хорошо, вы, кажется, знаете, что делаете. Но помните, что упорядоченный LASSO более сильно ограничен, чем ваш оператор «раз ноль - всегда ноль». В качестве альтернативы вы можете также рассмотреть модель, в которой параметры вводятся мультипликативным способом. Тогда относительная важность может либо увеличиваться, либо уменьшаться, пока коэффициент не станет равным нулю.
Давидхай