Включение более подробных объяснительных переменных с течением времени

9

Я пытаюсь понять, как мне лучше всего смоделировать переменную, где со временем я получаю все более детальные предсказатели. Например, рассмотрим моделирование ставок восстановления по просроченным кредитам. Предположим, у нас есть набор данных с данными за 20 лет, и за первые 15 из этих лет мы знаем только, был ли заем обеспечен или нет, но ничего о характеристиках этого обеспечения. Однако за последние пять лет мы можем разбить обеспечение на ряд категорий, которые, как ожидается, будут хорошим предиктором уровня восстановления.

Учитывая эту настройку, я хочу подогнать модель к данным, определить такие показатели, как статистическая значимость предикторов, а затем выполнить прогноз с помощью модели.

В какую отсутствующую структуру данных это вписывается? Существуют ли какие-либо особые соображения, связанные с тем, что более подробные объяснительные переменные становятся доступными только после определенного момента времени, а не разбросаны по исторической выборке?

Авиила
источник

Ответы:

1

Хорошо, из опыта использования исторических данных, больше истории может улучшить соответствие регрессии, но если прогнозирование - это точка упражнения, общий ответ должен быть предупрежден. В случае, когда данные отражают периоды, для которых «мир» сильно отличался, стабильность корреляций сомнительна. Это происходит особенно в экономике, где рынки и правила постоянно развиваются.

Это относится и к рынку недвижимости, который, кроме того, может иметь длительный цикл. Например, изобретение ценных бумаг, обеспеченных ипотекой, трансформировало рынок ипотеки и открыло шлюзы для возникновения ипотеки, а также, к сожалению, спекуляции (на самом деле существовал целый класс бездокументарных ссуд, называемых ссудами по кредитам).

Методы, которые проверяют изменения режима, могут быть особенно ценными для принятия несубъективного решения, когда исключать историю.

AJKOER
источник
1

Как правило, это можно рассматривать как проблему ограниченного значения параметра. Как я понимаю ваш вопрос, у вас есть менее информативный параметр (залог неизвестного качества [Cu]) в начале ваших данных и более информативный (залог с высоким [Ch], средним [Cm] или низким [Cl] качеством) в вашем более поздние данные.

Если вы полагаете, что ненаблюдаемые параметры для модели не изменяются со временем, тогда метод может быть простым, если вы предполагаете, что точечные оценки каждого из них представляют собой Cl <Cm <Ch и Cl <= Cu <= Ch. Логика в том, что Cl - худший, а Ch - лучший, поэтому, когда данные неизвестны, они должны быть между ними или равны им. Если вы хотите быть немного ограничивающими и предполагать, что не все залоги были высокого или низкого качества в течение первых 15 лет, вы можете предположить, что Cl <Cu <Ch, что существенно упрощает оценку.

СLзнак равноехр(β1)Смзнак равноехр(β1)+ехр(β2)СUзнак равноехр(β1)+ехр(β3)1+ехр(-β4)Счасзнак равноехр(β1)+ехр(β2)+ехр(β3)

Где функция логита в Cu ограничивает значение между Cl и Ch, не ограничивая его относительно Cm. (Другие функции, ограничивающие от 0 до 1, также могут быть использованы.)

Другое отличие в модели должно состоять в том, что дисперсия должна быть структурирована таким образом, чтобы остаточная дисперсия зависела от периода времени, поскольку информация в каждом периоде различна.

Билл Денни
источник