Множественная регрессия с отсутствующей переменной-предиктором

9

Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , , x n - 1 ) y x y(Y,Икс1,Икс2,,ИксN)(Y,Икс1,Икс2,,ИксN-1)YИкс

(1)Yзнак равное1(Икс1,,ИксN-1,ИксN)(2)Yзнак равное2(Икс1,,ИксN-1)

Мы также оцениваем регрессию, которая предсказывает значения на основе значений , то есть: ( x 1 , , x n - 1 ) x n = f 3 ( x 1 , , x n - 1 )ИксN(Икс1,,ИксN-1)

(3)ИксNзнак равное3(Икс1,,ИксN-1)

Предположим теперь, что нам даны значения , тогда у нас будет два разных метода для предсказания :y(Икс1,,ИксN-1)Y

(4)Yзнак равное1(Икс1,,ИксN-1,е3(Икс1,,ИксN-1))(5)Yзнак равное2(Икс1,,ИксN-1)

Какой из них будет лучше в целом?

Я предполагаю, что первое уравнение было бы лучше, потому что оно использует информацию от двух форм точек данных, тогда как второе уравнение использует информацию только от точек данных, которые имеют предикторные значения. Мое обучение статистике ограничено, и поэтому я хотел бы обратиться за профессиональным советом.N-1

Кроме того, в целом, каков наилучший подход к данным, которые содержат неполную информацию? Другими словами, как мы можем извлечь наибольшую информацию из данных, которые не имеют значений во всех измерениях?N

Сяовен Ли
источник
Оценка с использованием фактических данных и оценка с использованием оценок - вы решаете :)
кандидат наук
Неужели это так просто?
Сяовен Ли
Ответ может быть, это зависит. Сколько данных не хватает? Сколько данных у вас есть в целом? Сколько у вас предикторов?
Джоэл В.

Ответы:

6

+1, я думаю, что это действительно интересный и четко сформулированный вопрос. Тем не менее, больше информации поможет нам продумать эту ситуацию.

Например, какова связь между и ? Вполне возможно, что его нет, и в этом случае регрессия дает никаких преимуществ по сравнению с регрессией . (На самом деле, это очень незначительный недостаток в том смысле, что стандартные ошибки будут немного больше, и, следовательно, бета-версии могут быть в среднем немного дальше от своих истинных значений.) Если есть функция, отображающая в , тогда, по определению, там есть реальная информация, и регрессия будет лучше в исходной ситуации. ИксNY(1)(2)ИксNY(1)

Далее, какова природа отношений между и ? Есть один? Например, когда мы проводим эксперименты, (обычно) мы пытаемся назначить равное количество единиц обучения для каждой комбинации значений объясняющих переменных. (В этом подходе используется множитель декартовых произведений уровней IV, и он называется «полностью факториальным» дизайном; бывают случаи, когда уровни намеренно смешиваются для сохранения данных, называемые « дробно-факториальными » проектами.) Если объясняющие переменные ортогональны, ваша третья регрессия даст абсолютно ровно 0. С другой стороны, в наблюдательном исследовании ковариаты почти всегдаx n x n ( 1 ) ( 2 )(Икс1,,ИксN-1)ИксNкоррелируют. Чем сильнее эта корреляция, тем меньше информации существует в . Эти факты будут модулировать относительные преимущества регрессии и регрессии . ИксN(1)(2)

Однако (к сожалению, возможно) это сложнее, чем это. Одной из важных, но сложных концепций множественной регрессии является мультиколлинеарность . Если вы попытаетесь оценить регрессию , вы обнаружите, что у вас совершенная мультиколлинеарность, и ваше программное обеспечение сообщит вам, что матрица проектирования не обратима. Таким образом, хотя регрессия вполне может дать преимущество по сравнению с регрессией , регрессия не даст. ( 1 ) ( 2 ) ( 4 )(4)(1)(2)(4)

Более интересный вопрос (и тот, который вы задаете) заключается в том, что если вы используете регрессию чтобы делать прогнозы относительно используя оценочные значения полученные из прогнозов регрессии ? (То есть вы не оцениваете регрессию включаете вывод из уравнения прогнозирования, оцененного в регрессии в модель прогнозирования .) Дело в том, что вы на самом деле не получаете никакой новой информация здесь. Какая бы информация ни была в первых предикторных значениях для каждого наблюдения, она уже оптимально используется регрессиейy x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1)YИксN(3)(4)(3)(4)N-1(2)так что нет выигрыша.

Таким образом, ответ на ваш первый вопрос заключается в том, что вы можете использовать регрессию для своих прогнозов, чтобы сохранить ненужную работу. Обратите внимание, что я рассматривал это довольно абстрактно, вместо того, чтобы рассматривать конкретную ситуацию, которую вы описываете, в которой кто-то передает вам два набора данных (я просто не могу себе представить, что это происходит). Вместо этого я думаю об этом вопросе как о попытке понять что-то довольно глубокое о природе регрессии. Однако иногда происходит то, что некоторые наблюдения имеют значения для всех предикторов, а некоторые другие наблюдения (в том же наборе данных) пропускают некоторые значения для некоторых предикторов. Это особенно часто встречается при работе с продольными данными. В такой ситуации вы хотите исследовать множественное вменение . (2)

Gung - Восстановить Монику
источник
Спасибо, Гунг, за ваш подробный ответ и за помощь в изменении формулировки моего вопроса. Я отвечу, как только я полностью интерпретирую ваш ответ. К вашему сведению, это обсервационное исследование о цене на лампочки. включает часы жизни, яркость и цветовую температуру лампы. Информация собирается от розничных продавцов, которые обычно не дают все, что приводит к отсутствию предикторов. Тем не менее мы стараемся максимально использовать информацию, которую мы собрали. ИксN
Сяовен Ли
1
Хорошо, я думал, что это просто понимание регрессии. Я бы посмотрел на множественное вменение.
gung - Восстановить Монику
Спасибо Гун за ваше понимание. Вы правы в том, что с помощью уравнения 4 не получается никакой новой информации. Вменение оказывается именно тем, что мне было нужно. И вы правы, я столкнулся с множественной коллинеарностью, дав мне очень большое значение p для коэффициентов. Затем я столкнулся с выбором: либо уменьшить число переменных, либо получить меньшее значение p для коэффициентов, либо получить большее значение и большее значение p. Я думаю, что жизнь полна компромиссов. р2
Xiaowen Li
Еще раз спасибо за ваши абстрактные обсуждения регрессий. Статистика может быть очень интересной, если мы посмотрим на нее как на способ найти правду. Я рассмотрю это больше, как только я закончу с моим набором данных :)
Xiaowen Li
Вы должны проверить параметрическое дробное вменение. Это работа, проделанная Jae Kwang Kim в штате Айова, которая может быть идеальной для этой ситуации. См. Biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent,