Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Мы также оцениваем регрессию, которая предсказывает значения на основе значений , то есть: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Предположим теперь, что нам даны значения , тогда у нас будет два разных метода для предсказания :y
Какой из них будет лучше в целом?
Я предполагаю, что первое уравнение было бы лучше, потому что оно использует информацию от двух форм точек данных, тогда как второе уравнение использует информацию только от точек данных, которые имеют предикторные значения. Мое обучение статистике ограничено, и поэтому я хотел бы обратиться за профессиональным советом.
Кроме того, в целом, каков наилучший подход к данным, которые содержат неполную информацию? Другими словами, как мы можем извлечь наибольшую информацию из данных, которые не имеют значений во всех измерениях?
Ответы:
+1, я думаю, что это действительно интересный и четко сформулированный вопрос. Тем не менее, больше информации поможет нам продумать эту ситуацию.
Например, какова связь между и ? Вполне возможно, что его нет, и в этом случае регрессия дает никаких преимуществ по сравнению с регрессией . (На самом деле, это очень незначительный недостаток в том смысле, что стандартные ошибки будут немного больше, и, следовательно, бета-версии могут быть в среднем немного дальше от своих истинных значений.) Если есть функция, отображающая в , тогда, по определению, там есть реальная информация, и регрессия будет лучше в исходной ситуации.ИксN Y ( 1 ) ( 2 ) ИксN Y ( 1 )
Далее, какова природа отношений между и ? Есть один? Например, когда мы проводим эксперименты, (обычно) мы пытаемся назначить равное количество единиц обучения для каждой комбинации значений объясняющих переменных. (В этом подходе используется множитель декартовых произведений уровней IV, и он называется «полностью факториальным» дизайном; бывают случаи, когда уровни намеренно смешиваются для сохранения данных, называемые « дробно-факториальными » проектами.) Если объясняющие переменные ортогональны, ваша третья регрессия даст абсолютно ровно 0. С другой стороны, в наблюдательном исследовании ковариаты почти всегдаx n x n ( 1 ) ( 2 )( х1, ⋯ , хn - 1) ИксN коррелируют. Чем сильнее эта корреляция, тем меньше информации существует в . Эти факты будут модулировать относительные преимущества регрессии и регрессии . ИксN ( 1 ) ( 2 )
Однако (к сожалению, возможно) это сложнее, чем это. Одной из важных, но сложных концепций множественной регрессии является мультиколлинеарность . Если вы попытаетесь оценить регрессию , вы обнаружите, что у вас совершенная мультиколлинеарность, и ваше программное обеспечение сообщит вам, что матрица проектирования не обратима. Таким образом, хотя регрессия вполне может дать преимущество по сравнению с регрессией , регрессия не даст. ( 1 ) ( 2 ) ( 4 )( 4 ) ( 1 ) ( 2 ) ( 4 )
Более интересный вопрос (и тот, который вы задаете) заключается в том, что если вы используете регрессию чтобы делать прогнозы относительно используя оценочные значения полученные из прогнозов регрессии ? (То есть вы не оцениваете регрессию включаете вывод из уравнения прогнозирования, оцененного в регрессии в модель прогнозирования .) Дело в том, что вы на самом деле не получаете никакой новой информация здесь. Какая бы информация ни была в первых предикторных значениях для каждого наблюдения, она уже оптимально используется регрессиейy x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )( 1 ) Y ИксN ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 ) так что нет выигрыша.
Таким образом, ответ на ваш первый вопрос заключается в том, что вы можете использовать регрессию для своих прогнозов, чтобы сохранить ненужную работу. Обратите внимание, что я рассматривал это довольно абстрактно, вместо того, чтобы рассматривать конкретную ситуацию, которую вы описываете, в которой кто-то передает вам два набора данных (я просто не могу себе представить, что это происходит). Вместо этого я думаю об этом вопросе как о попытке понять что-то довольно глубокое о природе регрессии. Однако иногда происходит то, что некоторые наблюдения имеют значения для всех предикторов, а некоторые другие наблюдения (в том же наборе данных) пропускают некоторые значения для некоторых предикторов. Это особенно часто встречается при работе с продольными данными. В такой ситуации вы хотите исследовать множественное вменение .( 2 )
источник