Скрытие регрессионной модели от профессора (линкор регрессии) [закрыто]

11

Я работаю над домашним заданием, где мой профессор хотел бы, чтобы мы создали реальную модель регрессии, смоделировали выборку данных, и он попытается найти нашу истинную модель регрессии, используя некоторые методы, которые мы изучили в классе. Мы также должны сделать то же самое с набором данных, который он нам дал.

Он говорит, что ему удалось создать довольно точную модель для всех прошлых попыток обмануть его. Были некоторые ученики, которые создали какую-то безумную модель, но он, возможно, смог создать более простую модель, которой было достаточно.

Как я могу разработать хитрую модель для его поиска? Я не хочу быть супер дешевым, выполнив 4 квадратичных термина, 3 наблюдения и большую дисперсию? Как я могу создать, казалось бы, безобидный набор данных, который имеет жесткую маленькую модель под ним?

У него просто есть 3 правила, которым нужно следовать:

  1. Ваш набор данных должен иметь одну переменную "Y" и 20 переменных "X", помеченных как "Y", "X1", ..., "X20".

  2. Ваша переменная ответа должна исходить из модели линейной регрессии, которая удовлетворяет: где и .Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ iY

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    p 21ϵiN(0,σ2)p21
  3. Все переменные, которые использовались для создания , содержатся в вашем наборе данных.YXY

Следует отметить, что не все 20 переменных X должны быть в вашей реальной модели

Я думал о том, чтобы использовать что-то вроде трехфакторной модели Фама-Френча и заставить его начать с биржевых данных (SPX и AAPL) и преобразовать эти переменные в непрерывно составленные данные, чтобы еще больше запутать их. Но это оставляет меня с пропущенными значениями в первом наблюдении, и это временные ряды (которые мы еще не обсуждали в классе).

Не уверен, что это правильное место, чтобы опубликовать что-то вроде этого. Я чувствовал, что это может привести к хорошей дискуссии.

Редактировать: я также не прошу "заранее построенных" моделей в частности. Мне более любопытны темы / инструменты в статистике, которые позволили бы кому-то заняться этим.

dylanjm
источник
4
Будет тяжело, если он ограничит вас линейной моделью ...
Фрэнк Х.
4
Если ваш профессор выигрывает, если ваши истинные коэффициенты находятся в пределах 95% доверительных интервалов, то мультиколлинеарность не поможет, потому что мультиколлинеарность чрезвычайно раздувает КИ. Если, с другой стороны, выполняется оценка разницы между предсказанными и фактическими данными о новых предикторах («фактические» данные были получены с использованием вашего истинного DGP), тогда мультиколлинеарность будет гораздо лучшим подходом. Итог: выясните, что такое целевая функция, и адаптируйте свой подход к ней. (Это применимо более широко в жизни ...)
Стефан Коласса
4
@dylanjm Не могли бы вы точно определить свои условия победы?
Мэтью Ганн,
11
Смысл такого упражнения в том, чтобы вы научились , пытаясь придумать что-то самостоятельно . Если вы противопоставляете здесь экспертов против него, ваша возможность на самом деле напрячь свой мозг путем консолидации различных фрагментов информации, которую вы получили в связи с регрессией, значительно сокращается (а также является несправедливой по отношению к профессору). Кроме того, в любом уважаемом учреждении, представляющем ему работу, как вашу, когда она была частично сделана кем-то другим, может оказаться где-то между академическими проступками и мошенничеством (особенно, если это стоит какой-либо части вашей оценки). Будьте очень осторожны с тем, как именно вы это спросите.
Glen_b
4
Несмотря на популярность этого вопроса, я чувствую себя обязанным закрыть его на этом этапе, потому что даже после неоднократных запросов о разъяснениях относительно правил игры (какие критерии будут использоваться для оценки успеха, сколько образцов вы должны предоставить и т. Д.) Это важно информация до сих пор не появилась в вопросе. Наши цели являются более узкими и более сфокусированными, чем «создание обсуждения»: пожалуйста, обратитесь в наш справочный центр для вопросов, которые мы можем обратиться на этом сайте.
whuber

Ответы:

6

Просто сделайте термин ошибки намного больше, чем объясненная часть. Например: , где , и . Конечно, вы должны помнить, каким было ваше семя, чтобы вы могли доказать своему профессору, что вы были правы, а он ошибался.X i j = sin ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Удачи в определении фазы с этим отношением шум / сигнал.

Аксакал
источник
Это не похоже на критерий победы CI, не так ли? Мы просто получим огромные КИ, которые наверняка покроют 1. И некоторую числовую нестабильность, конечно.
Стефан Коласса
Нестабильность не будет проблемой, все, что я делаю, это хороню сигнал в шуме. Это выйдет как чистый белый шум.
Аксакал
4
OP посчитал это нежелательной дешевой моделью
Sextus Empiricus
5

Если его цель состоит в том, чтобы восстановить истинный процесс генерирования данных, который создает , обмануть вашего профессора довольно тривиально. В качестве примера рассмотрим возмущения и следующие структурные уравнения:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Обратите внимание, что истинный DGP для , который включает в себя только , тривиально удовлетворяет условию 2. Условие 3 также выполняется, поскольку является единственной переменной для создания и вы предоставляете и .X 1 X 1YX1X1YX1X2

Тем не менее, ваш профессор не может сказать, должен ли он включать только только или и чтобы восстановить истинное значение DGP для (если вы в конечном итоге используете этот пример, измените количество переменных). Скорее всего, он просто даст вам в качестве ответа регрессию со всеми переменными, поскольку все они будут отображаться как значимые предикторы. Вы можете расширить это до 20 переменных, если хотите, вы можете проверить этот ответ здесь и парадоксальную машину Симпсона здесь.X 2 XX1X2X1X2 Y

Обратите внимание , все условные ожидания , или правильно указаны условные ожидания, но только отражает истинный DGP из . Таким образом, после того, как ваш профессор неизбежно провалит задание, он может утверждать, что его целью было просто восстановить любое условное ожидание или получить лучший прогноз и т. Д. Вы можете возразить, что это было не то, что он сказал, поскольку он заявляет :E [ Y | X 2 ] E [ Y | X 1 , X 2 ] E [ Y | X 1 ] Y YE[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

переменная Y должна происходить из модели линейной регрессии, которая удовлетворяет (...) переменным, которые использовались для создания Y (...) вашей реальной модели (...)

И вы можете зажечь хорошую дискуссию в классе о причинно-следственной связи, о том, что означает истинный DGP, и об идентификации в целом.

Карлос Синелли
источник
Вы предлагаете модель, которая соответствует # 2 в посте
Aksakal
3

Используйте переменные с мультиколлинеарностью и гетероскедастичностью, такие как доход в зависимости от возраста: сделайте несколько болезненных технических решений, которые создают проблемы масштабирования: дайте NA для некоторых разбросанных по размеру. Часть линейности действительно делает ее более сложной, но это может быть болезненным. Кроме того, выбросы увеличат проблему для него заранее.

Дэвид
источник
Я думаю, что гетероскедастичность выходит за рамки проблемы, но определенно согласен с тем, что мультиколлинеарность является одним из лучших способов затруднить поиск истинной спецификации.
JDL
2

Разрешены ли условия взаимодействия? Если это так, установите все коэффициенты более низкого порядка на 0 и постройте всю модель из взаимодействий N-го порядка (например, такие термины, как ). Для 20 регрессоров количество возможных взаимодействий астрономически велико, и было бы очень трудно найти только те, которые вы включили.X5X8X12X13

Рубен ван Берген
источник
0

Выберите любую линейную модель. Дайте ему набор данных, где большинство образцов около х = 0. Дайте ему несколько образцов около х = 1 000 000.

Приятно, что выборки с x = 1 000 000 не являются выбросами. Они генерируются из одного источника. Однако, поскольку шкалы очень разные, ошибки около 1М не будут соответствовать ошибкам около 0.

Давайте рассмотрим пример. Наша модель просто

Yя'знак равноβ0+β1Икся1'+εя

У нас есть набор данных из n образцов, около х = 0. Мы выберем еще 2 пункта в «достаточно далеко» значениях. Мы предполагаем, что эти две точки имеют некоторую ошибку.

«Достаточно большое» значение - это такое значение, что ошибка для оценки, которая не проходит непосредственно в этих двух точках, намного больше, чем ошибка остальной части набора данных.

Следовательно, линейная регрессия будет выбирать коэффициенты, которые будут проходить в этих двух точках и будут пропускать остальную часть набора данных и отличаться от подчеркивающей модели.

Смотрите следующий пример. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Это в формате серии WolfarmAlpha. В каждой паре первый элемент равен x, а второй был сгенерирован в Excel по формуле = A2 + NORMINV (RAND (), 0,2000).

Следовательно, и мы добавляем нормально распределенный случайный шум со средним 0 и стандартным отклонением 2000. Это много шума около нуля, но небольшое около миллиона.β0знак равно1,β1знак равно1

Используя Wolfram Alpha, вы получите следующую линейную регрессию , которая сильно отличается от подчеркиванияу = хYзнак равно178433.Икс-426805Yзнак равноИкс

Dal
источник
Как именно это должно работать и какой эффект это должно создать?
Ричард Харди
Это работает, так как шум и точность будут работать по-разному в разных масштабах. В больших числах, принимая крайность и рассматривая одну точку, линия должна проходить непосредственно через нее или нести большие затраты. Некоторого шума достаточно, чтобы пропустить правильные значения. Около нуля, опять же в экстремальных условиях - без зацепления, вы остаетесь с шумом.
DaL
Используйте небольшое значение для переменной с неправильным коэффициентом, и вы платите за нее.
DaL
Да, но почему профессору было бы трудно найти модель, которая это породила? Это выглядит особенно легкой задачей, когда в регрессоре так много различий.
Ричард Харди
Потому что ни одна модель не подойдет для обеих групп.
декабря