Я работаю над домашним заданием, где мой профессор хотел бы, чтобы мы создали реальную модель регрессии, смоделировали выборку данных, и он попытается найти нашу истинную модель регрессии, используя некоторые методы, которые мы изучили в классе. Мы также должны сделать то же самое с набором данных, который он нам дал.
Он говорит, что ему удалось создать довольно точную модель для всех прошлых попыток обмануть его. Были некоторые ученики, которые создали какую-то безумную модель, но он, возможно, смог создать более простую модель, которой было достаточно.
Как я могу разработать хитрую модель для его поиска? Я не хочу быть супер дешевым, выполнив 4 квадратичных термина, 3 наблюдения и большую дисперсию? Как я могу создать, казалось бы, безобидный набор данных, который имеет жесткую маленькую модель под ним?
У него просто есть 3 правила, которым нужно следовать:
Ваш набор данных должен иметь одну переменную "Y" и 20 переменных "X", помеченных как "Y", "X1", ..., "X20".
Ваша переменная ответа должна исходить из модели линейной регрессии, которая удовлетворяет: где и .Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i
p ≤ 21Все переменные, которые использовались для создания , содержатся в вашем наборе данных.Y
Следует отметить, что не все 20 переменных X должны быть в вашей реальной модели
Я думал о том, чтобы использовать что-то вроде трехфакторной модели Фама-Френча и заставить его начать с биржевых данных (SPX и AAPL) и преобразовать эти переменные в непрерывно составленные данные, чтобы еще больше запутать их. Но это оставляет меня с пропущенными значениями в первом наблюдении, и это временные ряды (которые мы еще не обсуждали в классе).
Не уверен, что это правильное место, чтобы опубликовать что-то вроде этого. Я чувствовал, что это может привести к хорошей дискуссии.
Редактировать: я также не прошу "заранее построенных" моделей в частности. Мне более любопытны темы / инструменты в статистике, которые позволили бы кому-то заняться этим.
Ответы:
Просто сделайте термин ошибки намного больше, чем объясненная часть. Например: , где , и . Конечно, вы должны помнить, каким было ваше семя, чтобы вы могли доказать своему профессору, что вы были правы, а он ошибался.X i j = sin ( i + j ) i = 1..1000 σ = 1000000Yя= Хя 1+ ϵя Икся ж= грех( я + J ) я = 1..1000 σ= 1000000
Удачи в определении фазы с этим отношением шум / сигнал.
источник
Если его цель состоит в том, чтобы восстановить истинный процесс генерирования данных, который создает , обмануть вашего профессора довольно тривиально. В качестве примера рассмотрим возмущения и следующие структурные уравнения:Y εя∼ N( 0 , 1 )
Обратите внимание, что истинный DGP для , который включает в себя только , тривиально удовлетворяет условию 2. Условие 3 также выполняется, поскольку является единственной переменной для создания и вы предоставляете и .X 1 X 1Y Икс1 Икс1 Y Икс1 Икс2
Тем не менее, ваш профессор не может сказать, должен ли он включать только только или и чтобы восстановить истинное значение DGP для (если вы в конечном итоге используете этот пример, измените количество переменных). Скорее всего, он просто даст вам в качестве ответа регрессию со всеми переменными, поскольку все они будут отображаться как значимые предикторы. Вы можете расширить это до 20 переменных, если хотите, вы можете проверить этот ответ здесь и парадоксальную машину Симпсона здесь.X 2 XИкс1 Икс2 Икс1 Икс2 Y
Обратите внимание , все условные ожидания , или правильно указаны условные ожидания, но только отражает истинный DGP из . Таким образом, после того, как ваш профессор неизбежно провалит задание, он может утверждать, что его целью было просто восстановить любое условное ожидание или получить лучший прогноз и т. Д. Вы можете возразить, что это было не то, что он сказал, поскольку он заявляет :E [ Y | X 2 ] E [ Y | X 1 , X 2 ] E [ Y | X 1 ] Y YЕ[ Y| Икс1] Е[ Y| Икс2] Е[ Y| Икс1, X2] Е[ Y| Икс1] Y Y
И вы можете зажечь хорошую дискуссию в классе о причинно-следственной связи, о том, что означает истинный DGP, и об идентификации в целом.
источник
Используйте переменные с мультиколлинеарностью и гетероскедастичностью, такие как доход в зависимости от возраста: сделайте несколько болезненных технических решений, которые создают проблемы масштабирования: дайте NA для некоторых разбросанных по размеру. Часть линейности действительно делает ее более сложной, но это может быть болезненным. Кроме того, выбросы увеличат проблему для него заранее.
источник
Разрешены ли условия взаимодействия? Если это так, установите все коэффициенты более низкого порядка на 0 и постройте всю модель из взаимодействий N-го порядка (например, такие термины, как ). Для 20 регрессоров количество возможных взаимодействий астрономически велико, и было бы очень трудно найти только те, которые вы включили.Икс5Икс8Икс12Икс13
источник
Выберите любую линейную модель. Дайте ему набор данных, где большинство образцов около х = 0. Дайте ему несколько образцов около х = 1 000 000.
Приятно, что выборки с x = 1 000 000 не являются выбросами. Они генерируются из одного источника. Однако, поскольку шкалы очень разные, ошибки около 1М не будут соответствовать ошибкам около 0.
Давайте рассмотрим пример. Наша модель просто
У нас есть набор данных из n образцов, около х = 0. Мы выберем еще 2 пункта в «достаточно далеко» значениях. Мы предполагаем, что эти две точки имеют некоторую ошибку.
«Достаточно большое» значение - это такое значение, что ошибка для оценки, которая не проходит непосредственно в этих двух точках, намного больше, чем ошибка остальной части набора данных.
Следовательно, линейная регрессия будет выбирать коэффициенты, которые будут проходить в этих двух точках и будут пропускать остальную часть набора данных и отличаться от подчеркивающей модели.
Смотрите следующий пример. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Это в формате серии WolfarmAlpha. В каждой паре первый элемент равен x, а второй был сгенерирован в Excel по формуле = A2 + NORMINV (RAND (), 0,2000).
Следовательно, и мы добавляем нормально распределенный случайный шум со средним 0 и стандартным отклонением 2000. Это много шума около нуля, но небольшое около миллиона.β0= 1 , β1= 1
Используя Wolfram Alpha, вы получите следующую линейную регрессию , которая сильно отличается от подчеркиванияу = хY= 178433. х - 426805 Y= х
источник