Есть ли интуитивное объяснение этой терминологии? Почему это так, а не предсказатель (ы) регрессируют на результат?
В идеале я надеюсь, что правильное объяснение того, почему существует эта терминология, поможет студентам запомнить ее и помешать им сказать это неправильно.
regression
terminology
teaching
user1205901 - Восстановить Монику
источник
источник
Ответы:
Я не знаю, что такое этимология «регрессии», но вот интерпретация, которую я имею в виду, когда говорю или слышу это выражение. Рассмотрим следующую фигуру из «Элемента статистического обучения » Hastie et al .:
По своей сути, линейная регрессия составляет ортогональную проекцию на (на) X , где y - n- мерный вектор наблюдений зависимой переменной, а X - подпространство, охватываемое векторами предиктора.y X y n X
Это очень полезная интерпретация линейной регрессии.
Так как проецируется на X , то есть то , что я думаю , когда я слышу , что у является «регресс на» X . С этой точки зрения не имеет смысла говорить, что X регрессирует на y или что y регрессирует «против» или «с» Xy X y X X y y X .
Как я уже сказал, я сомневаюсь, что это объяснение того, почему существует эта терминология (возможно, только почему она сохраняется?), Но я уверен, что она может помочь студентам запомнить ее.
источник
Я часто использовал и слышал этот способ говорить. Я предполагаю, что последовательность, в которой упоминается результат или ответ до того, как предикторы вытекают из соглашений в письменной форме, с использованием слов или с использованием нотации или смешивания двух, вплоть до
оставляя в стороне столь же интересный (или неинтересный!) вопрос о том, что мы называем различными видами переменных.
Но кажется одинаково обоснованным математически и статистически в первую очередь упоминать предикторы, точно так же, как многие математики сначала пишут отображения или функции с аргументами.
Что часто, возможно, определяет последовательность, которую мы используем в статистических дискуссиях, так это то, что с научной или практической точки зрения у нас обычно есть четкое представление о том, что мы пытаемся предсказать - это смертность, или доход, или урожай пшеницы, или голоса на выборах, или что-то еще. - хотя пул потенциальных или фактических предикторов может быть не таким ясным. Даже если это понятно, имеет смысл сначала упомянуть важные вещи. Что ты пытаешься сделать? Предсказать что угодно . Как ты собираешься это сделать? Используйте некоторые или все эти переменные .
У меня нет истории для «вкл», а не любое другое слово, которое подходит. Я не слышу «регресс против» или «регресс с». Здесь не может быть никакой логики, только мемы, передаваемые в учебниках, учениях и дискуссиях.
В общем, берегитесь. Рассмотрим связанный вопрос, значение «против» . Меня воспитали, чтобы сказать «график [переменная вертикальной оси] против (или против) x [переменная горизонтальной оси]», и обратное звучит для меня необычно. Тем не менее, люди со значительным опытом и знаниями имеют его наоборот. Иногда такого рода различия можно отнести к харизматичным и своеобразным учителям, которым вы подражали с тех пор, как сидели у их ног.y x
источник
1) Термин регрессия происходит от того факта, что в обычной простой линейной регрессионной модели:
Например, если мы используем фрейм данных BOD, встроенный в R, то:
Для доказательства см .: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Термин on происходит от того факта, что подобранные значения представляют собой проекцию выходной переменной на подпространство, охватываемое переменными предиктора (включая точку пересечения ), что дополнительно объясняется во многих источниках, таких как http: //people.eecs.ku. .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .
Заметка
Что касается комментария ниже, то, что указывает комментатор, это то, что ответ уже заявляет выше в форме формулы, за исключением того, что ответ утверждает это правильно. На самом деле, из-за равенства:
the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless| β| <1 , Что верно, так это то, что зависимая переменная в среднем меньше стандартных отклонений from its mean than the predictor is to its as stated in the formula in the answer.
Используя данные Гальтона, к которым относится комментарий (который доступен в пакете UsingR в R), я запустил регрессию, и на самом деле наклон составляет 0,646, поэтому средний дочерний элемент был ближе к своему среднему значению, чем его родитель, но это не общий случай. Текущее использование регрессии к среднему основано на правильных общих отношениях, которые мы показали в ответе. В примере, показанном в коде R в ответе вышеbeta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.
источник
Personally, when it comes to explaining terminology, I find the definition of the term itself always helps, especially when explaining to students. The actual definition of the word regress is:
"return to a former or less developed state".
So one way to explain I guess would be the following:
"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."
Hope that helps.
источник