Левая и правая номенклатура в регрессионных моделях

9

y=β0+β1x1+ε0

Язык для описания регрессионных моделей, таких как очень простая линейная регрессия, указанная выше, часто варьируется, и такие вариации часто несут тонкие сдвиги в значениях. Например, часть модели в левой части уравнения может быть названа (среди прочего, я не знаю) с коннотациями и обозначениями в скобках:

  • Зависимая переменная (намеки на причинную зависимость)
  • Прогнозируемая переменная (подразумевает модель прогнозов / делает прогнозы)
  • Переменная ответа (подразумевает причинность или, по крайней мере, временную последовательность)
  • Переменная результата (подразумевает причинность)

Изменение в номенклатуре также верно в правой части уравнения (тот же отказ от ответственности, который я не знаю в отношении других терминов):

  • Независимые переменная (подразумевает причинную приоритет, намеки на опытно - конструкторском)
  • Переменная предиктора (подразумевает прогнозы, подразумевает, что с переменной связана ненулевая оценка параметра)

В ходе предложения проверки или передачи результатов исследования мне приходилось не только призывать к использованию того или иного термина, но и впоследствии вызываться на термин, которым я решил заменить его. Хотя люди, которые звонили, были, конечно, педантичными (NB: я профессиональный педант, поэтому я сочувствую), потому что, конечно, мы все поняли то, что сообщалось , я все еще задаюсь вопросом:

Существуют ли обычно используемые термины для переменных левой и правой руки в регрессионных моделях, которые не зависят от (а) внешнего использования модели, (б) причинно-следственных связей между переменными и (в) аспектов исследования проекты, используемые для производства переменных?

NB: я не спрашиваю о важных вопросах правильного моделирования и правильной интерпретации (то есть меня очень волнует причинно-следственная связь, дизайн исследования и т. Д.), Но я больше интересуюсь языком для разговора о таких моделях в целом.

(Я понимаю, что «левые переменные» и «правые переменные», я полагаю, могли бы быть истолкованы как заслуживающий доверия ответ, но эти термины кажутся неуклюжими ... возможно, это неуклюжий вопрос. :)

Alexis
источник
Не должно быть никакого замешательства по этому поводу.
Карл
1
Я думаю, что короткий ответ - нет. Это не зря, по моему мнению. В формальных случаях язык, используемый для идентификации переменных, должен быть достаточно детализирован, чтобы подразумевать различную интерпретацию в рамках предполагаемого приложения / области модели (т. Е. Очень важно знать, подразумевается ли причинность в регрессионной модели, и правильное использование номенклатуры поможет с этим).
Захари Блюменфельд
2
@ZacharyBlumenfeld (а) Не отвечайте в комментариях. :) (b) И, тем не менее, мы говорим о самой «регрессии» в общих чертах, не прибегая к изучению дизайна, областей дисциплинарных знаний и т. д. (например, множество людей говорят и пишут об оценке наименьших квадратов, не привлекая дизайн исследования, причинность , так далее.). Если у нас есть язык, не зависящий от приложения, для описания широкого класса статистических усилий, почему не существует аналогичного языка, не связанного с приложениями, для компонентов таких усилий?
Алексис
1
Не уверен, стоит ли считать это ответом, поэтому я публикую его в качестве комментария: может быть, есть некоторая терминология, вытекающая из проекций (поскольку - это проекция на пространство )? Как проекторы и проект и (я делаю это сейчас, потому что я не помню соответствующие термины). Эта терминология должна быть свободна от ваших (а), (б) и (в). X(XX)1XyyX
Ричард Харди
1
@ Кендзи, я искренне согласен с большинством твоих взглядов. Однако я не согласен с тем, что можно / нужно говорить только об уравнениях регрессии в прикладном случае: у нас должен быть язык, который может говорить о переменных левой и правой руки всех моделей регрессии, например, при рассмотрении применения таких методов. на мета-уровне по дисциплинам.
Алексис

Ответы:

6

Это отличный вопрос. На самом деле, это так хорошо, что нет ответа на это. Насколько мне известно, не существует истинного «агностического» термина для описания Y.

В своем опыте и чтениях я обнаружил, что семантика специфична для предметной области, а также для конкретной модели.

Эконометристы будут использовать термины «Зависимая переменная» при построении объяснительной модели. Они могут использовать термины Предсказанная или Приспособленная или Оцененная переменная, когда они строят модель прогнозирования, которая больше ориентирована на точную оценку / прогноз, чем на теоретическую объяснительную силу.

Толпа Big Data / Deep Learning использует совершенно другой язык. И они, как правило, будут использовать термины переменная ответа или целевая переменная. Их модели являются такими черными ящиками, что они обычно не пытаются объяснить явление, а скорее предсказать его и оценить его точно. Но, так или иначе, их не поймают, используя термин «Предсказано». Они далеко предпочитают термины Ответ или Цель.

Я менее знаком с термином «переменная результата». Это может быть распространено в других областях, в которых я менее подвержен, таких как социальные науки, включая психологию, медицину, клинические испытания, эпидемиологию.

Ввиду вышесказанного, я не мог предоставить вам какую-либо «агностическую» семантику для описания Y. Вместо этого я предоставил немного информации о том, какую семантику использовать, когда она обслуживает другую аудиторию, а также отражает цель вашей модели. Таким образом, я не думаю, что кому-то будет больно, если вы говорите о зависимой переменной с эконометриками и переменной Response или Target с типами глубокого обучения. Надеюсь, вы можете разделить эти толпы на части, иначе у вас может быть словесный поединок на руках.

Sympa
источник
Я хотел бы дать вам дополнительный голос за "словесную борьбу за еду": D
Алексис