В регрессионном анализе почему мы называем независимые переменные «независимыми»?

30

Я имею в виду, что некоторые из этих переменных тесно связаны между собой. Как / почему / в каком контексте мы определяем их как независимые переменные?

Амарприт Сингх
источник
1
Это историческое и происходит от французских научных работ. Я пытаюсь найти ссылку.
Алекос Пападопулос
1
Я бы назвал набор переменных «потенциально взаимозависимыми», чтобы избежать причинно-следственной связи.
Qed
1
Хороший вопрос!
Рафаэль Маразуэла

Ответы:

29

Если мы отступим от сегодняшнего акцента на машинном обучении и вспомним, какая часть статистического анализа была разработана для контролируемых экспериментальных исследований, фраза «независимые переменные» имеет большой смысл.

В контролируемых экспериментальных исследованиях выбор лекарственного средства и его концентраций или выбор удобрения и его количества на акр осуществляется независимым исследователем. Интерес заключается в том, как переменная интереса (например, кровяное давление, урожайность) зависит от этих экспериментальных манипуляций. В идеале характеристики независимых переменных должны быть четко определены, при этом, по существу, нет ошибок в знании их значений. Затем стандартная линейная регрессия, например, моделирует различия между значениями зависимых переменных в терминах значений независимых переменных плюс остаточные ошибки.

Тот же математический формализм, используемый для регрессии в контексте контролируемых экспериментальных исследований, также может применяться к анализу наблюдаемых наборов данных практически без экспериментальных манипуляций, поэтому, возможно, не удивительно, что фраза «независимые переменные» перенесена на такие типы исследования. Но, как отмечают другие на этой странице, это, вероятно, неудачный выбор, поскольку «предикторы» или «функции» более уместны в таких контекстах.

магистр педагогических наук
источник
2
Но выбор уровней препарата зависит от того, что делает следователь, поэтому я никогда не могу вспомнить, что есть что.
mdewey
В машинном обучении «особенности» часто являются скрытыми ненаблюдаемыми переменными. «Наблюдаемые особенности» встречаются чаще.
Нил Дж
18

Во многих отношениях «независимая переменная» является неудачным выбором. Переменные не должны быть независимы друг от друга, и, конечно , не должен быть независимым от зависимой переменной . В преподавании и в моей книге « Стратегии регрессионного моделирования» я использую слово « предиктор» . В некоторых ситуациях это слово недостаточно сильное, но в среднем оно работает хорошо. Полное описание роли (правая часть) переменных в статистической модели может быть слишком длинным, чтобы использовать его каждый раз: набор переменных или измерений, на которых обусловлено распределениеЭто еще один способ обозначить множество переменных, распределение которых нас в данный момент не интересует, но значения которых мы рассматриваем как константы.X YYXY

Фрэнк Харрелл
источник
Итак, все, что вы говорите, что называть входные переменные «независимыми» - это неправильная практика? @Frank
Amarpreet Singh
11
Они определенно не считаются независимыми от НИЧЕГО, поэтому это неправильная практика, используемая только по привычке.
Фрэнк Харрелл
1
«множество переменных или измерений, на которых обусловлено распределение Y» ... на самом деле я думаю о них как (и иногда называю их) «условными переменными» или «переменными, обусловленными», что не слишком долго описание и работает естественно с обозначениемE(Y|X)
Silverfish
11

Я согласен с другими ответами здесь, что «независимый» и «зависимый» - плохая терминология. Как объясняет EdM , эта терминология возникла в контексте контролируемых экспериментов, в которых исследователь мог устанавливать регрессоры независимо друг от друга. Есть много предпочтительных терминов, которые не имеют такой загруженной причинной коннотации, и, по моему опыту, статистики предпочитают более нейтральные термины. Здесь используется много других терминов , включая следующие:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Лично я использую термины «объяснительные переменные» и «переменная ответа», поскольку эти термины не имеют никакого смысла статистической независимости или контроля и т. Д. (Можно утверждать, что «ответ» имеет причинно-следственную коннотацию, но это довольно слабая коннотация, поэтому я не нашел это проблематичным.)

Восстановить Монику
источник
1
(+1) Я полагаю, регрессор / регресс и являются наиболее нейтральными терминами, но я также предпочитаю объяснять, используя объяснение / ответ.
Франс Роденбург
2
Я согласен с тенденцией предпочитать нейтральные термины, но «объяснительные» звучат для меня довольно причинно, как в: «Переменные X объясняют, почему переменная Y действует так же, как и она».
Тимвиз
1
Я полагаю, что это означает объяснение в вероятностном смысле, т. Е. Оно объясняет изменения в распределении переменной ответа. Возможно, вы правы, но во всех этих случаях значение любой причинности слабое.
Восстановить Монику
2
Пояснение подразумевает причинно-следственную связь, поэтому неуместно.
Фрэнк Харрелл
1
@Frank: я не обязательно согласен с этим мнением. Пояснение происходит от слова «объяснить», поэтому я понимаю, что переменные как-то объясняют переменную ответа. Это объяснение может быть причинно-следственным, или оно может быть просто статистическим, и я считаю его последним. Тем не менее, похоже, что люди по-разному интерпретируют коннотации этих слов, поэтому я допускаю, что некоторые будут воспринимать их как причинно-следственные коннотации.
Восстановить Монику
9

Чтобы добавить к ответам Фрэнка Харрелла и Питера Флома:

Я согласен, что называть переменную «независимой» или «зависимой» часто вводит в заблуждение. Но некоторые люди все еще делают это. Однажды я услышал ответ, почему:

YXXYY X

Y

Лукаш Дерило
источник
Вы говорите, что Y зависит от X (так что Y называется зависимой переменной) и под этим вы подразумеваете, что X не зависит от Y. Но могут быть случаи, когда X может зависеть от Y или коррелировать с Y (так что это может больше нельзя называть «независимым». Есть мнения по этому поводу?
Амарприт Сингх,
Нет, я не имею в виду, что X не зависит от Y. Я просто имею в виду, что самое основное объяснение того, что делает регрессионный анализ, состоит в том, что оно описывает, как Y зависит от X. Таким образом, самое основное имя для Y будет «зависимым». "
Лукаш Дерило
6
Я не пытаюсь ответить на вопрос "должны ли мы называть X независимым?" а скорее «почему мы называем это независимым?», как в заголовке вашего поста
Лукаш Дерило
5

«Зависимый» и «независимый» могут быть запутанными терминами. Одно из них - псевдокаузальное или даже причинно-следственное, и именно это подразумевается, когда мы говорим «независимая переменная» и «зависимая переменная». Мы имеем в виду, что DV в некотором смысле зависит от IV. Так, например, при моделировании соотношения роста и веса у взрослых людей мы говорим, что вес - это DV, а рост - это IV.

Это действительно захватывает то, чего не делает «предиктор», а именно направление отношений. Рост предсказывает вес, но вес также предсказывает рост. То есть, если бы вам сказали угадать рост людей и сказать им вес, это было бы полезно.

Но мы бы не сказали, что рост зависит от веса.

Питер Флом - Восстановить Монику
источник
Вы конкретно относитесь к модели SEM?
Амарприт Сингх,
Нет, я думал о регрессе.
Питер Флом - Восстановить Монику
Хорошо, это просто вопрос имени. Я запутался, что называть входные переменные «независимыми» что-то значит.
Амарприт Сингх,
12
DV и IV являются общими сокращениями (которые лично мне не нравятся), но остерегайтесь многих экономистов и некоторых других социологов, для которых IV может означать только инструментальную переменную. Реже встречаются люди, для которых DV может означать только Deo volente (дай Бог).
Ник Кокс
0

Исходя из приведенных выше ответов, да, я согласен, что эта зависимая и независимая переменная является слабой терминологией. Но я могу объяснить контекст, в котором он используется многими из нас. Вы говорите, что для общей задачи регрессии у нас есть выходная переменная, скажем, Y, значение которой зависит от других входных переменных, скажем, x1, x2, x3. Вот почему он называется «Зависимая переменная». И точно так же в зависимости от этого контекста только , и просто дифференцируются между выходом и входом переменной, x1, x2, x3, называются независимой переменной. Потому что, в отличие от Y, она не зависит ни от какой другой переменной (но да, здесь мы не говорим о зависимости между собой).

Пуджа Сонкар
источник
Вы ответили так же, как у @Ramya R.
Amarpreet Singh
-2

Независимые переменные называются независимыми, потому что они не зависят от других переменных. Например, рассмотрим проблему прогнозирования цен на жилье. Предположим, у нас есть данные о house_size, location и house_price. Здесь, house_price определяется на основе house_size и местоположения, но местоположение и house_size могут различаться для разных домов.

Рамя Р
источник
4
Иногда так называемые «независимые» переменные в регрессии коррелируют. Таким образом, они не обязательно статистически независимы. Было бы лучше назвать их переменными предикторами.
Майкл Р. Черник
Майкл, спасибо, что указал на это. У меня есть дополнительный вопрос. В случаях, когда у нас есть две предсказывающие переменные, которые являются коллинеарными, разве мы не отбрасываем одну из них, чтобы устранить проблему мультиколлинеарности, чтобы наши предсказывающие переменные были независимы друг от друга?
Рамя Р
1
Не обязательно. Это зависит от того, влияет ли это на стабильность оценок и насколько сильнее прогноз при включении обеих переменных. Если две переменные имеют корреляцию 0.1, они не являются независимыми, но связь между ними является слабой.
Майкл Р. Черник