Независимая переменная = Случайная переменная?

25

Я немного сбит с толку, если независимая переменная (также называемая предиктором или признаком) в статистической модели, например в линейной регрессии , является случайной величиной?Y = β 0 + β 1 XXY=β0+β1X

l7ll7
источник
12
Линейная модель является условной для , поэтому не имеет значения, случайна она или нет. X
Сиань
4
Проверьте это . Хороший вопрос, кстати.
Антони Пареллада
@ Сиань, в фиксированной схеме предположения линейной модели не обусловлены X , см. Мой ответ. Итак, это имеет большое значение. Вот почему эксперименты гораздо проще интерпретировать, чем результаты наблюдательных исследований
Аксакал

Ответы:

19

Есть две общие формулировки линейной регрессии. Чтобы сосредоточиться на понятиях, я их несколько абстрагирую. Математическое описание немного сложнее английского описания, поэтому давайте начнем с последнего:

Линейная регрессия - это модель, в которой отклик Y предполагается случайным с распределением, определяемым регрессорами X через линейную карту β(X) и, возможно, другими параметрами θ .

В большинстве случаев множество возможных распределений представляет собой семейство местоположений с параметрами α и θ а β(X) дает параметр α . Архетипическим примером является обычная регрессия, в которой набор распределений является нормальным семейством N(μ,σ) а μ=β(X) является линейной функцией регрессоров.

Поскольку я еще не описал это математически, остается открытым вопрос, к каким видам математических объектов относятся X , Y , β и θ - и я считаю, что это основная проблема в этой теме. Хотя можно сделать различные (эквивалентные) варианты, большинство из них будут эквивалентны или являются особыми случаями следующего описания.


  1. Исправлены регрессоры. В регрессорах представлены в виде вещественных векторов XRp . Реакция является случайной величиной Y:ΩR (где Ω наделен полем сигмы и вероятностью). Модель является функцией f:R×ΘMd (или, если угодно, набор функций RMd параметризованного Θ ; ). Mdявляется конечномерным топологическим (обычно вторым дифференцируемым) подмногообразием (или подмногообразием с границей) размерности d пространства вероятностных распределений. f обычно считается непрерывным (или достаточно дифференцируемым). ΘRd1 , являются "мешающими параметрами." Предполагается, что распределение Y равно f(β(X),θ) для некоторого неизвестного двойственного вектора βRp («коэффициенты регрессии») и неизвестного θΘ, Мы можем написать это

    Yf(β(X),θ).

  2. Случайные регрессоры. Регрессоры и ответа являются p+1 мерный вектор-случайная величина Z=(X,Y):ΩRp×R . Модель f является объектом того же типа, что и раньше, но теперь она дает условную вероятность

    Y|Xf(β(X),θ).

Математическое описание бесполезно без какого-либо предписания, рассказывающего, как оно предназначено для применения к данным. В случае фиксированного регрессора мы понимаем, что X определено экспериментатором. Таким образом, это может помочь рассмотреть Ω как произведение Rp×Ω наделенное сигма-алгеброй произведений. Экспериментатор определяет X а природа определяет (некоторое неизвестное, абстрактное) ωΩ . В случае случайного регрессора природа определяет ωΩ , X компоненту случайной величины πX(Z(ω)) определяетX (что «наблюдается»), и теперь мы имеем упорядоченную пару(X(ω),ω))Ω точно так же, как в случае фиксированного регрессора.


Архетипический пример множественной линейной регрессии (которую я выражу, используя стандартную запись для объектов, а не эту более общую), состоит в том, что

f(β(X),σ)=N(β(x),σ)
для некоторой постоянной σΘ=R+ . Поскольку x изменяется по всему Rp , его изображение дифференцируемо выявляет одномерное подмножество - кривую - в двумерном многообразии нормальных распределений.

Когда - какой - либо образом whatsoever-- β оцениваются как р и сг как сг , значение & beta ; ( х ) является прогнозируемым значением из Y , связанное с й --whether х управляются экспериментатором (случай 1 ) или только наблюдается (случай 2). Если мы либо установим значение (случай 1), либо увидим реализацию (случай 2) x из X , то ответ Y, связанный с этим X, является случайной величиной, распределение которой равно N (β^σσ^β^(x)YxxxX YXN(β(x),σ) , что неизвестнонооцениваетсякакN(β^(x),σ^) .

Whuber
источник
Позвольте мне просто упомянуть, что это фантастический ответ (но, вероятно, не для всех).
17
2
P.S. Do you know of any book, where these foundational question are explained as precisely as you did here ? As a mathematician, all the books I found reflected the other answers here, that are much less precise from a mathematical point of view. (This doesn't make them bad, of course, it's just that those books are not for me - I would love a book that is more precise, like this answer.)
l7ll7
In the first sentence of the last paragraph, isn't β^(Икс) the predicted value for Y (a realization of the random variable Y), not the predicted value for x? Or have I misunderstood your language, and "predicted value for x" means "predicted value when x is the set(observed) value of Икс?"
Chad
1
@Chad Thank you for pointing out the ambiguous language. I have edited that sentence to clarify the meaning, which is consistent with your understanding.
whuber
7

Прежде всего, @whuber дал отличный ответ. Я расскажу об этом иначе, может быть, проще в некотором смысле, также со ссылкой на текст.

МОТИВАЦИЯ

может быть случайным или фиксированным в формулировке регрессии. Это зависит от вашей проблемы. Для так называемых наблюдательных исследований оно должно быть случайным, а для экспериментов обычно фиксированным.Икс

Пример первый Я изучаю влияние воздействия электронного излучения на твердость металлической детали. Итак, я беру несколько образцов металлической детали и подвергаю воздействию различных уровней радиации. Мой уровень экспозиции - X, и он фиксированный , потому что я установил уровни, которые я выбрал. Я полностью контролирую условия эксперимента или, по крайней мере, пытаюсь. Я могу сделать то же самое с другими параметрами, такими как температура и влажность.

Пример второй. Вы изучаете влияние экономики на частоту мошенничества в приложениях для кредитных карт. Итак, вы регрессируете мошенничество рассчитывает на ВВП. Вы не контролируете ВВП, вы не можете установить желаемый уровень. Более того, вы, вероятно, хотите взглянуть на многовариантные регрессии, поэтому у вас есть другие переменные, такие как безработица, и теперь у вас есть комбинация значений в X, которую вы наблюдаете , но не контролируете. В этом случае X является случайным .

Пример третий. Вы изучаете эффективность нового пестицида в полевых условиях, то есть не в лабораторных условиях, а на реальной экспериментальной ферме. В этом случае вы можете что-то контролировать, например, вы можете контролировать количество пестицидов, чтобы положить. Однако вы не контролируете все, например, погоду или почвенные условия. Хорошо, вы можете контролировать почву в некоторой степени, но не полностью. Это промежуточный случай, когда некоторые условия соблюдаются, а некоторые условия контролируются . Существует целая область исследований, называемая экспериментальным дизайном, которая действительно сфокусирована на третьем случае, где сельскохозяйственные исследования являются одним из самых больших его применений.

МАТЕМАТИКА

Здесь идет математическая часть ответа. Существует ряд предположений, которые обычно представлены при изучении линейной регрессии, называемых условиями Гаусса-Маркова. Они очень теоретические, и никто не потрудится доказать, что они верны в любой практической ситуации. Тем не менее, они очень полезны для понимания ограничений обычного метода наименьших квадратов (OLS).

Таким образом, набор предположений различен для случайного и фиксированного X, что примерно соответствует наблюдательным и экспериментальным исследованиям. Грубо говоря, потому что, как я показал в третьем примере, иногда мы действительно находимся между крайностями. Я нашел, что раздел теоремы Гаусса-Маркова в «Энциклопедии дизайна исследований» Салкинда - хорошее место для начала, он доступен в Google Книгах.

Yзнак равноИксβ+ε

  • Е[ε]знак равно0
  • E[ε2]=σ2
  • E[εi,εj]=0

по сравнению с теми же предположениями в случайном дизайне:

  • E[ε|X]=0
  • E[ε2|X]=σ2
  • E[εi,εj|X]=0

Как вы можете видеть, разница заключается в том, чтобы предположить матрицу дизайна для случайного проекта. Кондиционирование делает эти более сильные предположения. Например, мы не просто говорим, как в фиксированном дизайне, что ошибки имеют нулевое среднее значение; в случайном дизайне мы также говорим, что они не зависят от X, ковариат.

Аксакал
источник
2

В статистике случайной величиной является величина, которая каким-то образом изменяется случайным образом. Вы можете найти хорошее обсуждение в этой отличной ветке резюме: что означает «случайная величина»?

In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:

Y=β0+β1X+εwhere εN(0,σ2)
The error term, ε, is a random variable and is the source of the randomness in the model. As a result of the error term, Y is a random variable as well. But X is not assumed to be a random variable. (Of course, it might be a random variable in reality, but that is not assumed or reflected in the model.)
gung - Reinstate Monica
источник
So you mean X is a constant ? Because that is the only other way to make sense of X from a mathematical point of view, since ε is a random variable and addition is only defined between two random variables and not "something else" + random variable. Though one of the two random variables could be constant, which is the case I'm referring to.
l7ll7
P.S. I looked at all the explanations from said link and none very illuminating: Why ? Because none make the connection between random variables as probabilists understand it vs. how statisticians understand it. So some answers restate the standard, precise probability theory definition, while others restate the (yet unclear to me) vague statistical definition. But none really explain the connection between these two concepts.(The only exception is the long ticket-in-a-box model answer, which may show some promise, but even so [...]
l7ll7
the difference wasn't fleshed out clearly enough to be strikingly illuminating; I'll have to meditate on this specific answer to see if there's any value to it)
l7ll7
@user10324, if you like, you can think of X as a set of constants. You could also think of it as a non-random variable.
gung - Reinstate Monica
No, the non-random variable way of thinking about it does not work, for two reasons: One, as I argued in the comments above, there is no such thing as a "variable" in mathematics, and two, even if it were, then addition in that case is not defined, as I argued in the comments above.
l7ll7
1

Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.

An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).

There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.

Statsanalyst
источник
Ok, but what is it, if it is not a random variable ? Just a (therefore deterministic) function ? I'm confused regarding the mathematical nature of the object "X". Actually, I found in the meantime a textbook, Probability and Statistics by Papoulis, where on page 149 he says "given two random variables X and Y [...]" and then goes on to explain how to regress X on Y. So he seems to understand X as a random variable ?
l7ll7
P.S. I want to add that there is no such thing as a "variable" in mathematics when you look at it as a "standalone" objects (my background is maths). Variables in mathematics are just parts of standalone objects (e.g. arguments of function), but have no standalone meaning. If I would just write "x" in mathematics, it could mean the function xx, or it could be a specific number, if x was assigned a values previously, but we don't have just x. And since log. regression is a mathematical model, I'm interested in the mathematical meaning of X.
l7ll7
It sounds as though you have a much greater understanding of maths than me. I'm just giving you the standard university undergraduate econometrics/statistics answer. I wonder if perhaps you might be overthinking it a bit, at least from the perspective of practical analysis. Regarding the quote from that book, my interpretation of that is that the specific x and y to which he is referring are random - but that doesn't mean that any x or any y are random.
Statsanalyst
e.g. the dependent variable in a model for voting trends in UK politics might be the number of votes received by the Conservative candidate in each constituency (Riding to Canadians, District to Americans), and the independent variable might be average house prices (a proxy for wealth/income in the UK). Neither of these is a "random" variable as I understand it, but this would be a perfectly reasonable thing to model.
Statsanalyst
Ok, that's is good to know what kind of answers I can expect/is the standard at econometrics/statistics departments and I appreciate that feedback very much (I would upvote again, but I can't since I already did). The problem with mathematics is "once you go black you never go back": Yearlong training in mathematical precision will induce a feeling of uneasiness if something is not crystal-clear fleshed out until one achieves claritiy [...]
l7ll7