Х и Y не коррелированы (-.01); однако, когда я помещаю X в предсказание множественной регрессии Y, наряду с тремя (A, B, C) другими (связанными) переменными, X и две другие переменные (A, B) являются значимыми предикторами Y. Обратите внимание, что два других ( A, B) переменные значительно коррелируют с Y вне регрессии.
Как я должен интерпретировать эти результаты? X предсказывает уникальную дисперсию в Y, но, поскольку они не коррелированы (Пирсон), это трудно интерпретировать.
Мне известны противоположные случаи (т.е. две переменные коррелируют, но регрессия не имеет существенного значения), и те из них относительно проще понять с теоретической и статистической точки зрения. Обратите внимание, что некоторые из предикторов довольно коррелированы (например, 0,70), но не в той степени, в которой я ожидал бы существенной мультиколлинеарности. Может быть, я ошибаюсь, хотя.
ПРИМЕЧАНИЕ: я задавал этот вопрос ранее, и он был закрыт. Рациональным было то, что этот вопрос избыточен с вопросом « Как регрессия может быть значимой, но все предикторы не являются значимыми?«Возможно, я не понимаю другой вопрос, но я считаю, что это совершенно отдельные вопросы, как математические, так и теоретические. Мой вопрос полностью независим от того, является ли« регрессия значимой ». Кроме того, некоторые предикторы являются значимыми, в то время как другой вопрос переменные не являются значимыми, поэтому я не вижу дублирования. Если эти вопросы являются избыточными по причинам, которые я не понимаю, пожалуйста, вставьте комментарий до закрытия этого вопроса. Также я надеялся сообщить модератору, который закрыл другой вопрос, чтобы избежать идентичных вопросов, но я не мог найти вариант сделать это.
Ответы:
Каузальная теория предлагает другое объяснение того, как две переменные могут быть безусловно независимыми, но условно зависимыми. Я не эксперт по теории причин и благодарен за любую критику, которая исправит любое неправильное руководство ниже.
Для иллюстрации я буду использовать ориентированные ациклические графы (DAG). На этих графиках ребра (− ) между переменными представляют собой прямые причинно-следственные связи. Стрелки ( ← или → ) указывают направление причинно-следственных связей. Таким образом , → B делает вывод , что непосредственно вызывает B , и ← B делает вывод , что непосредственно вызванные B . A → B → C является причинным путем, который делает вывод, что A косвенно вызывает C через BA→B A B A←B A B A→B→C A C B , Для простоты предположим, что все причинно-следственные связи являются линейными.
Сначала рассмотрим простой пример предвзятости :
Здесь простой bivariable регрессии предложит зависимость междуX и Y . Однако, не существует прямая причинно - следственная связь между X и Y . Вместо этого оба непосредственно вызваны Z , и в простой двумерной регрессии, наблюдение Z вызывает зависимость между X и Y , что приводит к смещению из-за смешения. Тем не менее, многопараметрический регрессионный кондиционирования на Z будет удалить смещение и не предполагают никакой зависимости между X и Y .
Во-вторых, рассмотрим пример смещения коллайдера (также известного как смещение Берксона или смещение Берксона, для которого смещение выбора является особым типом):
Здесь простой bivariable регрессии не предположит никакой зависимости междуX и Y . Это согласуется с DAG, который не выводит никакой прямой причинной связи между X и Y . Однако многопараметрическая регрессионная обусловленность на Z будет вызывать зависимость между X и Y предполагая, что прямая причинно-следственная связь между двумя переменными может существовать, хотя на самом деле их не существует. Включение Z в многовариантную регрессию приводит к смещению коллайдера.
В-третьих, рассмотрим пример случайной отмены:
Предположим, чтоα , β и γ являются коэффициентами пути и что β=−αγ . Простой bivariable регрессия предложит не depenence между X и Y . Несмотря на то, X фактически является прямой причиной Y , смешанное воздействие Z на X и Y , кстати компенсирует эффект X на Y . Многофакторная регрессионная обусловленность на Z устранит мешающее влияние Z на X иY , allowing for the estimation of the direct effect of X on Y , assuming the DAG of the causal model is correct.
To summarize:
Confounder example:X and Y are dependent in bivariable regression and independent in multivariable regression conditioning on confounder Z .
Collider example:X and Y are independent in bivariable regression and dependent in multivariable regresssion conditioning on collider Z .
Inicdental cancellation example:X and Y are independent in bivariable regression and dependent in multivariable regresssion conditioning on confounder Z .
Discussion:
The results of your analysis are not compatible with the confounder example, but are compatible with both the collider example and the incidental cancellation example. Thus, a potential explanation is that you have incorrectly conditioned on a collider variable in your multivariable regression and have induced an association betweenX and Y even though X is not a cause of Y and Y is not a cause of X . Alternatively, you might have correctly conditioned on a confounder in your multivariable regression that was incidentally cancelling out the true effect of X on Y in your bivariable regression.
I find using background knowledge to construct causal models to be helpful when considering which variables to include in statistical models. For example, if previous high-quality randomized studies concluded thatX causes Z and Y causes Z , I could make a strong assumption that Z is a collider of X and Y and not condition upon it in a statistical model. However, if I merely had an intuition that X causes Z , and Y causes Z , but no strong scientific evidence to support my intuition, I could only make a weak assumption that Z is a collider of X and Y , as human intuition has a history of being misguided. Subsequently, I would be skeptical of infering causal relationships between X and Y without further investigations of their causal relationships with Z . In lieu of or in addition to background knowledge, there are also algorithms designed to infer causal models from the data using a serires of tests of association (e.g. PC algorithm and FCI algorithm, see TETRAD for Java implementation, PCalg for R implementation). These algorithms are very interesting, but I would not reccomend relying on them without a strong understanding of the power and limitations of causal calculus and causal models in causal theory.
Conclusion:
Contemplation of causal models do not excuse the investigator from addressing the statistical considerations discussed in other answers here. However, I feel that causal models can nevertheless provide a helpful framework when thinking of potential explanations for observed statistical dependence and independence in statistical models, especially when visualizing potential confounders and colliders.
Further reading:
Gelman, Andrew. 2011. "Causality and Statistical Learning." Am. J. Sociology 117 (3) (November): 955–966.
Greenland, S, J Pearl, and J M Robins. 1999. “Causal Diagrams for Epidemiologic Research.” Epidemiology (Cambridge, Mass.) 10 (1) (January): 37–48.
Greenland, Sander. 2003. “Quantifying Biases in Causal Models: Classical Confounding Vs Collider-Stratification Bias.” Epidemiology 14 (3) (May 1): 300–306.
Pearl, Judea. 1998. Why There Is No Statistical Test For Confounding, Why Many Think There Is, And Why They Are Almost Right.
Pearl, Judea. 2009. Causality: Models, Reasoning and Inference. 2nd ed. Cambridge University Press.
Spirtes, Peter, Clark Glymour, and Richard Scheines. 2001. Causation, Prediction, and Search, Second Edition. A Bradford Book.
Update: Judea Pearl discusses the theory of causal inference and the need to incorporate causal inference into introductory statistics courses in the November 2012 edition of Amstat News. His Turing Award Lecture, entitled "The mechanization of causal inference: A 'mini' Turing Test and beyond" is also of interest.
источник
I think @jthetzel's approach is the right one (+1). In order to interpret these results you will have to think about / have some theory of why the relationships manifest as they do. That is, you will need to think about the pattern of causal relationships that underlies your data. You need to recognize that, as @jthetzel points out, your results are consistent with several different data generating processes. I don't think that any amount of additional statistical tests on the same dataset will allow you to distinguish amongst those possibilities (although further experiments certainly could). So thinking hard about what's known about the topic is vital here.
I want to point out another possible underlying situation that could generate results like yours: Suppression. This is more difficult to illustrate using the arrow diagrams, but if I can augment them slightly, we could think of it like this:
What's important about this situation is that theOther Variable is made up of two parts, an unrelated (U ) part, and a related (R ) part. The Suppressor will be uncorrelated with Y , but may very well be 'significant' in a multiple regression model. Furthermore, the Other Variable may or may not be 'significantly' correlated with the Suppressor or Y on its own. Moreover, your variable X could be playing the role of either the Suppressor or the Other Variable in this situation (and thus, again, you need to think about what the underlying pattern might be based on your knowledge of the area).
I don't know if you can read R code, but here's an example I worked up. (This particular example fits better with X playing the role of theSuppressor , but both are not 'significantly' correlated with Y ; it should be possible to get the correlation between the Other Variable and Y close to 0 and match the other descriptives with just the right settings.)
My point here isn't that this situation is the one that underlies your data. I don't know if this is more or less likely than the options @jthetzel suggests. I only offer this as more food for thought. To interpret your current results, you need to think about these possibilities and decide what makes the most sense. To confirm your choice, careful experimentation will be needed.
источник
Just some visualization that it is possible.
On picture (a) "normal" or "intuitive" regressional situation is shown. This pic is the same as for example found (and explained) here or here.
The variables are drawn as vectors. Angles between them (their cosines) are the variables' correlations.Y′ here designates the variable of predicted values (more often notated as Y^ ). Skew coordinate of its edge onto a predictor vector (skew projection, parallel to the other predictor) - notch b - is proportional to the regression coefficient of that predictor.
On pic (a), all three variables correlate positively, and bothb1 and b2 are also positive regression coefficients. X1 and X2 "compete" in the regression, with the regression coefficients being their score in that contest.
On picture (b) shown is situation where predictorX1 correlates with Y positively, still it's regression coefficient is zero: the endpoint of the prediction Y′ projects at the origin of vector X1 . Note that this fact coincides with that Y′ and X2 superimpose, which means that the predicted values absolutely correlate with that other predictor.
On picture (c) is the situation whereX1 does not correlate with Y (their vectors are orthogonal), yet the regression coefficient of the predictor is not zero: it is negative (the projection falls behind X1 vector).
Data and analysis approximately corresponding to pic (b):
Data and analysis approximately corresponding to pic (c):
Observe thatX1 in the last example served as suppressor. Its zero-order correlation with Y is practically zero but its part correlation is much larger by magnitude, −.224 . It strengthened to some extent the predictive force of X2 (from .419 , a would-be beta in simple regression with it, to beta .538 in the multiple regression).
источник
I agree with the previous answer but hope I can contribute by giving more details.
The correlation coefficient is just measuring the linear dependence betweenX and Y and it's not controlling for the fact that other variables might be involved in the relationship as well. In fact the correlation coefficient equals the slope parameter of the following regression scaled by x and y standard deviations :
whereρ^yx=β^σ^x/σ^y
But what happens ifY is generated by other variables as well, thus the real model is something like:
Under this real model, it becomes obvious that estimating the first one (only with x) will yield a biasedβ estimate as that model is omitting the zj regressors(this implies that ρ is also biased !). So your results are in line with the fact that the omitted variables are relevant. To deal with this issue , theory on correlation analysis provides the partial correlation coefficient (I'm sure you will find references on this) which basically calculates ρxy|z from the latter estimating equation that controls for zj .
источник