Я делаю множественную линейную регрессию. У меня 21 наблюдение и 5 переменных. Моя цель просто найти связь между переменными
- Достаточно ли моих данных для множественной регрессии?
Результат t-теста показал, что 3 мои переменные не являются значимыми. Нужно ли мне снова проводить регрессию со значимыми переменными (или моей первой регрессии достаточно, чтобы получить заключение)? Моя корреляционная матрица следующая
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 и var 2 являются переменными продолжения, а var 3 - 5 являются категориальными переменными, а y - моя зависимая переменная.
Следует упомянуть, что важная переменная, которая рассматривалась в литературе как наиболее влиятельный фактор для моей зависимой переменной, также не входит в число моих регрессионных переменных из-за ограниченности моих данных. Имеет ли смысл регрессировать без этой важной переменной?
вот мой доверительный интервал
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
Ответ на общий вопрос заключается в том, что он зависит от многих факторов, основными из которых являются (1) число ковариат (2) дисперсия оценок и невязок. С небольшой выборкой у вас недостаточно сил, чтобы обнаружить разницу от 0. Поэтому я бы посмотрел на оценочную дисперсию параметров регрессии. Из моего опыта с регрессией 21 наблюдений с 5 переменными недостаточно для исключения переменных. Так что я не буду так быстро выбрасывать переменные и не слишком увлекаться теми, которые кажутся значительными. Лучший ответ - подождать, пока у вас будет намного больше данных. Иногда это легко сказать, но трудно сделать. Я бы посмотрел на ступенчатую регрессию, прямую и обратную регрессию, чтобы посмотреть, какие переменные выбраны. Если ковариаты сильно коррелированы, это может показать очень разные наборы переменных, которые будут выбраны. Начните процедуру выбора модели, поскольку она покажет чувствительность выбора переменных к изменениям данных. Вы должны рассчитать матрицу корреляции для ковариат. Может быть, Фрэнк Харрелл вмешается в это. Он настоящий эксперт по выбору переменных. Я думаю, что он по крайней мере согласится со мной, что вы не должны выбирать окончательную модель, основанную исключительно на этих 21 точках данных.
источник