Регрессия с очень маленьким размером выборки

9

Я хочу провести регрессию с 4-5 пояснительными переменными, но у меня есть только 15 наблюдений. Не имея возможности предположить, что эти переменные нормально распределены, существует ли непараметрический или какой-либо другой действительный метод регрессии?

боб
источник
5
Там нет никаких предположений, что какие-либо объясняющие переменные являются нормальными. Также нет предположения о предельном распределении ответа. Если вы проводите КИ или проверку гипотез, обычный вывод предполагает условную нормальность ответа. Более важными являются предположения о линейности и постоянной дисперсии. Из чего состоит ваш ответ (/ почему он не будет нормальным)?
Glen_b
3
Нет, вам не хватает данных Это предварительный анализ. Вы можете хорошо видеть наводящие на размышления отношения. Но вы должны избегать p-значений, доверительных интервалов и проверки гипотез.
Чарльз

Ответы:

10

@Glen_b прав насчет характера предположения о нормальности в регрессии 1 .

Я думаю, что вашей большей проблемой будет то, что у вас недостаточно данных для поддержки 4-5 объясняющих переменных. Стандартное правило 2 заключается в том, что на каждую объясняющую переменную должно быть не менее 10 данных, то есть 40 или 50 данных в вашем случае (и это для идеальных ситуаций, когда нет никаких сомнений относительно предположений). Потому что ваша модель не будет полностью насыщена 3(у вас есть больше данных, чем параметров для подгонки), вы можете получить оценки параметров (уклон и т. д.), и в идеальных условиях оценки асимптотически несмещены. Однако вполне вероятно, что ваши оценки будут далеки от истинных значений, а ваши SE / CI будут очень большими, поэтому у вас не будет статистической силы. Обратите внимание, что использование непараметрического или другого альтернативного регрессионного анализа не избавит вас от этой проблемы.

Здесь вам нужно либо выбрать одну объясняющую переменную (прежде чем просматривать ваши данные!) На основе предыдущих теорий в вашей области или ваших догадок, либо вы должны объединить свои объясняющие переменные. Разумная стратегия для последнего варианта - запустить анализ основных компонентов (PCA) и использовать первый основной компонент в качестве пояснительной переменной.

Ссылки:
1. Что делать, если остатки нормально распределены, а Y нет?
2. Практические правила для минимального размера выборки для множественной регрессии.
3. Максимальное количество независимых переменных, которые можно ввести в уравнение множественной регрессии.

Gung - Восстановить Монику
источник