Минимальное количество точек для линейной регрессии

16

Каким было бы «разумное» минимальное количество наблюдений для поиска тенденции во времени с линейной регрессией? как насчет подгонки квадратичной модели?

Я работаю со сложными показателями неравенства в отношении здоровья (SII, RII), и у меня есть только 4 волны опроса, поэтому 4 балла (1997,2001,2004,2008).

Я не статистика, но у меня интуитивное впечатление, 4 балла недостаточно. У вас есть ответ и / или рекомендации?

Большое спасибо,

Франсуаза

Франсуаза
источник
4
Обычное эмпирическое правило составляет 10 баллов за каждую независимую переменную.
Питер Флом - Восстановить Монику
1
Как измеряются ваши показатели? Если они включают оценки изменчивости, то двух может быть достаточно (используя t-критерий или его аналог). Основной статистический принцип, который здесь применяется, заключается в том, что когда случайное отклонение является маловероятным объяснением того, что вы наблюдаете, тогда вы имеете право приписывать любую очевидную тенденцию неслучайным причинам. Когда тренд сильный, может потребоваться очень мало значений данных, чтобы прийти к такому выводу, несмотря на все общие «правила большого пальца».
whuber

Ответы:

12

Эмпирическое правило Петерса 10 на ковариату является разумным правилом. Прямая линия может идеально сочетаться с любыми двумя точками независимо от количества шума в значениях отклика, а квадратичная может быть идеально согласована всего с 3 точками. Ясно, что почти при любых обстоятельствах было бы правильно сказать, что 4 балла недостаточно. Однако, как и большинство эмпирических правил, он не охватывает все ситуации. В случаях, когда коэффициент шума в модели имеет большую дисперсию, потребуется больше выборок, чем в аналогичном случае, когда дисперсия ошибки мала.

Требуемое количество точек отбора зависит от объектов. Если вы проводите исследовательский анализ только для того, чтобы увидеть, выглядит ли одна модель (скажем, линейная в ковариате) лучше, чем другая (скажем, квадратичная функция ковариаты), вам может быть достаточно менее 10 баллов. Но если вам нужны очень точные оценки коэффициентов корреляции и регрессии для ковариат, вам может потребоваться более 10 на ковариату. Критерий точности прогнозирования может потребовать даже больше выборок, чем точных оценок параметров. Обратите внимание, что дисперсия оценок и прогноза включает в себя дисперсию ошибки модели.

Майкл Р. Черник
источник
Хорошие моменты, Майкл; Я пытался сделать это простым. :-). Учитывая исходную тему вопроса, я был бы очень удивлен, если бы было менее 10 баллов. Показатели неравенства в отношении здоровья, вероятно, содержат много ошибок, а взаимосвязь со временем вряд ли будет в высокой степени линейной. Знаете ли вы какие-либо статьи на эту тему? Это интересная тема, которая часто поднимается.
Питер Флом - Восстановить Монику
@PeterFlom Я не знаю. Я бы посмотрел книгу ван Белле о статистических правилах, чтобы узнать, использует ли он правило, подобное тому, которое вы упомянули. Хорошая вещь о его книге - то, что он объясняет обоснование каждого правила. Я согласен с вами в том, что правило, гласящее, что берут по крайней мере 10 на ковариату, довольно хорошо, а использование меньшего количества будет редко безопасным, за исключением некоторых случаев исследования. В медицинских науках, где я работаю, шумовой термин, кажется, всегда большой, но, возможно, некоторые строго контролируемые физические или инженерные эксперименты могут иметь очень точные измерения и, следовательно, небольшую случайную ошибку.
Майкл Р. Черник
Я просто пытался указать на возможность небольшого шума, приводящего к необходимости меньше, чем 10 очков, даже если эта возможность может быть отдаленной.
Майкл Р. Черник
р2
+1, хорошая информация, но также стоит упомянуть, что если ваш оценщик объективен, вы можете иметь насыщенную модель и при этом иметь оценку параметров, если это все, что вам нужно. Вы не сможете оценить изменчивость или сделать вывод. Тем не менее, в некоторых случаях, когда есть много эффектов для оценки, а данные достаточно трудно получить, иногда используются насыщенные модели. Например, в этом случае вы можете получить оценку функции w / квадратичного w / 3 балла. Я не обязательно имею в виду, что это хорошо, но это реальная нижняя граница и причина почему.
gung - Восстановить Монику