Я хочу сделать логистическую модель из моих данных опроса. Это небольшой опрос четырех жилых колоний, в котором было опрошено только 154 респондента. Моя зависимая переменная - «удовлетворительный переход к работе». Я обнаружил, что из 154 респондентов 73 сказали, что они успешно перешли на работу, а остальные нет. Таким образом, зависимая переменная имеет двоичную природу, и я решил использовать логистическую регрессию. У меня есть семь независимых переменных (три непрерывных и четыре номинальных). Согласно одному руководству, должно быть 10 случаев для каждого предиктора / независимой переменной (Agresti, 2007). Исходя из этого руководства, я чувствую, что можно проводить логистическую регрессию.
Я прав? Если нет, пожалуйста, дайте мне знать, как определить количество независимых переменных?
1
с) и 90 не случаями (0
с), то правило гласит: «включай только одного предиктора». Но что, если я смоделирую0
«вместо1
», а затем возьму обратную оценку предполагаемых отношений шансов? Могу ли я включить 9 предикторов? Это не имеет смысла для меня.Ответы:
Здесь есть несколько вопросов.
Как правило, мы хотим определить минимальный размер выборки, чтобы достичь минимально приемлемого уровня статистической мощности . Требуемый размер выборки зависит от нескольких факторов, в первую очередь от величины эффекта, который вы хотите иметь возможность отличить от 0 (или от того, какой ноль вы используете, но чаще всего от 0), и минимальной вероятности уловления этого эффекта. хочу иметь. Работая с этой точки зрения, размер выборки определяется анализом мощности.
Еще одним соображением является стабильность вашей модели (как отмечает @cbeleites). По сути, когда отношение параметров, оцениваемых к количеству данных, становится близким к 1, ваша модель станет насыщенной и обязательно будет перегружена (если на самом деле в системе нет случайности). Эмпирическое правило отношения от 1 до 10 исходит из этой перспективы Обратите внимание, что наличие достаточной силы обычно покрывает эту проблему для вас, но не наоборот.
Однако правило от 1 до 10 исходит из мира линейной регрессии, и важно признать, что у логистической регрессии есть дополнительные сложности. Одна из проблем заключается в том, что логистическая регрессия работает лучше всего, когда процентное соотношение 1 и 0 составляет приблизительно 50% / 50% (как обсуждают @andrea и @psj в комментариях выше). Другая проблема, которая должна быть связана с разделением . То есть вы не хотите, чтобы все ваши 1 были собраны на одном экстремуме независимой переменной (или некоторой их комбинации), а все 0 - на другом экстремуме. Хотя это может показаться хорошей ситуацией, потому что это упростит совершенное предсказание, на самом деле процесс оценки параметров будет взорван. (@Scortchi имеет отличное обсуждение того, как бороться с разделением в логистической регрессии здесь:Как бороться с идеальным разделением в логистической регрессии? ) При большем количестве IV это становится более вероятным, даже если истинные величины эффектов остаются постоянными, особенно если ваши ответы не сбалансированы. Таким образом, вам легко может понадобиться более 10 данных на IV.
Последняя проблема с этим эмпирическим правилом заключается в том, что предполагается, что ваши IV ортогональны . Это разумно для запланированных экспериментов, но при таких наблюдательных исследованиях, как ваше, ваши IV почти никогда не будут примерно ортогональными. Существуют стратегии для решения этой ситуации (например, объединение или отбрасывание ИВ, сначала анализ основных компонентов и т. Д.), Но если он не решен (что является распространенным явлением), вам потребуется больше данных.
Резонный вопрос: какой должен быть ваш минимальный N и / или достаточен ли размер вашей выборки? Чтобы решить эту проблему, я предлагаю вам использовать методы, которые обсуждает @cbeleites; полагаться на правило от 1 до 10 будет недостаточно.
источник
Обычно я использую правило 15: 1 (отношение мин (события, не события) к числу параметров- кандидатов в модели). Более поздняя работа показала, что для более строгой проверки требуется 20: 1. Дополнительную информацию можно найти в моих раздаточных материалах по курсу, которые можно найти по адресу http://biostat.mc.vanderbilt.edu/rms , в частности, в качестве аргумента для минимального размера выборки 96, чтобы оценить перехват. Но требование к размеру выборки более нюансировано, и в более поздней статье это рассматривается более подробно.
источник
Как правило, слишком мало случаев. сложность модели (количество параметров) означает, что модели нестабильны . Поэтому, если вы хотите узнать, в порядке ли размер выборки / сложность модели, проверьте, получаете ли вы достаточно стабильную модель.
Существует (как минимум) два разных вида нестабильности:
Параметры модели сильно различаются, с незначительными изменениями в данных тренировки.
Эти предсказания (для того же случай) модели обученных с незначительными изменениями в обучающих данных рознятся.
Вы можете измерить 1., посмотрев, насколько изменяются ваши модельные коэффициенты, если данные обучения слегка возмущены. Подходящая группа моделей может быть рассчитана, например, во время начальной загрузки или (повторной) процедуры перекрестной проверки.
Для некоторых типов моделей или проблем, различные параметры не подразумевают различные прогнозы. 2. Вы можете напрямую проверить нестабильность 2., посмотрев на вариации прогнозов для одного и того же случая (независимо от того, верны они или нет), рассчитанные во время внешней загрузки или повторной перекрестной проверки.
источник
Не существует строгих правил, но вы можете включить все независимые переменные, если номинальные переменные не имеют слишком много категорий. Вам нужна одна «бета» для всех, кроме одного класса для каждой номинальной переменной. Так что, если номинальной переменной было сказано «область работы» и у вас есть 30 областей, то вам нужно 29 бета-версий.
Один из способов преодоления этой проблемы состоит в том, чтобы упорядочить беты или штрафовать за большие коэффициенты. Это помогает гарантировать, что ваша модель не соответствует данным. Регуляризация L2 и L1 - популярный выбор.
Другая проблема, которую стоит рассмотреть, - насколько репрезентативен ваш образец. Какое население вы хотите сделать вывод? у вас есть все разные типы людей в выборке, которые есть в популяции? будет трудно сделать точный вывод, если в вашем образце есть «дыры» (например, в выборке нет женщин в возрасте 35-50 лет или нет работников с высоким доходом и т. д.)
источник
Вот актуальный ответ с сайта MedCalc, о котором писал user41466
http://www.medcalc.org/manual/logistic_regression.php
Размер выборки
Расчет размера выборки для логистической регрессии является сложной проблемой, но основывается на работе Peduzzi et al. (1996) может быть предложено следующее руководство для минимального количества случаев для включения в ваше исследование. Пусть p будет наименьшей из пропорций отрицательных или положительных случаев в популяции, а k - число ковариат (число независимых переменных), тогда минимальное количество включаемых случаев: N = 10 k / p. Например: вы включить в модель 3 ковариаты, а доля положительных случаев среди населения составляет 0,20 (20%). Минимальное количество требуемых случаев составляет N = 10 x 3 / 0,20 = 150. Если полученное число меньше 100, вы должны увеличить его до 100, как предлагает Лонг (1997).
Педуцци П., Конкато Дж., Кемпер Э., Холфорд Т.Р., Файнштейн А.Р. (1996). Имитационное исследование числа событий на переменную в логистическом регрессионном анализе. Журнал клинической эпидемиологии 49: 1373-1379.
источник
Результаты любой логистической модели с числом наблюдений на независимую переменную в диапазоне от пяти до девяти надежны, особенно если результаты статистически значимы (Vittinghoff & McCulloch, 2007).
Vittinghoff, E. & McCulloch, CE 2007. Ослабление правила десяти событий для каждой переменной в логистике и регрессии Кокса. Американский журнал эпидемиологии, 165 (6): 710–718.
источник