Как рассчитать размер выборки, необходимый для исследования, в котором когорта субъектов будет иметь одну непрерывную переменную, измеренную во время операции, а затем через два года они будут классифицированы как функциональный результат или результат с нарушением.
Мы хотели бы посмотреть, могло ли это измерение предсказать плохой результат. В какой-то момент мы можем захотеть получить точку отсечения в непрерывной переменной, выше которой мы попытаемся вмешаться, чтобы уменьшить вероятность ухудшения исхода.
Любые идеи? Любая реализация R.
logistic
sample-size
Фаррел
источник
источник
Ответы:
Расчет размера выборки для логистической регрессии является сложным. Я не буду пытаться обобщить это здесь. Разумно доступные решения этой проблемы находятся в:
Hsieh FY. Таблицы размеров выборки для логистической регрессии. Статистика в медицине. 1989 июл; 8 (7): 795-802.
Hsieh FY, et al. Простой метод расчета размера выборки для линейной и логистической регрессии. Статистика в медицине. 1998 Jul 30; 17 (14): 1623-34.
Доступное обсуждение проблем с примерами расчетов можно найти в последней главе (раздел 8.5 с. 339-347) « Прикладной логистической регрессии» Hosmer & Lemeshow .
источник
Обычно мне легче и быстрее запускать симуляции. Бумаги долго читаются, понимают и, наконец, приходят к выводу, что они не применяются в особом случае, в котором они заинтересованы.
Поэтому я бы просто выбрал несколько предметов, смоделировал интересующий вас ковариат (распределенный так, как вы считаете, что он будет), имитировал хорошие / плохие результаты, основываясь на функциональной форме, которую вы поставили (пороговые эффекты ковариации? Нелинейность?) с минимальным (клинически) значительным размером эффекта, который вы хотели бы обнаружить, пропустите результат через свой анализ и посмотрите, найден ли эффект на вашей альфе. Повторите это 10000 раз и посмотрите, нашли ли вы эффект в 80% симуляций (или любую другую необходимую вам мощность). Отрегулируйте количество предметов, повторяйте до тех пор, пока не получите силу, которой вы довольны.
Это имеет то преимущество, что является очень общим, поэтому вы не ограничены конкретной функциональной формой или конкретным числом или распределением ковариат. Вы можете включить отсев, см. Комментарий chl выше, либо наугад, либо под влиянием ковариации или результата. По сути, вы заранее программируете анализ, который вы собираетесь выполнить для окончательной выборки, что иногда помогает мне сосредоточиться на дизайне исследования. И это легко сделать в R (векторизация!).
источник
После публикации Стефана Коласса (я не могу добавить это в качестве комментария), у меня есть альтернативный код для симуляции. Здесь используется та же базовая структура, но она разбита немного больше, так что, возможно, ее немного легче читать. Он также основан на коде Кляйнмана и Хортона для моделирования логистической регрессии.
nn - число в образце. Ковариата должна быть непрерывно нормально распределена и стандартизирована, чтобы означать 0 и sd 1. Мы используем rnorm (nn), чтобы сгенерировать это. Мы выбираем соотношение шансов и сохраняем его в odds.ratio. Мы также выбираем номер для перехвата. Выбор этого числа определяет, какая доля образца испытывает «событие» (например, 0,1, 0,4, 0,5). Вы должны играть с этим числом, пока не получите правильную пропорцию. Следующий код дает пропорцию 0,1 с размером выборки 950 и ИЛИ 1,5:
Резюме (пропорция) подтверждает, что пропорция составляет ~ 0,1
Затем, используя те же переменные, мощность рассчитывается за 10000 прогонов:
Я думаю, что этот код верен - я проверил его по примерам, приведенным в Hsieh, 1998 (таблица 2), и, похоже, он согласен с тремя приведенными там примерами. Я также проверил это на примере 342 - 343 Хосмера и Лемешоу, где он нашел мощность 0,75 (по сравнению с 0,8 в Хосмере и Лемешоу). Так что может случиться так, что в некоторых обстоятельствах этот подход недооценивает власть. Однако, когда я запустил тот же пример в этом онлайн-калькуляторе , я обнаружил, что он согласен со мной, а не с результатами в Hosmer и Lemeshow.
Если кто-нибудь может сказать нам, почему это так, мне было бы интересно узнать.
источник
простой вопрос о размере выборки: каков размер выборки, чтобы получить 95% доверительный интервал не более 2d для [неизвестного] среднего значения распределения данных. Другой вариант: насколько большой образец должен иметь мощность 0,9 при при тестировании H . Похоже, вы не указали критерий выбора размера выборки.0 : θ = 0θ=1 0:θ=0
на самом деле, звучит так, что ваше исследование будет проводиться последовательно. в этом случае он может заплатить, чтобы сделать это явной частью эксперимента. последовательная выборка часто может быть более эффективной, чем эксперимент с фиксированным размером выборки [в среднем требуется меньше наблюдений].
Фаррел: я добавляю это в ответ на ваш комментарий.
чтобы получить размер выборки, обычно указывается какой-то критерий точности для оценки [такой как длина CI] ИЛИ мощности при определенной альтернативе теста, который должен быть выполнен на данных. Вы, кажется, упомянули оба этих критерия. в принципе, в этом нет ничего плохого: вам просто нужно сделать два вычисления размера выборки - одну для достижения желаемой точности оценки, а другую - для получения желаемой мощности при указанной альтернативе. тогда требуется больший из двух размеров выборки. [кстати - кроме того, что вы говорите о 80% мощности - вы, кажется, не упомянули, какой тест вы планируете провести - или альтернативу, при которой вы хотите 80% мощности.]
что касается использования последовательного анализа: если предметы включаются в исследование одновременно, то имеет смысл фиксированный размер выборки. но если предметов мало и далеко друг от друга, может потребоваться год или два [или больше], чтобы получить необходимое количество зачисленных. таким образом, испытание может продолжаться в течение трех или четырех лет [или более]. в этом случае последовательная схема дает возможность остановить раньше, чем это - если ожидаемый эффект становится статистически значимым в начале испытания.
источник