Гранты часто требуют анализа мощности для поддержки предложенного размера выборки. В протеомике (и большей части -омики) есть 100–1000 функций / переменных, измеренных на 10 образцах (возможно, 100 с, но маловероятно). Кроме того, известно, что некоторые из этих единиц измерения (например, спектральные числа белков) обычно не распределены, и поэтому мы будем использовать непараметрический тест для анализа. Я видел силу размера выборки, определенную исходя из одного измерения и t-теста, но я не думаю, что это полностью правильно. Еще одна проблема, касающаяся спектральных подсчетов, заключается в том, что каждая из сотен функций имеет очень разные масштабы с очень разными ошибками (большие значения имеют меньшую ошибку). [Эта проблема хорошо описана в модели изменения предельного сгиба, Mutch et al., 2002 ]
Как можно было бы определить мощность предлагаемого размера выборки с учетом некоторых допущений FDR и приемлемого кратного изменения? Используя этот инструмент, я смог определить следующее:
- 300 генов
- 3 ложных срабатывания
- 1,4-кратные различия
- 0,8 желаемой мощности
- 0,7 стандарт
требуется размер выборки на группу 49.
Это было удобно, так как я предлагаю дизайн 50 на 50, знаю, что изменение в 1,4 раза вполне приемлемо, 1% FDR - это хорошо, и я, вероятно, измерим 300 белков в этом эксперименте. Эта проблема расчета мощности или размера выборки будет по-прежнему возникать, поэтому было бы неплохо иметь ссылочный подход на месте.
РЕДАКТИРОВАТЬ: Я читал, где коллега предложил смоделировать спектральные числа от отрицательных биноминальных распределений, используя функцию правдоподобия, а затем критерий Вальда. В основном используются предварительные данные, чтобы получить оценки дисперсии белка, а затем рассчитать обнаруживаемые кратные изменения между группами для каждого квантиля. Также есть вход FDR (альфа). Таким образом, учитывая мощность> 80% и установленный размер выборки, они могут определить обнаруживаемые изменения сгиба для 25% самой низкой дисперсии, 50% меньшей дисперсии и 25% самой высокой дисперсии. Проблема в том, что я не знаю, как они это сделали. Не уверен, что если такой подход поможет кому-нибудь с возможным ответом.
Ответы:
В приложениях (особенно в этических приложениях, где вам необходимо провести исследование мощности), мне нравится использовать эту ссылку [Wang and Chen 2004], потому что она хорошо объясняет концепцию расчета мощности для данных с высокой пропускной способностью (какими бы они ни были на самом деле) ,
По сути, в дополнение к обычным параметрам (α, β, N, величина эффекта) вы используете два дополнительных параметра, λ и η. Последний, η, является предполагаемым номером действительно измененных генов, а λ - это доля действительно измененных генов, которые вы хотите обнаружить. Используя этот подход, довольно просто расширить любые известные расчеты мощности до высокопроизводительных данных.
Ван, Сью-Джейн и Джеймс Дж. Чен. «Размер выборки для идентификации дифференциально экспрессируемых генов в экспериментах с микрочипами». Журнал вычислительной биологии 11.4 (2004): 714-726.
источник