Власть в протеомике?

9

Гранты часто требуют анализа мощности для поддержки предложенного размера выборки. В протеомике (и большей части -омики) есть 100–1000 функций / переменных, измеренных на 10 образцах (возможно, 100 с, но маловероятно). Кроме того, известно, что некоторые из этих единиц измерения (например, спектральные числа белков) обычно не распределены, и поэтому мы будем использовать непараметрический тест для анализа. Я видел силу размера выборки, определенную исходя из одного измерения и t-теста, но я не думаю, что это полностью правильно. Еще одна проблема, касающаяся спектральных подсчетов, заключается в том, что каждая из сотен функций имеет очень разные масштабы с очень разными ошибками (большие значения имеют меньшую ошибку). [Эта проблема хорошо описана в модели изменения предельного сгиба, Mutch et al., 2002 ]

Как можно было бы определить мощность предлагаемого размера выборки с учетом некоторых допущений FDR и приемлемого кратного изменения? Используя этот инструмент, я смог определить следующее:

  • 300 генов
  • 3 ложных срабатывания
  • 1,4-кратные различия
  • 0,8 желаемой мощности
  • 0,7 стандарт

требуется размер выборки на группу 49.

Это было удобно, так как я предлагаю дизайн 50 на 50, знаю, что изменение в 1,4 раза вполне приемлемо, 1% FDR - это хорошо, и я, вероятно, измерим 300 белков в этом эксперименте. Эта проблема расчета мощности или размера выборки будет по-прежнему возникать, поэтому было бы неплохо иметь ссылочный подход на месте.

РЕДАКТИРОВАТЬ: Я читал, где коллега предложил смоделировать спектральные числа от отрицательных биноминальных распределений, используя функцию правдоподобия, а затем критерий Вальда. В основном используются предварительные данные, чтобы получить оценки дисперсии белка, а затем рассчитать обнаруживаемые кратные изменения между группами для каждого квантиля. Также есть вход FDR (альфа). Таким образом, учитывая мощность> 80% и установленный размер выборки, они могут определить обнаруживаемые изменения сгиба для 25% самой низкой дисперсии, 50% меньшей дисперсии и 25% самой высокой дисперсии. Проблема в том, что я не знаю, как они это сделали. Не уверен, что если такой подход поможет кому-нибудь с возможным ответом.

Бен
источник
Некоторые другие ресурсы, которые я нашел на эту тему: Левин 2011 Дикер и др., 2010
Бен
1
Этот калькулятор MD Anderson мне кажется слишком оптимистичным. Сколько сравнений сделано? (Я слишком увлечен микрочипами: 300 генов в дизайне 50 на 50 означает, что вы делаете сколько сравнений ??) Когда вы устанавливаете для калькулятора FDR 3 ложных срабатывания, вы говорите, что устанавливаете ложноположительную ошибку, чтобы только 3 ожидается ложных срабатываний при нулевом? Это слишком строго для более чем 60 сравнений.
AdamO
1
Я могу показать вам, как это будет сделано в R, но мне просто нужно немного знаний по биологии.
AdamO

Ответы:

1

В приложениях (особенно в этических приложениях, где вам необходимо провести исследование мощности), мне нравится использовать эту ссылку [Wang and Chen 2004], потому что она хорошо объясняет концепцию расчета мощности для данных с высокой пропускной способностью (какими бы они ни были на самом деле) ,

По сути, в дополнение к обычным параметрам (α, β, N, величина эффекта) вы используете два дополнительных параметра, λ и η. Последний, η, является предполагаемым номером действительно измененных генов, а λ - это доля действительно измененных генов, которые вы хотите обнаружить. Используя этот подход, довольно просто расширить любые известные расчеты мощности до высокопроизводительных данных.

Ван, Сью-Джейн и Джеймс Дж. Чен. «Размер выборки для идентификации дифференциально экспрессируемых генов в экспериментах с микрочипами». Журнал вычислительной биологии 11.4 (2004): 714-726.

январь
источник