В статье, которую я недавно читал, я обнаружил в своем разделе анализа данных следующее:
Затем таблица данных была разбита на ткани и клеточные линии, и две подтаблицы были отдельно отшлифованы по медиане (строки и столбцы были итеративно скорректированы, чтобы иметь медиану 0), прежде чем они были объединены в одну таблицу. Затем мы наконец выбрали для подмножества генов, экспрессия которых по крайней мере в 4 раза отличалась от медианы в этом наборе образцов, по крайней мере, в трех из протестированных образцов
Я должен сказать, что я действительно не следую рассуждениям здесь. Мне было интересно, не могли бы вы помочь мне ответить на следующие два вопроса:
Почему желательно / полезно корректировать медиану в наборах данных? Почему это должно быть сделано отдельно для разных типов образцов?
Как это не изменяет экспериментальные данные? Это известный способ выбора количества генов / переменных из большого набора данных, или это скорее случайный способ?
Спасибо,
источник
Ответы:
Tukey Median Polish, алгоритм используется в RMA нормализации микрочипов. Как вы, возможно, знаете, данные на микрочипах довольно шумные, поэтому им необходим более надежный способ оценки интенсивности зондов с учетом наблюдений для всех зондов и микрочипов. Это типичная модель, используемая для нормализации интенсивности зондов в массивах.
i = 1 , … , I
Где - интенсивность PM для зонда в массиве . - фоновый шум, и можно предположить, что он соответствует шуму в нормальной линейной регрессии. Однако, дистрибутивное предположение для может быть ограничительным, поэтому мы используем Tukey Median Polish, чтобы получить оценки для и . Это надежный способ нормализации по массивам, поскольку мы хотим отделить сигнал, интенсивность, вызванную зондом, от эффекта массива, . Мы можем получить сигнал путем нормализации для эффекта массива l o g i t h j t h ϵ i j ϵ ^ μ i ^ α j α ^ α jYя ж л о г ят ч Jт ч εя ж ε μя^ αJ^ α αJ^ для всех массивов. Таким образом, у нас остались только пробные эффекты плюс некоторый случайный шум.
Ссылка, которую я цитировал ранее, использует срединную полировку Тьюки для оценки дифференциально выраженных генов или «интересных» генов путем ранжирования по эффекту зонда. Однако статья довольно старая, и, вероятно, в то время люди все еще пытались понять, как анализировать данные микрочипов. Документ непараметрических эмпирических методов Байеса Эфрона был опубликован в 2001 году, но, возможно, не получил широкого распространения.
Однако теперь мы много понимаем о микрочипах (статистически) и почти уверены в их статистическом анализе.
Данные на микрочипах довольно шумные, и RMA (который использует Median Polish) является одним из самых популярных методов нормализации, возможно, из-за его простоты. Другие популярные и сложные методы: GCRMA, VSN. Важно нормализовать, поскольку интерес представляет эффект зонда, а не эффект массива.
Как вы ожидаете, анализ мог бы принести пользу некоторым методам, которые используют заимствование информации между генами. Это могут быть байесовские или эмпирические байесовские методы. Может быть, бумага, которую вы читаете, старая, и этих техник не было до тех пор.
Что касается вашего второго замечания, да, они, вероятно, модифицируют экспериментальные данные. Но, я думаю, эта модификация для лучшего дела, следовательно, оправдана. Причина в том,
а) Данные микрочипов довольно шумные. Когда интерес представляет собой пробный эффект, необходима нормализация данных с помощью RMA, GCRMA, VSN и т. Д., И может быть полезно использовать любую специальную структуру в данных. Но я бы не стал делать вторую часть. Это происходит главным образом потому, что если мы не знаем структуру заранее, лучше не навязывать много предположений.
б) Большинство экспериментов с микрочипами носят исследовательский характер, то есть исследователи пытаются сузить выбор нескольких «интересных» генов для дальнейшего анализа или экспериментов. Если эти гены имеют сильный сигнал, такие модификации, как нормализация, не должны (существенно) влиять на конечные результаты.
Следовательно, изменения могут быть оправданы. Но я должен отметить, что чрезмерная нормализация может привести к неправильным результатам.
источник
Вы можете найти некоторые подсказки на страницах 4 и 5 этого
Это метод вычисления невязок для модели путем вычисления значений для , и так что если сведены в таблицу медиана каждой строки и каждого столбца равна 0.
Более традиционный подход сводится к вычислению значений для , и так что среднее значение (или сумма) каждой строки и каждого столбца остатков равно 0.м aя бJ
Преимущество использования медианы заключается в устойчивости к небольшому количеству выбросов; недостатком является то, что вы выбрасываете потенциально полезную информацию, если нет никаких выбросов.
источник
Похоже, вы читаете статью, в которой есть анализ генной дифференциальной экспрессии. Проведя некоторые исследования с использованием микрочипов, я могу поделиться тем небольшим знанием (надеюсь, правильным), которое я имею об использовании срединной полировки.
Использование срединной полировки на этапе суммирования предварительной обработки микроматрицы является в некоторой степени стандартным способом удаления данных выбросов с помощью чипов с исключительно точным совпадением (только для RMA).
Срединная полировка для данных микрочипов - это то, где у вас есть эффект микросхемы и зондирования в виде строк и столбцов:
для каждого набора зондов (состоящего из n номеров одного и того же зонда) на х чипах:
где iv - значения интенсивности
Из-за изменчивости интенсивностей зондов, почти весь анализ данных микрочипов предварительно обрабатывается с использованием некоторой коррекции и нормализации фона перед суммированием.
Вот несколько ссылок на темы списков рассылки bioC, в которых рассказывается об использовании медианного полировки по сравнению с другими методами:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Данные о тканях и клеточных линиях обычно анализируются отдельно, потому что при культивировании клеток их профили экспрессии резко меняются по сравнению с собранными образцами ткани. Без большого количества бумаги трудно сказать, была ли уместна обработка образцов отдельно.
Этапы нормализации, коррекции фона и суммирования в конвейере анализа являются модификациями экспериментальных данных, но в необработанном состоянии эффекты микросхемы, пакетные эффекты, эффекты обработки будут затенять любой сигнал для анализа. Эти эксперименты с микрочипами генерируют списки генов, которые являются кандидатами для последующих экспериментов (КПЦР и т. Д.), Чтобы подтвердить результаты.
Насколько это необходимо, спросите 5 человек, какая разница в размерах необходима для того, чтобы ген считался дифференциально выраженным, и вы получите по крайней мере 3 разных ответа.
источник