Некоторые из вас, возможно, читали эту прекрасную статью:
O'Hara RB, Kotze DJ (2010) Не регистрируйте данные преобразований. Методы в экологии и эволюции 1: 118–122. Клик .
В моей области исследований (экотоксикология) мы имеем дело с плохо реплицированными экспериментами, и GLM не используются широко. Поэтому я выполнил моделирование, аналогичное O'Hara & Kotze (2010), но имитировал экотоксикологические данные.
Силовые симуляции :
Я моделировал данные из факторного плана с одной контрольной группой ( ) и 5 группами лечения ( ). Содержание в обработке 1 было идентично контролю ( ), содержание в обработках 2-5 составляло половину количества в контроле ( ). Для моделирования я варьировал размер выборки (3,6,9,12) и численность в контрольной группе (2, 4, 8, ..., 1024). Содержание было получено из отрицательных биномиальных распределений с фиксированным параметром дисперсии ( ). 100 наборов данных были сгенерированы и проанализированы с использованием отрицательного биномиального GLM и гауссовых GLM + лог-преобразованных данных.μ 1 - 5μ 2 - 5 = 0,5 μ c θ = 3,91
Результаты такие же, как и ожидалось: GLM обладает большей силой, особенно когда было отобрано не так много животных. Код здесь.
Ошибка типа I :
Затем я посмотрел на ошибку типа один. Моделирование выполнялось, как указано выше, однако все группы имели одинаковое изобилие ( ).
Однако результаты не такие, как ожидалось: отрицательный биномиальный GLM показал большую ошибку I типа по сравнению с преобразованием LM +. Как и ожидалось, разница исчезла с увеличением размера выборки. Код здесь.
Вопрос:
Почему повышенная ошибка типа I по сравнению с преобразованием lm +?
Если у нас плохие данные (небольшой размер выборки, низкая численность (много нулей)), следует ли нам тогда использовать преобразование lm +? Небольшие размеры выборки (2-4 на обработку) типичны для таких экспериментов и не могут быть легко увеличены.
Хотя, нег. бен. GLM может быть оправдан как подходящий для этих данных, преобразование lm + может предотвратить нас от ошибок типа 1.
Ответы:
Это чрезвычайно интересная проблема. Я просмотрел ваш код и не могу найти сразу очевидной опечатки.
Мне бы хотелось, чтобы вы повторили это моделирование, но воспользовались тестом максимального правдоподобия, чтобы сделать вывод о неоднородности между группами. Это может включать в себя перестройку нулевой модели, чтобы вы могли получить оценки при нулевой гипотезе однородности скоростей между группами. Я думаю, что это необходимо, потому что отрицательная биномиальная модель не является линейной моделью (скорость параметризована линейно, но s нет). Поэтому я не уверен, что аргумент обеспечивает правильный вывод.θθ θ
drop1
Большинство тестов для линейных моделей не требуют пересчета модели в соответствии с нулевой гипотезой. Это связано с тем, что вы можете рассчитать геометрический наклон (критерий оценки) и приблизить ширину (критерий Вальда), используя оценки параметров и оценочную ковариацию в рамках только альтернативной гипотезы.
Поскольку отрицательный биномиал не является линейным, я думаю, что вам нужно будет соответствовать нулевой модели.
РЕДАКТИРОВАТЬ:
Я отредактировал код и получил следующее:
Отредактированный код здесь: https://github.com/aomidpanah/simulations/blob/master/negativeBinomialML.r
источник
drop1()
это внутренне переоснащает нулевую модель ...glm.nb
drop1
logLik
getS3method('logLik', 'negbin'
drop1()
иlrtest()
. Ты прав,drop1.glm
использует,glm.fit
что дает неправильное отклонение. Не знал, что мы не можем использоватьdrop1()
сglm.nb()
!Статья О'Хары и Коцзе («Методы в экологии и эволюции» 1: 118–122) не является хорошей отправной точкой для обсуждения. Мое самое серьезное беспокойство вызывает утверждение в пункте 4 резюме:
Следующий код R иллюстрирует эту точку:
Или попробуй
Масштаб, по которому оцениваются параметры, имеет большое значение!
Обратите внимание, что стандартная диагностика работает лучше в масштабе журнала (x + c). Выбор c может не иметь большого значения; часто имеет смысл 0,5 или 1,0. Также это лучшая отправная точка для исследования преобразований Бокса-Кокса или варианта Бокса-Кокса Йео-Джонсона. [Йео, И. и Джонсон, Р. (2000)]. Смотрите далее страницу помощи для powerTransform () в автомобильном пакете R. Пакет gamlss от R позволяет установить отрицательные биномиальные типы I (общее многообразие) или II, или другие распределения, которые моделируют дисперсию, а также среднее, со степенными ссылками преобразования 0 (= log, т. Е. Log log) или более , Приступы могут не всегда сходиться.
Пример: данные о смертности и базовом повреждении относятся к названным атлантическим ураганам, которые достигли материковой части США. Данные доступны (имя hurricNamed ) из недавнего выпуска пакета DAAG для R. Страница справки с данными содержит подробную информацию.
На графике сравнивается подобранная линия, полученная с использованием надежного линейного подбора модели, с кривой, полученной путем преобразования отрицательного биномиального соответствия с логарифмической связью в логарифмическую шкалу (количество + 1), используемую для оси у на графике. (Обратите внимание, что нужно использовать что-то похожее на логарифмическую шкалу (count + c) с положительным c, чтобы показать точки и подобранную «линию» от отрицательного биномиального соответствия на том же графике.) Обратите внимание на большое смещение, которое очевидно, для отрицательного биномиального соответствия на шкале логарифмических. Надежная линейная модель гораздо меньше смещена в этом масштабе, если предположить отрицательное биномиальное распределение для отсчетов. Подход линейной модели был бы беспристрастным в предположениях классической нормальной теории. Я обнаружил, что уклон был удивительным, когда я впервые создал то, что по сути было вышеупомянутым графиком! Кривая будет соответствовать данным лучше, но разница находится в пределах обычных стандартов статистической изменчивости. Надежная линейная модель подходит плохо для подсчета в нижней части шкалы.
Примечание --- Исследования с данными RNA-Seq: Сравнение двух стилей модели представляет интерес для анализа данных подсчета из экспериментов по экспрессии генов. В следующей статье сравнивается использование надежной линейной модели, работающей с log (количество + 1), с использованием отрицательных биномиальных подгонок (как в пакете BiRonductor edgeR ). Большинство подсчетов в приложении RNA-Seq, которое в первую очередь имеет в виду, достаточно велики, чтобы подходящие взвешенные логарифмические модели подходили для работы чрезвычайно хорошо.
NB также недавняя статья:
Интересно , что линейные модели припадки с использованием limma пакета (например , кромкообрезной , из группы WEHI) встать очень хорошо (в смысле показывает мало признаков смещения), относительно результатов со многими повторами, а число повторов является снижается.
R код для приведенного выше графика:
источник
Оригинальный пост отражает работу Тони Айвза: Ives (2015) . Понятно, что значимое тестирование дает разные результаты для оценки параметров.
Джон Майндональд объясняет, почему оценки являются предвзятыми, но его незнание фона раздражает - он критикует нас за то, что мы показали, что метод, который, как мы все согласны, ошибочен, ошибочен. Многие экологи вслепую регистрируют преобразования, и мы пытались указать на проблемы с этим.
Здесь есть более тонкая дискуссия: Warton (2016)
Айвз, AR (2015), Для проверки значимости коэффициентов регрессии, идти вперед и лог-преобразование данных подсчета. Методы Ecol Evol, 6: 828–835. DOI: 10.1111 / 2041-210X.12386
Warton, DI, Lyons, M., Stoklosa, J. and Ives, AR (2016). Три момента, которые следует учитывать при выборе теста LM или GLM для данных подсчета. Методы Ecol Evol. DOI: 10.1111 / 2041-210X.12552
источник