Когда мы проводим эксперименты (на небольших размерах выборки (обычно размер выборки на группу лечения составляет около 7-8)) в двух группах, мы используем t-критерий для проверки на разницу. Однако, когда мы выполняем ANOVA (очевидно, для более чем двух групп), мы используем что-то вроде Bonferroni (LSD / # парных сравнений) или Tukey как post hoc, и как студент, я был предупрежден от используя наименьшую значительную разницу Фишера (ЛСД).
Теперь дело в том, что ЛСД похож на парный t-критерий (я прав?), И поэтому единственное, что он не учитывает, это то, что мы проводим множественные сравнения. Насколько важно, когда речь идет, скажем, о 6 группах, если значение ANOVA само по себе значимо?
Или, другими словами, есть ли какая-либо научная / статистическая причина для использования ЛСД Фишера?
источник
Ответы:
ЛСД Фишера действительно представляет собой серию парных t-тестов, в каждом из которых в качестве оценки суммарной дисперсии используется среднеквадратичная ошибка значимой ANOVA (и, естественно, учитываются соответствующие степени свободы). Значимость ANOVA является дополнительным ограничением этого теста.
Он ограничивает частоту ошибок по семейным отношениям до альфы только в особом случае 3 групп. У Хауэлла есть очень хорошее и относительно простое объяснение того, как это происходит в главе 16 его книги « Фундаментальная статистика для поведенческих наук», 8-е издание, Дэвид С. Хауэлл .
Выше 3 групп альфа быстро надувается (как заметил @Alexis выше). Это не совсем подходит для 6 групп. Я полагаю, что именно эта ограниченная применимость заставляет большинство людей предлагать игнорировать ее как вариант.
источник
Насколько важны множественные сравнения при работе с 6 группами? Ну ... с шестью группами вы имеете дело максимум с возможныхпараллельныхпопарных сравнений. Я позволю неоценимому Рэндаллу Манро рассмотреть важность множественных сравнений:6 ( 6 - 1 )2= 15
И я добавлю, что если, как и в первом предложении, вы предлагаете, чтобы иногда у вас было семь групп, то максимальное количество попарных тестов ad hoc составляет7 ( 7 - 1 )2= 21
источник
Тест Фишера так же плох, как все говорят, что это с точки зрения Неймана-Пирсона, и если вы делаете то, что подразумевает ваш вопрос - после значительного теста ANOVA для каждой индивидуальной разницы. Вы можете увидеть это во многих опубликованных статьях . Но тестирование всех различий после ANOVA или любого из них не является ни необходимым, ни рекомендуемым. И тест Фишера не был создан в соответствии с теорией статистического вывода Неймана-Пирсона.
Важно помнить, что, когда Фишер предложил ЛСД, он на самом деле не считал многократное тестирование важной проблемой, потому что не считал, что отсечение значимости является жестким и быстрым правилом для определения важности результатов или нет. Можно было бы построить ЛСД как простой способ просмотреть данные там, где могут быть существенные результаты, но не в качестве арбитра того, что имело смысл. Помните, что это был Фишер, который сказал, что вы должны просто запустить больше предметов, если р > 0,05.
И почему вы думаете, что тестирование - это хорошая идея? Подумайте, почему вы запускаете ANOVA в первую очередь. Вас, вероятно, учили, что это потому, что запуск нескольких t-тестов проблематичен, как вы понимаете в своем вопросе. Тогда почему вы управляете ими или их эквивалентом после? Я знаю, что это происходит, но мне еще не нужно было проводить тест после ANOVA. ANOVA говорит вам, что ваш шаблон данных не является набором равных значений, что там может быть какое-то значение. Многие люди зациклены на том, что тест не говорит вам, где находятся значимые биты, но они забывают, что данные и теории говорят вам об этом.
источник
Рассуждения о ЛСД Фишера могут быть распространены на случаи за N = 3.
Я подробно остановлюсь на примере четырех групп. Чтобы сохранить уровень ошибок по типу I для всей семьи на уровне 0,05 или ниже, достаточно поправочного коэффициента множественного сравнения, равного 3 (то есть альфа-коэффициент сравнения на 0,05 / 3), хотя между четырьмя группами было проведено шесть сравнений. Это потому что:
Это исчерпывает возможности. Во всех случаях вероятность нахождения одного или нескольких p- значений ниже 0,05 для групп, истинные средние значения которых равны, остается на уровне или ниже 0,05, если поправочный коэффициент для множественных сравнений равен 3, и это является определением частоты ошибок по семейным причинам.
Это рассуждение для четырех групп является обобщением объяснения Фишера для его метода наименьшего существенного различия трех групп. Для N групп поправочный коэффициент, если критерий омнибуса Anova является значимым, составляет ( N -1) ( N -2) / 2. Таким образом, поправка Бонферрони с коэффициентом N ( N -1) / 2 слишком сильна. Достаточно использовать альфа-поправочный коэффициент 1 для N = 3 (поэтому ЛСД Фишера работает для N = 3), коэффициент 3 для N = 4, коэффициент 6 для N = 5, коэффициент 10 для 10 N = 6 и т. Д.
источник