Читая CV на все времена, я натолкнулся на утверждение, которое хотел бы уточнить. Это пост, и мой вопрос относится к заключительным замечаниям: «Я должен отметить, что все знания, которые я только что передал, несколько устарели; теперь, когда у нас есть компьютеры, мы можем делать лучше, чем t-тесты. Как отмечает Фрэнк, вы Возможно, вы захотите использовать тесты Уилкоксона везде, где вас учили запускать t-тест ».
Отсутствие беспокойства по поводу того, разумно ли предположить, что распределение выборочного значения является нормальным для проведения t-теста , очевидно, является огромным преимуществом. И я вижу, что компьютеры могут ранжировать длинные списки различий между двумя векторами данных на одном дыхании ... Я помню, как делал это вручную много лет назад, но я отвлекся ...
Итак, действительно ли т- тест ушел в прошлое? Как насчет тестов перестановки? Являются ли они слишком специальными в смысле, как правило, влечет за собой написание нескольких строк кода?
источник
Ответы:
Я бы не сказал, что классические t-тесты с одной выборкой (включая парные) и двумя выборками с одинаковой дисперсией в значительной степени устарели, но существует множество альтернатив, которые обладают превосходными свойствами, и во многих случаях их следует использовать.
Также я бы не сказал, что способность быстро выполнять тесты Уилкоксона-Манна-Уитни на больших выборках - или даже тесты перестановки - появилась недавно, я делал это обычно более 30 лет назад, будучи студентом, и способность делать это имела был доступен в течение длительного времени в тот момент.
Итак, вот несколько альтернатив, и почему они могут помочь:
Welch-Satterthwaite - когда вы не уверены, что дисперсии будут близки к равным (если размеры выборок одинаковы, предположение о равной дисперсии не критично)
Уилкоксон-Манн-Уитни - Отлично, если хвосты нормальные или тяжелее нормальных, особенно в случаях, близких к симметричным. Если хвосты имеют тенденцию быть близкими к нормальным, тест перестановки на средстве предложит немного больше мощности.
Робастифицированные t-тесты - есть множество тестов, которые имеют хорошую мощность в нормальных условиях, но также работают хорошо (и сохраняют хорошую мощность) при более тяжелых хвостовых или несколько искаженных альтернативах.
GLM - полезны, например, для подсчета или непрерывного правого перекоса (например, гамма); предназначен для решения ситуаций, в которых дисперсия связана со средним значением.
случайные эффекты или модели временных рядов могут быть полезны в тех случаях, когда существуют определенные формы зависимости
Байесовские подходы , начальная загрузка и множество других важных методов, которые могут предложить преимущества, аналогичные вышеприведенным идеям. Например, с байесовским подходом вполне возможно иметь модель, которая может учитывать процесс загрязнения, иметь дело с подсчетами или искаженными данными и обрабатывать определенные формы зависимости, все в то же время .
Несмотря на то, что существует множество удобных альтернатив, старый t-критерий из двух выборок со стандартным запасом часто может хорошо работать в больших выборках одинакового размера, если популяция не очень далека от нормальной (например, с очень тяжелыми хвостами). / перекос) и у нас почти независимость.
Альтернативы полезны в целом ряде ситуаций, когда мы не можем быть настолько уверены в простом t-тесте ... и, тем не менее, в целом работаем хорошо, когда допущения t-критерия выполнены или близки к выполнению.
Уэлч является разумным значением по умолчанию, если распределение имеет тенденцию не отклоняться слишком далеко от нормы (с более крупными выборками, обеспечивающими большую свободу действий).
В то время как тест перестановки превосходен, без потери мощности по сравнению с t-тестом, когда его допущения верны (и полезная выгода дает прямую оценку количества интереса), Уилкоксон-Манн-Уитни, возможно, является лучшим выбором, если хвосты могут быть тяжелыми; с небольшим дополнительным допущением, WMW может дать выводы, относящиеся к среднему сдвигу. (Есть и другие причины, по которым можно предпочесть тест на перестановку)
[Если вы знаете, что имеете дело с подсчетами, например, временем ожидания или подобными данными, маршрут GLM часто бывает разумным. Если вы немного знаете о потенциальных формах зависимости, с этим тоже легко справиться, и следует рассмотреть возможность зависимости.]
Таким образом, хотя t-тест, безусловно, не останется в прошлом, вы почти всегда можете делать то же самое или почти так же хорошо, когда он применяется, и потенциально получить большую выгоду, если это не так, привлекая одну из альтернатив , То есть, я в целом согласен с мнением в этом посте, касающимся t-критерия ... большую часть времени вы, вероятно, должны подумать о своих предположениях, прежде чем даже собирать данные, и если какое-либо из них может и не ожидаться чтобы удержаться, с t-тестом, как правило, почти нечего терять, просто не делая этого предположения, поскольку альтернативы обычно работают очень хорошо.
Если у кого-то возникают большие проблемы со сбором данных, то, безусловно, нет причин не тратить немного времени на то, чтобы искренне обдумать лучший способ сделать выводы.
Обратите внимание, что я, как правило, не советую явно проверять допущения - он не только отвечает на неправильный вопрос, но и делает так, а затем выбор анализа, основанного на отклонении или непринятии предположения, влияет на свойства обоих вариантов теста; если вы не можете разумно безопасно сделать предположение (либо потому, что вы знаете о процессе достаточно хорошо, чтобы вы могли его предположить, либо потому, что процедура не чувствительна к нему в ваших обстоятельствах), вообще говоря, вам лучше использовать процедуру это не предполагает это.
(Результирующие p-значения равны 0,538 и 0,539 соответственно; соответствующий обычный два t-критерия для образца имеет p-значение 0,504, а t-критерий Уэлча-Саттертвейта имеет значение p 0,522.)
Обратите внимание, что код для расчетов в каждом случае представляет собой 1 строку для комбинаций для теста перестановки, а значение p также можно указать в 1 строке.
Адаптация этой функции к функции, которая выполняла тест на перестановку или тест на рандомизацию и давала результат, похожий на t-критерий, была бы тривиальным вопросом.
Вот отображение результатов:
источник