Выбор статистического теста на основе результатов другого (например, нормальность)

13

Итак, я слышал, что было сказано, что не стоит выбирать один статистический тест на основе результатов другого. Это кажется странным для меня, хотя. Например, люди часто предпочитают использовать непараметрический тест, когда какой-то другой тест предполагает, что остатки обычно не распределяются. Этот подход кажется довольно широко принятым, но, похоже, не согласуется с первым предложением в этом параграфе. Я просто надеялся получить разъяснения по этому вопросу.

Jimj
источник
3
Тот факт, что остатки не являются гауссовыми, не означает, что вам нужны непараметрические тесты. Обычно вы можете различить тип используемой модели (да, модель, а не тест) по характеру данных (число, данные 0 1, непрерывные, отношения средней дисперсии, линейные или нелинейные отношения и т. Д.) И соответственно подбирать модели чтобы соответствовать характеристикам данных, предварительно решив, какая гипотеза должна быть проверена. Как только вы почувствуете, что подгонка соответствует предположениям модели, вы можете оценить значение p и другую статистику,
Восстановите Монику - Дж. Симпсон,

Ответы:

14

Учитывая, что - это вероятность наблюдения данных, таких экстремальных или более экстремальных, если истинно, то какова интерпретация где достигается посредством процесса, в котором было принято условное решение при выборе теста, который произвел что ? Ответ непостижим (или, по крайней мере, почти непостижим). Приняв решение о проведении теста или нет на основе какого-либо другого вероятностного процесса, вы сделали интерпретацию своего результата еще более запутанной. pH0ppppЗначения максимально интерпретируются, когда размер выборки и план анализа были полностью выбраны заранее. В других ситуациях интерпретации становятся сложными, поэтому это «не очень хорошая идея». При этом это общепринятая практика ... в конце концов, зачем вообще запускать тест, если вы обнаружите, что тест, который вы запланировали выполнить, был недействительным? Ответ на этот вопрос гораздо менее определен. Все это сводится к тому простому факту, что проверка значимости нулевой гипотезы (основной вариант использования ) имеет некоторые проблемы, которые трудно преодолеть.p

russellpierce
источник
Мне не удалось найти какие-либо статьи, обсуждающие это явление в Google, возможно, потому что я использовал неправильные условия поиска. Сможет ли кто-нибудь указать мне направление статьи, в которой обсуждается проблема тестов, основанных на тестах?
Роб Холл
1
@RobHall: Это конкретный случай «Важности гипотетических вопросов для мнимых данных». Ср Wagenmakers, 2007, p. 784. Wagenmakers специально обращается к вопросу преобразований во втором столбце, утверждая, что «для вычисления значения ap вам необходимо знать, что бы вы сделали, если бы данные оказались по-другому ... это включает в себя то, что вы сделали бы, если бы данные если распределение было явно ненормальным ..., значения p могут быть вычислены только после того, как план выборки будет полностью известен и задан заранее ".
Russellpierce
8

Например, люди часто предпочитают использовать непараметрический тест, когда какой-то другой тест предполагает, что остатки обычно не распределяются. Этот подход кажется довольно широко принятым, но, похоже, не согласуется с первым предложением в этом параграфе. Я просто надеялся получить разъяснения по этому вопросу.

Да, многие люди делают такие вещи и меняют свой второй тест на тот, который может иметь дело с гетероскедастичностью, когда они отвергают равенство дисперсии, и так далее.

То, что что-то общее, не обязательно означает, что это мудро.

Действительно, в некоторых местах (я не буду называть наиболее обидные дисциплины) многие из этих формальных проверок гипотез, зависящих от других формальных проверок гипотез, фактически преподаются.

Проблема с этим заключается в том, что ваши процедуры не имеют своих номинальных свойств, иногда даже не близких. (С другой стороны, допущение подобных вещей без какого-либо рассмотрения на предмет потенциально крайнего нарушения может быть даже хуже.)

Несколько статей предполагают, что для случая гетероскедастичности вам лучше просто действовать так, как будто дисперсии не равны, чем проверять это и делать что-то только с отклонением.

В нормальном случае это менее понятно. По крайней мере, в больших выборках во многих случаях нормальность не так уж важна (но по иронии судьбы, с большими выборками ваш тест нормальности будет с большей вероятностью отклонен), пока ненормальность не слишком дикая. Единственное исключение - интервалы прогнозирования, когда вам действительно нужно, чтобы ваше распределение было близко к правильному.

Частично, одна проблема состоит в том, что тесты гипотез отвечают на вопрос, отличный от того, на который нужно ответить. Вам на самом деле не нужно знать, «действительно ли данные нормальны» (почти всегда они априори не будут абсолютно нормальными ). Вопрос скорее в том, насколько сильно степень ненормальности повлияет на мой вывод.

Вторая проблема обычно либо практически не зависит от размера выборки, либо фактически улучшается при увеличении размера выборки, однако тесты гипотез почти всегда отклоняются при больших объемах выборки.

Есть много ситуаций, когда существуют надежные или даже свободные от распространения процедуры, которые очень близки к полной эффективности даже при обычной (и потенциально гораздо более эффективной при некоторых довольно скромных отклонениях от нее) - во многих случаях кажется глупым не принимать такой же осторожный подход.

Glen_b - Восстановить Монику
источник
Ницца (+1) Не могли бы вы дать ссылку на статьи, которые вы упоминаете о случае гетероскедастичности?
gui11aume
2
Я не хочу указывать на это, но я постоянно сталкиваюсь с ними онлайн, поэтому нетрудно выяснить, какие из них имеют тенденцию подчеркивать это (они, как правило, те, которые исторически преувеличивают проверку гипотез). Действительно, дисциплины людей, которые задают вопросы здесь, где постеры считают, что им нужно использовать формальные тесты, обычно бывают одинаковыми. Это не просто одна или две дисциплины - я вижу много - но некоторые, кажется, делают это особенно часто. Чтобы это было достаточно распространенным, я могу только предположить, что в тех областях, которые настаивали на этом, были особенно хорошо известные тексты.
Glen_b
1
@ gui11aume Вот ссылка ... это не одна из тех, которые я искал, но она делает то, к чему я пришел (предварительное тестирование может ухудшить ситуацию).
Glen_b
2
У Эндрю Гельмана недавно был похожий пост о неоднородности между связанными группами (по крайней мере, о том, почему такой процесс проблематичен).
Энди W
1
Вопрос, связанный с этими обсуждениями, давным-
давно
8

Основные проблемы были хорошо объяснены другими, но смешаны с основными или связанными

  1. Чрезмерное уважение к P-значениям, самое большее один вид доказательств в статистике.

  2. Нежелание видеть, что статистические отчеты неизбежно основаны на комбинации вариантов, некоторые из которых основаны на фактах, другие основаны на сочетании предыдущих анализов, интуиции, догадок, суждений, теории и так далее.

Предположим, что я и мой осторожный друг Test Everything оба выбрали преобразование журнала для ответа, но я делаю поспешный вывод, основанный на сочетании физических рассуждений и предыдущего опыта работы с данными, в то время как Test Everything выбирает масштаб журнала на основе тестирования и оценки Бокс-Кокса. параметра.

Теперь мы оба используем одну и ту же множественную регрессию. У наших P-значений есть различные интерпретации? В одной интерпретации P-значения Test Everything зависят от ее предыдущих выводов. Я тоже использовал выводы, но в основном они были неформальными, основанными на длинных сериях предыдущих графиков, расчетов и т. Д. В предыдущих проектах. Как об этом сообщать?

Естественно, результаты регрессии абсолютно одинаковы для Test Everything и для меня.

То же сочетание разумного совета и сомнительной философии применимо к выбору предикторов и функциональной формы. Например, экономистов широко учат уважать предыдущие теоретические дискуссии и опасаться отслеживания данных, и в каждом случае есть веская причина. Но в самых слабых случаях рассматриваемая теория является лишь предварительным предположением, сделанным ранее в литературе, весьма вероятно после некоторого эмпирического анализа. Но литературные ссылки освящают, в то время как изучение из данных в руках является подозрительным, для многих авторов.

Ник Кокс
источник
Очень ясно (+1).
gui11aume
1
+1. Однако существует долгосрочная разница в эффективности ваших анализов и анализов Test Everything. Каждый раз, когда проводится этот анализ, вы будете использовать одну и ту же стратегию, основанную на том, что было написано в литературе (которая не колеблется от эксперимента к эксперименту). OTOH, данные являются случайной выборкой, и результаты тестирования Бокса-Кокса будут колебаться от изучения к исследованию.
gung - Восстановить Монику
Это глупо, но мой опыт тоже меняется, в конце концов.
Ник Кокс