Итак, я слышал, что было сказано, что не стоит выбирать один статистический тест на основе результатов другого. Это кажется странным для меня, хотя. Например, люди часто предпочитают использовать непараметрический тест, когда какой-то другой тест предполагает, что остатки обычно не распределяются. Этот подход кажется довольно широко принятым, но, похоже, не согласуется с первым предложением в этом параграфе. Я просто надеялся получить разъяснения по этому вопросу.
13
Ответы:
Учитывая, что - это вероятность наблюдения данных, таких экстремальных или более экстремальных, если истинно, то какова интерпретация где достигается посредством процесса, в котором было принято условное решение при выборе теста, который произвел что ? Ответ непостижим (или, по крайней мере, почти непостижим). Приняв решение о проведении теста или нет на основе какого-либо другого вероятностного процесса, вы сделали интерпретацию своего результата еще более запутанной.p H0 p p p p Значения максимально интерпретируются, когда размер выборки и план анализа были полностью выбраны заранее. В других ситуациях интерпретации становятся сложными, поэтому это «не очень хорошая идея». При этом это общепринятая практика ... в конце концов, зачем вообще запускать тест, если вы обнаружите, что тест, который вы запланировали выполнить, был недействительным? Ответ на этот вопрос гораздо менее определен. Все это сводится к тому простому факту, что проверка значимости нулевой гипотезы (основной вариант использования ) имеет некоторые проблемы, которые трудно преодолеть.p
источник
Да, многие люди делают такие вещи и меняют свой второй тест на тот, который может иметь дело с гетероскедастичностью, когда они отвергают равенство дисперсии, и так далее.
То, что что-то общее, не обязательно означает, что это мудро.
Действительно, в некоторых местах (я не буду называть наиболее обидные дисциплины) многие из этих формальных проверок гипотез, зависящих от других формальных проверок гипотез, фактически преподаются.
Проблема с этим заключается в том, что ваши процедуры не имеют своих номинальных свойств, иногда даже не близких. (С другой стороны, допущение подобных вещей без какого-либо рассмотрения на предмет потенциально крайнего нарушения может быть даже хуже.)
Несколько статей предполагают, что для случая гетероскедастичности вам лучше просто действовать так, как будто дисперсии не равны, чем проверять это и делать что-то только с отклонением.
В нормальном случае это менее понятно. По крайней мере, в больших выборках во многих случаях нормальность не так уж важна (но по иронии судьбы, с большими выборками ваш тест нормальности будет с большей вероятностью отклонен), пока ненормальность не слишком дикая. Единственное исключение - интервалы прогнозирования, когда вам действительно нужно, чтобы ваше распределение было близко к правильному.
Частично, одна проблема состоит в том, что тесты гипотез отвечают на вопрос, отличный от того, на который нужно ответить. Вам на самом деле не нужно знать, «действительно ли данные нормальны» (почти всегда они априори не будут абсолютно нормальными ). Вопрос скорее в том, насколько сильно степень ненормальности повлияет на мой вывод.
Вторая проблема обычно либо практически не зависит от размера выборки, либо фактически улучшается при увеличении размера выборки, однако тесты гипотез почти всегда отклоняются при больших объемах выборки.
Есть много ситуаций, когда существуют надежные или даже свободные от распространения процедуры, которые очень близки к полной эффективности даже при обычной (и потенциально гораздо более эффективной при некоторых довольно скромных отклонениях от нее) - во многих случаях кажется глупым не принимать такой же осторожный подход.
источник
Основные проблемы были хорошо объяснены другими, но смешаны с основными или связанными
Чрезмерное уважение к P-значениям, самое большее один вид доказательств в статистике.
Нежелание видеть, что статистические отчеты неизбежно основаны на комбинации вариантов, некоторые из которых основаны на фактах, другие основаны на сочетании предыдущих анализов, интуиции, догадок, суждений, теории и так далее.
Предположим, что я и мой осторожный друг Test Everything оба выбрали преобразование журнала для ответа, но я делаю поспешный вывод, основанный на сочетании физических рассуждений и предыдущего опыта работы с данными, в то время как Test Everything выбирает масштаб журнала на основе тестирования и оценки Бокс-Кокса. параметра.
Теперь мы оба используем одну и ту же множественную регрессию. У наших P-значений есть различные интерпретации? В одной интерпретации P-значения Test Everything зависят от ее предыдущих выводов. Я тоже использовал выводы, но в основном они были неформальными, основанными на длинных сериях предыдущих графиков, расчетов и т. Д. В предыдущих проектах. Как об этом сообщать?
Естественно, результаты регрессии абсолютно одинаковы для Test Everything и для меня.
То же сочетание разумного совета и сомнительной философии применимо к выбору предикторов и функциональной формы. Например, экономистов широко учат уважать предыдущие теоретические дискуссии и опасаться отслеживания данных, и в каждом случае есть веская причина. Но в самых слабых случаях рассматриваемая теория является лишь предварительным предположением, сделанным ранее в литературе, весьма вероятно после некоторого эмпирического анализа. Но литературные ссылки освящают, в то время как изучение из данных в руках является подозрительным, для многих авторов.
источник