Различные тесты гипотез, такие как тест GOF, Колмогоров-Смирнов, Андерсон-Дарлинг и т. Д., Следуют этому базовому формату:
: данные следуют заданному распределению.
: данные не соответствуют данному распределению.
Как правило, оценивается утверждение о том, что некоторые данные следуют некоторому заданному распределению, и если кто-то отвергает , данные не подходят для данного распределения на некотором уровне . α
Но что, если мы не отвергаем ? Меня всегда учили, что нельзя «принять» , поэтому, по сути, у нас нет доказательств отказа от . То есть, нет никаких доказательств того, что мы отвергаем, что данные соответствуют данному распределению.H 0 H 0
Таким образом, мой вопрос заключается в том, какой смысл проводить такое тестирование, если мы не можем прийти к выводу, соответствуют ли данные данному распределению?
источник
Ответы:
В общем и целом (не только с точки зрения проверки соответствия, но и во многих других ситуациях) вы просто не можете сделать вывод, что значение NULL является истинным, поскольку существуют альтернативы, которые практически неотличимы от NULL при любом заданном размере выборки.
Вот два распределения: стандартное нормальное (зеленая сплошная линия) и похожее (стандартное нормальное 90% и стандартизированное бета 10% (2,2), отмеченные красной пунктирной линией):
Красный не нормально. При, скажем, у нас мало шансов обнаружить разницу, поэтому мы не можем утверждать, что данные взяты из нормального распределения - что, если бы оно было из ненормального распределения, такого как красное?n = 100
Меньшие доли стандартизированных бета-версий с одинаковыми, но более крупными параметрами было бы намного сложнее увидеть отличными от нормальных.
Но, учитывая, что реальные данные почти никогда не происходят из какого-то простого распределения, если бы у нас был идеальный оракул (или фактически бесконечные размеры выборки), мы бы по существу всегда отвергали гипотезу, что данные были из какой-то простой формы распределения.
Как сказал Джордж Бокс: « Все модели ошибочны, но некоторые полезны ».
Рассмотрим, например, тестирование нормальности. Может быть, что данные на самом деле берутся из чего-то близкого к нормальному, но будут ли они когда-нибудь совершенно нормальными? Они, вероятно, никогда не являются.
Вместо этого лучшее, на что вы можете надеяться при такой форме тестирования, - это ситуация, которую вы описываете. (См., Например, пост « Тестирование нормальности по существу бесполезно?» , Но здесь есть ряд других постов, в которых упоминаются вопросы)
Это одна из причин, по которой я часто советую людям, что вопрос, который им действительно интересен (что часто ближе к тому, «достаточно ли близки мои данные к распределению чтобы я мог сделать соответствующие выводы на этой основе?») Обычно не очень хорошо ответил тестированием на соответствие. В случае нормальности часто логические процедуры, которые они хотят применить (t-тесты, регрессия и т. Д.), Как правило, работают достаточно хорошо в больших выборках - часто даже когда исходное распределение довольно явно ненормально - только когда качество Пригодный тест с большой вероятностью отклонит нормальность . Бесполезно иметь процедуру, которая, скорее всего, скажет вам, что ваши данные ненормальны, только когда вопрос не имеет значения.F
Рассмотрите изображение выше снова. Распределение красного цвета является ненормальным, и с очень большой выборкой мы можем отклонить тест на нормальность на основе выборки из него ... но при гораздо меньшем размере выборки, регрессиях и двух t-тестах выборки (и многих других тестах кроме того) будет вести себя так хорошо, что лишает смысла даже немного беспокоиться об этой ненормальности.
Подобные соображения распространяются не только на другие дистрибутивы, но и в целом на большое количество проверок гипотез в более общем смысле (например, даже двусторонний тест ). С тем же успехом можно задать такой же вопрос: какой смысл проводить такое тестирование, если мы не можем прийти к выводу, принимает ли среднее значение конкретное значение?μ = μ0
Возможно, вы сможете указать некоторые конкретные формы отклонения и взглянуть на что-то вроде проверки на эквивалентность, но это довольно сложно с подходящим соответствием, потому что существует очень много способов, чтобы распределение было близко, но отличалось от гипотетического, и отличалось Различия в формах могут оказывать различное влияние на анализ. Если альтернативой является более широкое семейство, которое включает в себя нулевое значение в качестве особого случая, проверка эквивалентности имеет больше смысла (например, тестирование экспоненциальной по гамме) - и действительно, подход «двухсторонний тест» проходит, и это может был бы способ формализовать «достаточно близко» (или это было бы, если бы гамма-модель была истинной, но на самом деле сама была бы практически уверена, что будет отклонена обычным тестом на пригодность,
Проверка на пригодность (и часто в более широком смысле, проверка гипотез) действительно подходит только для довольно ограниченного диапазона ситуаций. Вопрос, на который люди обычно хотят ответить, не такой точный, но несколько более расплывчатый и трудный, но, как сказал Джон Тьюки: « Гораздо лучше приблизительный ответ на правильный вопрос, который часто расплывчат, чем точный ответ на вопрос. неправильный вопрос, который всегда можно уточнить ".
Разумные подходы к ответу на более расплывчатый вопрос могут включать в себя исследования по моделированию и повторной выборке для оценки чувствительности желаемого анализа к предполагаемому вами предположению по сравнению с другими ситуациями, которые также достаточно согласуются с имеющимися данными.
(Это также является частью основы для подхода к устойчивости через загрязнение - по сути, рассматривая влияние нахождения на определенном расстоянии в смысле Колмогорова-Смирнова)ε
источник
Я второй @ Glen_b ответ и добавляю, что в целом проблема «отсутствие доказательств не является доказательством отсутствия» делает проверки гипотезы иP -значения менее полезны, чем кажутся. Оценка часто является лучшим подходом даже при оценке соответствия. В качестве меры можно использовать расстояние Колмогорова-Смирнова. Это просто трудно использовать без погрешности. Консервативный подход взял бы верхний предел доверия расстояния KS, чтобы вести моделирование. Это (правильно) приведет к значительной неопределенности, что может привести к выводу, что предпочтительным является выбор надежного метода. Имея это в виду и возвращаясь к исходной цели, когда сравнивают эмпирическое распределение с более чем, скажем, двумя возможными параметрическими формами, истинная дисперсия окончательно подобранного распределения не имеет лучшей точности, чем эмпирическая кумулятивная функция распределения. Так что, если нет теории предмета, чтобы управлять выбором распределения,
источник
Большинство людей разделяют точку зрения, согласно которой проверка гипотез является вероятностной адаптацией принципа фальсификации .
источник
Я думаю, что это прекрасный пример, чтобы проиллюстрировать разницу между академической работой и практическим принятием решений. В академической обстановке (где я нахожусь) вы можете спорить так, как хотите, до тех пор, пока это будет сочтено разумным для других. Следовательно, по сути, мы в конечном итоге имеем бесконечные, иногда круглые, аргические баржи друг с другом. В этом смысле это дает людям над чем работать.
Однако, если вы действительно в состоянии принимать решения, то ответ будет однозначным: да или нет. Нерешительность повредит вашей репутации лица, принимающего решения. Конечно, выбор включает в себя не только статистику, но и элемент азартных игр и скачок веры. Таким образом, этот вид упражнений в некоторой степени полезен для принятия решений. Однако полагать ли ваше решение исключительно на этот тест гипотезы - это совсем другая история.
источник
Дело в том, что с чисто статистической точки зрения вы не можете принять , но на практике вы принимаете . Например, если вы оцениваете риск портфеля с использованием метода оценки риска или аналогичных мер, распределение доходности портфеля является весьма важным. Это потому, что риск определяется хвостом вашего распределения.
В случаях с учебниками нормальное распределение часто используется для примеров. Однако, если доходность вашего портфеля имеет толстые хвосты (что они часто делают), нормальное распределение распределения будет недооценивать риски. Поэтому важно изучить результаты и решить, будете ли вы использовать нормальное приближение или нет. Обратите внимание, это не обязательно означает выполнение статистических тестов, это могут быть QQ-графики или другие средства. Тем не менее, вы должны принять решение в определенный момент на основе анализа доходов и ваших моделей возврата, и либо использовать обычные или нет.
Следовательно, для всех практических целей не отвергать действительно означает принимать, хотя и не в строгом статистическом смысле. Вы примете норму и будете использовать ее в своих расчетах, которые будут ежедневно демонстрироваться высшему руководству, вашим регуляторным органам, аудиторам и т. Д. Не отклонение в этом случае имеет далеко идущие последствия во всех смыслах, поэтому или более мощный, чем глупый статистический результат.
источник
Ни один обвиняемый в суде не является невиновным. Они либо виновны (отвергают нулевую гипотезу невиновности), либо не виновны (не отвергают презумпцию невиновности).
Отсутствие доказательств не является доказательством отсутствия.
источник
Если у вас есть альтернативный дистрибутив (или набор дистрибутивов) для сравнения, то он может быть полезным инструментом.
Некоторые трудности интерпретации, возникающие при применении теста хи-квадрат. Джозеф Берксон. Журнал Американской статистической ассоциации. Том 33, No. 203 (Sep., 1938), pp. 526-536.
источник