Проверка гипотезы распределения - какой смысл делать это, если вы не можете «принять» свою нулевую гипотезу?

26

Различные тесты гипотез, такие как тест GOF, Колмогоров-Смирнов, Андерсон-Дарлинг и т. Д., Следуют этому базовому формату:χ2

H0 : данные следуют заданному распределению.

H1 : данные не соответствуют данному распределению.

Как правило, оценивается утверждение о том, что некоторые данные следуют некоторому заданному распределению, и если кто-то отвергает , данные не подходят для данного распределения на некотором уровне . αH0α

Но что, если мы не отвергаем ? Меня всегда учили, что нельзя «принять» , поэтому, по сути, у нас нет доказательств отказа от . То есть, нет никаких доказательств того, что мы отвергаем, что данные соответствуют данному распределению.H 0 H 0H0H0H0

Таким образом, мой вопрос заключается в том, какой смысл проводить такое тестирование, если мы не можем прийти к выводу, соответствуют ли данные данному распределению?

Кларнетист
источник
1
Очень заманчиво только ответить «какой смысл проверять [в общем], если нельзя принять нулевую гипотезу?». Во всех случаях статистические тесты не являются единственной основой для принятия решений. Скорее, мы принимаем решение и используем данные для количественной оценки риска / стоимости ошибок типа I / II. Если бы мы просто суммировали качество или степень соответствия с полезной графикой, QQplots и прогнозной статистикой, нас бы правильно посоветовали относительно риска «принятия нуля».
AdamO
@AdamO Когда я спросил об этом три года назад, я только что закончил бакалавриат по математике (выделение статистики). Теперь, когда я на полпути к программе MS stats и проделал некоторую профессиональную работу, я теперь понимаю это. Очень жаль, что статистика преподается во многих программах бакалавриата, но я отвлекся.
Кларнетист

Ответы:

37

В общем и целом (не только с точки зрения проверки соответствия, но и во многих других ситуациях) вы просто не можете сделать вывод, что значение NULL является истинным, поскольку существуют альтернативы, которые практически неотличимы от NULL при любом заданном размере выборки.

Вот два распределения: стандартное нормальное (зеленая сплошная линия) и похожее (стандартное нормальное 90% и стандартизированное бета 10% (2,2), отмеченные красной пунктирной линией):

введите описание изображения здесь

Красный не нормально. При, скажем, у нас мало шансов обнаружить разницу, поэтому мы не можем утверждать, что данные взяты из нормального распределения - что, если бы оно было из ненормального распределения, такого как красное?n=100

Меньшие доли стандартизированных бета-версий с одинаковыми, но более крупными параметрами было бы намного сложнее увидеть отличными от нормальных.

Но, учитывая, что реальные данные почти никогда не происходят из какого-то простого распределения, если бы у нас был идеальный оракул (или фактически бесконечные размеры выборки), мы бы по существу всегда отвергали гипотезу, что данные были из какой-то простой формы распределения.

Как сказал Джордж Бокс: « Все модели ошибочны, но некоторые полезны ».

Рассмотрим, например, тестирование нормальности. Может быть, что данные на самом деле берутся из чего-то близкого к нормальному, но будут ли они когда-нибудь совершенно нормальными? Они, вероятно, никогда не являются.

Вместо этого лучшее, на что вы можете надеяться при такой форме тестирования, - это ситуация, которую вы описываете. (См., Например, пост « Тестирование нормальности по существу бесполезно?» , Но здесь есть ряд других постов, в которых упоминаются вопросы)

Это одна из причин, по которой я часто советую людям, что вопрос, который им действительно интересен (что часто ближе к тому, «достаточно ли близки мои данные к распределению чтобы я мог сделать соответствующие выводы на этой основе?») Обычно не очень хорошо ответил тестированием на соответствие. В случае нормальности часто логические процедуры, которые они хотят применить (t-тесты, регрессия и т. Д.), Как правило, работают достаточно хорошо в больших выборках - часто даже когда исходное распределение довольно явно ненормально - только когда качество Пригодный тест с большой вероятностью отклонит нормальность . Бесполезно иметь процедуру, которая, скорее всего, скажет вам, что ваши данные ненормальны, только когда вопрос не имеет значения.F

Рассмотрите изображение выше снова. Распределение красного цвета является ненормальным, и с очень большой выборкой мы можем отклонить тест на нормальность на основе выборки из него ... но при гораздо меньшем размере выборки, регрессиях и двух t-тестах выборки (и многих других тестах кроме того) будет вести себя так хорошо, что лишает смысла даже немного беспокоиться об этой ненормальности.

Подобные соображения распространяются не только на другие дистрибутивы, но и в целом на большое количество проверок гипотез в более общем смысле (например, даже двусторонний тест ). С тем же успехом можно задать такой же вопрос: какой смысл проводить такое тестирование, если мы не можем прийти к выводу, принимает ли среднее значение конкретное значение?μ=μ0

Возможно, вы сможете указать некоторые конкретные формы отклонения и взглянуть на что-то вроде проверки на эквивалентность, но это довольно сложно с подходящим соответствием, потому что существует очень много способов, чтобы распределение было близко, но отличалось от гипотетического, и отличалось Различия в формах могут оказывать различное влияние на анализ. Если альтернативой является более широкое семейство, которое включает в себя нулевое значение в качестве особого случая, проверка эквивалентности имеет больше смысла (например, тестирование экспоненциальной по гамме) - и действительно, подход «двухсторонний тест» проходит, и это может был бы способ формализовать «достаточно близко» (или это было бы, если бы гамма-модель была истинной, но на самом деле сама была бы практически уверена, что будет отклонена обычным тестом на пригодность,

Проверка на пригодность (и часто в более широком смысле, проверка гипотез) действительно подходит только для довольно ограниченного диапазона ситуаций. Вопрос, на который люди обычно хотят ответить, не такой точный, но несколько более расплывчатый и трудный, но, как сказал Джон Тьюки: « Гораздо лучше приблизительный ответ на правильный вопрос, который часто расплывчат, чем точный ответ на вопрос. неправильный вопрос, который всегда можно уточнить ".

Разумные подходы к ответу на более расплывчатый вопрос могут включать в себя исследования по моделированию и повторной выборке для оценки чувствительности желаемого анализа к предполагаемому вами предположению по сравнению с другими ситуациями, которые также достаточно согласуются с имеющимися данными.

(Это также является частью основы для подхода к устойчивости через загрязнение - по сути, рассматривая влияние нахождения на определенном расстоянии в смысле Колмогорова-Смирнова)ε

Glen_b - Восстановить Монику
источник
Глен, это отличный ответ. Есть ли больше ресурсов по «разумным подходам к ответу на более расплывчатый вопрос»? Было бы здорово увидеть рабочие примеры, когда люди отвечают: «Достаточно ли близки мои данные к распределению X для моих целей?» в контексте.
Stumpy Джо Пит
2
@StumpyJoePete Там пример ответа на более расплывчатым (но немного другой) вопрос здесь , где моделирование используется , чтобы судить примерно в какой размер выборки , было бы целесообразно применить Стьюдента с перекосом (экспоненциальной, скажем) данные. Затем в последующем вопросе у ОП появилось больше информации о выборке (она была дискретной, и, как оказалось, гораздо больше перекосов, чем можно предположить по показателю «экспоненциально»), ... (ctd)
Glen_b -Reinstate Monica
2
(ctd) ... проблема была исследована более подробно , опять же с использованием симуляции. Конечно, на практике должно быть больше «туда-сюда», чтобы удостовериться, что оно должным образом адаптировано к реальным потребностям человека, а не из его первоначального объяснения.
Glen_b
Благодарность! Это именно то, что я искал.
Stumpy Джо Пит
17

Я второй @ Glen_b ответ и добавляю, что в целом проблема «отсутствие доказательств не является доказательством отсутствия» делает проверки гипотезы иP-значения менее полезны, чем кажутся. Оценка часто является лучшим подходом даже при оценке соответствия. В качестве меры можно использовать расстояние Колмогорова-Смирнова. Это просто трудно использовать без погрешности. Консервативный подход взял бы верхний предел доверия расстояния KS, чтобы вести моделирование. Это (правильно) приведет к значительной неопределенности, что может привести к выводу, что предпочтительным является выбор надежного метода. Имея это в виду и возвращаясь к исходной цели, когда сравнивают эмпирическое распределение с более чем, скажем, двумя возможными параметрическими формами, истинная дисперсия окончательно подобранного распределения не имеет лучшей точности, чем эмпирическая кумулятивная функция распределения. Так что, если нет теории предмета, чтобы управлять выбором распределения,

Фрэнк Харрелл
источник
3
Я не могу понять причину, почему это было понижено; Здесь есть несколько замечательных моментов. Было бы полезно, если бы человек, понизивший голос, объяснил, что, по его мнению, является проблемой. Может быть, мы бы чему-то научились.
Glen_b
9

Большинство людей разделяют точку зрения, согласно которой проверка гипотез является вероятностной адаптацией принципа фальсификации .

Если гипотеза продолжает существовать, продолжая серьезные попытки фальсифицировать ее, то она «доказала свою силу» и может быть временно принята, но она никогда не может быть окончательно доказана.

H0H0H0

Khashaa
источник
2

Я думаю, что это прекрасный пример, чтобы проиллюстрировать разницу между академической работой и практическим принятием решений. В академической обстановке (где я нахожусь) вы можете спорить так, как хотите, до тех пор, пока это будет сочтено разумным для других. Следовательно, по сути, мы в конечном итоге имеем бесконечные, иногда круглые, аргические баржи друг с другом. В этом смысле это дает людям над чем работать.

Однако, если вы действительно в состоянии принимать решения, то ответ будет однозначным: да или нет. Нерешительность повредит вашей репутации лица, принимающего решения. Конечно, выбор включает в себя не только статистику, но и элемент азартных игр и скачок веры. Таким образом, этот вид упражнений в некоторой степени полезен для принятия решений. Однако полагать ли ваше решение исключительно на этот тест гипотезы - это совсем другая история.

LaTeXFan
источник
2
Это не правильно ИМХО. Лучшая книга, которую я прочитал, объясняющая, почему человек принимает лучшие решения, всегда учитывая неопределенность на каждом этапе принятия решения, - это «Сигнал и шум» Нейта Сильвера . Например, самые успешные игроки в покер - это те, кто никогда не верит, что вероятность определенной руки равна 0 или 1.
Фрэнк Харрелл
1
@FrankHarrell Мне интересно, как бы вы ответили на такие вопросы, как строить дорогу или покупать долю? Это вопрос да или нет. На такие вопросы должны отвечать лица, принимающие решения.
LaTeXFan
1
@FrankHarrell Конечно, статистика играет важную роль в принятии решения. Однако с точки зрения надежности все, что мы делаем, - это приближение к реальности. Есть множество вещей, которые математика просто не может объяснить. И здесь в игру вступают другие средства, как инстинкт.
LaTeXFan
1
P
1
@FrankHarrell Спасибо за ваши комментарии. Я думаю, что ваше различие между безотзывными решениями и прочим является хорошим моментом. По сути, речь идет о временном измерении проблемы. В течение короткого периода времени большинство решений не подлежат отмене. Это то, что произошло, когда люди были поставлены на место, чтобы сделать звонок. С другой стороны, если мы можем позволить себе более долгосрочную перспективу, то вы правы - лучше иметь систему, способную реагировать на изменения обстоятельств. Тем не менее, некоторый ущерб, будь то финансовый или физический, неизбежен.
LaTeXFan
2

Дело в том, что с чисто статистической точки зрения вы не можете принять , но на практике вы принимаете . Например, если вы оцениваете риск портфеля с использованием метода оценки риска или аналогичных мер, распределение доходности портфеля является весьма важным. Это потому, что риск определяется хвостом вашего распределения.

В случаях с учебниками нормальное распределение часто используется для примеров. Однако, если доходность вашего портфеля имеет толстые хвосты (что они часто делают), нормальное распределение распределения будет недооценивать риски. Поэтому важно изучить результаты и решить, будете ли вы использовать нормальное приближение или нет. Обратите внимание, это не обязательно означает выполнение статистических тестов, это могут быть QQ-графики или другие средства. Тем не менее, вы должны принять решение в определенный момент на основе анализа доходов и ваших моделей возврата, и либо использовать обычные или нет.

Следовательно, для всех практических целей не отвергать действительно означает принимать, хотя и не в строгом статистическом смысле. Вы примете норму и будете использовать ее в своих расчетах, которые будут ежедневно демонстрироваться высшему руководству, вашим регуляторным органам, аудиторам и т. Д. Не отклонение в этом случае имеет далеко идущие последствия во всех смыслах, поэтому или более мощный, чем глупый статистический результат.

Аксакал
источник
0

Ни один обвиняемый в суде не является невиновным. Они либо виновны (отвергают нулевую гипотезу невиновности), либо не виновны (не отвергают презумпцию невиновности).

Отсутствие доказательств не является доказательством отсутствия.

BCLC
источник
-1

Таким образом, мой вопрос заключается в том, какой смысл проводить такое тестирование, если мы не можем прийти к выводу, соответствуют ли данные данному распределению?

Если у вас есть альтернативный дистрибутив (или набор дистрибутивов) для сравнения, то он может быть полезным инструментом.

Я бы сказал: у меня под рукой есть ряд наблюдений, которые, я думаю, могут быть нормально распределены. (Я так думаю, потому что я видел наблюдения похожего характера, которые были мне довольны, следуя разумно нормальной кривой.) Я также думаю, что они могут следовать не нормальной кривой, а некоторой регулярной ненормальной кривой. (Я думаю, что это может быть потому, что я видел такие массивы данных, которые не следуют нормальной кривой, но которые, например, были искажены и т. Д.) 3 Затем я сделаю запрос по следующим линиям: Если наблюдения исходить из нормального распределения, как часто будет такой хи-квадрат, как я получил? Вывод таков: «Довольно редко - только два раза из ста». Затем я делаю запрос, не заявленный и не рассчитанный, но я считаю абсолютно необходимым для завершения действительного аргумента, следующим образом: Если распределение ненормальное, этот опыт, судя по разнице хи-квадрат, будет происходить довольно часто. (Все, что мне нужно сделать, это представить, что ненормальная кривая имеет наблюдаемый наклонный характер распределения.) Поэтому я отвергаю нормальную гипотезу по принципу, что я принимаю, что одна из альтернативных рассмотренных гипотез, по которой опытное событие будет более часто. Я говорю, что отказ от нулевой гипотезы действителен только в отношении готовности принять альтернативу (эта альтернатива не обязательно определяется точно во всех отношениях). Поэтому я отвергаю нормальную гипотезу на том основании, что я принимаю одну из альтернативных рассматриваемых гипотез, по которой опытное событие будет более частым. Я говорю, что отказ от нулевой гипотезы действителен только в отношении готовности принять альтернативу (эта альтернатива не обязательно определяется точно во всех отношениях). Поэтому я отвергаю нормальную гипотезу на том основании, что я принимаю одну из альтернативных рассматриваемых гипотез, по которой опытное событие будет более частым. Я говорю, что отказ от нулевой гипотезы действителен только в отношении готовности принять альтернативу (эта альтернатива не обязательно определяется точно во всех отношениях).

Теперь линия рассуждения, которую я описал, в отличие от того, что я описал как более обычное, объяснит, почему мое решение отличается от рутинного в третьем и четвертом случаях.

Что касается третьего случая, то после того, как я попробовал критерий хи-квадрат, я пришел к выводу, что, исходя из гипотезы о том, что нет отличия от нормального, распределение с таким большим хи-квадратом будет происходить редко. Пока мы находимся точно в том же положении, в каком мы находились в этот момент во втором случае. Но теперь позвольте мне изучить вероятность того, что этот опыт произойдет, если исходный запас был обычным ненормальным. Будет ли этот опыт встречаться чаще? Нет оснований так говорить. Распределение совершенно симметрично, т. Е. Асимметрия равна нулю (с каждой стороны от среднего значения было ровно 50% случаев), и беглый анализ отличий от ожидаемых частот в разных классах показывает, что они не являются системными. тематический, т. е. отклонения плюс и минус чередуются в случайном порядке. Такое распределение не следует ожидать часто от любой вероятной ненормальной кривой. Поэтому у нас нет никаких оснований для отклонения нормальной кривой.

Я считаю, что нет веской причины для отказа от нулевой гипотезы, кроме как на готовность предложить альтернативную.

Некоторые трудности интерпретации, возникающие при применении теста хи-квадрат. Джозеф Берксон. Журнал Американской статистической ассоциации. Том 33, No. 203 (Sep., 1938), pp. 526-536.

синевато-багровый
источник
1
Цитата Берксона / статья кажется мне актуальной и разумной. Общеизвестно, что при достаточно большом размере выборки любое предполагаемое распределение будет отклонено, даже если только из-за ошибки измерения. Если мы обнаружим, что данные при некотором предполагаемом распределении маловероятны, не должны ли мы попытаться выяснить, каким будет лучший выбор? И если мы не можем оправдать эти другие выборы, мы должны принять, при необходимости, самое простое из возможных распределений? Кто-нибудь может объяснить, почему за это проголосовали?
Яркий