Почему параметрическая статистика всегда предпочтительнее непараметрической?

60

Может ли кто-нибудь объяснить мне, почему кто-то выбрал бы параметрический непараметрический статистический метод для проверки гипотез или регрессионного анализа?

На мой взгляд, это все равно, что заняться рафтингом и выбрать не водостойкие часы, потому что вы можете их не намочить. Почему бы не использовать инструмент, который работает в каждом случае?

en1
источник
21
Это ввести индуктивное смещение в процесс статистического вывода. Это причудливый способ сказать: если вы что-то знаете, укажите это как подсказку. Эта подсказка может принимать такие формы, как предоставление функциональной формы вероятности или предварительного распределения параметров. Если ваш намек хороший, результат лучше, чем без подсказки, а если он плохой, результат хуже.
Кагдас Озгенц
6
Не обязательно. В основном вы ищете что-то на очень большом десерте. Если кто-то говорит вам, что то, что вы ищете, ограничено определенной территорией, тогда ваши шансы найти это повышаются. Но если они вводят вас в заблуждение неверной информацией, то, сколько бы вы ни искали эту территорию, вы не найдете ее.
Кагдас Озгенц
17
Как столяр, я люблю аналогию в конце. Дома и мебель, которые хорошо сложены и последние построены с использованием специализированных инструментов. Универсальные инструменты отлично подходят для домовладельцев и для профессионалов, которым необходимо быстро выполнить работу, или когда используется грубый или неподходящий инструмент, не будет иметь значения качество, о котором все заботятся. Мастера, тем не менее, достигают лучших результатов, используя правильный инструмент для работы, и действительно некоторые вещи просто не могут быть сделаны без него. Например, никто никогда не делал хороший ласточкин хвост с универсальной ручной пилой.
Whuber
3
Если вы копаете канаву с помощью лопаты или чайной ложки, вы получаете канаву. Просто если вы использовали чайную ложку, вы тоже старше.
сопряженный
5
Связанный (хотя, возможно, не совсем так): Если среднее значение настолько чувствительно, зачем вообще его использовать?
gung - Восстановить Монику

Ответы:

25

Редко, если когда-либо параметрический тест и непараметрический тест на самом деле имеют один и тот же нуль. Параметрический тест проверяет среднее значение распределения, предполагая, что существуют первые два момента. Тест суммы рангов Уилкоксона не предполагает никаких моментов и вместо этого проверяет равенство распределений. Его подразумеваемый параметр - странный функционал распределений, вероятность того, что наблюдение из одной выборки ниже, чем наблюдение из другой. Вы можете говорить о сравнениях между двумя тестами в рамках полностью определенного нулевого идентичного распределения ... но вы должны признать, что эти два теста проверяют разные гипотезы.t

Информация, которую приносят параметрические тесты вместе с их допущением, помогает повысить эффективность тестов. Конечно, эта информация должна быть правильной, но в наши дни мало областей человеческих знаний, где такой предварительной информации не существует. Интересное исключение, которое прямо говорит: «Я не хочу ничего предполагать» - это зал судебных заседаний, где непараметрические методы продолжают пользоваться широкой популярностью, и это имеет смысл для приложения. Вероятно, есть веская причина, полагает каламбур, что Филлип Гуд написал хорошие книги как по непараметрической статистике, так и по статистике в зале суда .

Существуют также ситуации тестирования, когда у вас нет доступа к микроданным, необходимым для непараметрического теста. Предположим, вас попросили сравнить две группы людей, чтобы определить, является ли один из них более страдающим ожирением, чем другой. В идеальном мире у вас будут измерения роста и веса для всех, и вы можете сформировать тест перестановки, рассортирующий по росту. В менее чем идеальном (то есть в реальном) мире у вас может быть только средний рост и средний вес в каждой группе (или могут быть некоторые диапазоны или отклонения этих характеристик поверх выборочных средних). Тогда лучше всего рассчитать средний ИМТ для каждой группы и сравнить их, если у вас есть только средства; или предположить двумерное нормальное значение для роста и веса, если у вас есть средние значения и отклонения (вам, вероятно, придется взять корреляцию из некоторых внешних данных, если они не пришли с вашими образцами),

Stask
источник
3
Я понимаю, что в случае тестирования у вас нет того же нуля, хотя я не уверен, имеет ли смысл говорить, что ноль лучше, чем другой нуль. Но как насчет предсказания? Совершенно другая история, все еще параметрическая и непараметрическая дилемма.
en1
22

Как писали другие: если выполнены предварительные условия, ваш параметрический тест будет более мощным, чем непараметрический.

По аналогии с часами, не водостойкий был бы гораздо более точным, если бы он не промок. Например, ваши водонепроницаемые часы могут быть отключены на один час в любом случае, тогда как не водостойкие часы будут точными ... и вам нужно сесть на автобус после поездки на плоту. В таком случае может иметь смысл взять с собой не водостойкие часы и убедиться, что они не промокнут.


Бонус: непараметрические методы не всегда просты. Да, альтернатива тесту перестановки проста. Но непараметрическую альтернативу смешанной линейной модели с множеством двусторонних взаимодействий и вложенных случайных эффектов установить немного сложнее, чем простой вызов nlme(). Я сделал это, используя тесты перестановок, и по моему опыту, значения p параметрических и перестановочных тестов всегда были довольно близки, даже если остатки от параметрической модели были совершенно ненормальными. Параметрические тесты часто удивительно устойчивы к отклонениям от своих предварительных условий.

С. Коласса - Восстановить Монику
источник
Похоже, что распространенное мнение о том, что параметрические методы более эффективны, когда их предположения выполнены. Но если это так, то почему у нас есть p-значения для оценки результатов обоих подходов? Я имею в виду, если параметрический тест отвергает нулевую гипотезу с вероятностью не менее 99%, как это лучше непараметрического теста, отклоняющего нулевую гипотезу с вероятностью 99%? Различна ли вероятность 0,99 в каждом случае? Это не имеет смысла.
en1
1
Нулевые гипотезы различаются между параметрическим тестом и его непараметрическим аналогом. В частности, нулевая гипотеза для параметрического теста содержит конкретное параметрическое предположение о распределении статистики теста (которая обычно также будет рассчитываться по-разному для двух тестов) - именно поэтому она называется «параметрическая», в конце концов! Таким образом, два значения p имеют одно и то же имя, но рассчитываются на основе разных тестовых статистических данных, которые имеют разные распределения при разных нулевых гипотезах.
С. Коласса - Восстановить Монику
... и @StasK выразили все это намного лучше, чем я .
С. Коласса - Восстановить Монику
3
@StephanKolassa, я на самом деле начал писать комментарий к вашему ответу и увлекся :)
StasK
12

Хотя я согласен с тем, что во многих случаях непараметрические методы являются благоприятными, существуют также ситуации, в которых параметрические методы более полезны.

Давайте сосредоточимся на обсуждении «t-критерия с двумя выборками против критерия суммы рангов Уилкоксона» (в противном случае мы должны написать целую книгу).

  1. При небольших размерах группы 2-3 только t-критерий может теоретически достичь значения p менее 5%. В биологии и химии такие размеры групп не редкость. Конечно, деликатно использовать t-тест в таких условиях. Но, может быть, это лучше, чем ничего. (Этот момент связан с тем, что в идеальных условиях t-критерий обладает большей мощностью, чем критерий Уилкоксона).
  2. При огромных размерах групп также t-критерий можно рассматривать как непараметрический благодаря центральной предельной теореме.
  3. Результаты t-теста соответствуют доверительному интервалу Стьюдента для средней разницы.
  4. Если отклонения сильно различаются по группам, то версия t-критерия Уэлча пытается принять это во внимание, в то время как критерий суммы рангов Уилкоксона может плохо провалиться, если сравнивать средние значения (например, вероятность ошибки первого рода сильно отличается от номинального уровня). ).
Майкл М
источник
2
Я бы не согласился с 1. Простое использование процедуры, поскольку она позволяет вам принять решение, на самом деле не является веской причиной, особенно если у вас нет оснований ожидать, что эта процедура будет действительной. Если у вас мало или нет данных, просто сделайте суждение и не притворяйтесь, что оно основано на строгости.
dsaxton
5
Я согласен. Очевидно, это одна из причин, почему результаты часто не воспроизводимы, даже если они публикуются в журналах с самым высоким рейтингом. Но какие у вас есть возможности в качестве исследователя, если бюджет допускает только крошечные размеры выборки?
Майкл М,
1
В отношении 4 и проблем, связанных с применением Уилкоксона-Манна-Уитни, когда существуют неравные различия между группами, существуют непараметрические методы, которые учитывают гетероскедастичность: я, например, напоминаю критерий Клиффа или критерий Бруннера-Мюнцеля. (Я не думаю, что у нас есть много информации о них на этом сайте.)
Серебряная рыба
@Silverfish: Я часто использую методы Бруннера, и я думаю, что вы правы. Но я сомневаюсь, что они действительно сравнивают средства, за исключением того, что делают сильные предположения о распределении.
Майкл М,
1
@MichaelM Да, конечно - это возвращает нас к вопросу о параметрических и непараметрических методах, имеющих разные гипотезы, я полагаю.
Серебряная рыба
9

В тестировании гипотез непараметрические тесты часто тестируют разные гипотезы, что является одной из причин, почему нельзя всегда просто заменить непараметрический тест параметрическим.

yxfff(x)=j=1pβjxj

dsaxton
источник
Да, и это добавляет модель смещения. Что это говорит об отчетах исследователей p-значений?
Кагдас Озгенц
@dsaxton то, что вы говорите, верно о проверке различных гипотез, но люди по-прежнему интерпретируют их одинаково. Кроме того, существует регрессия, когда понимание непараметрического и параметрического анализа практически одинаково.
en1
@ cagdas-ozgenc Это говорит о том, что p-значения зависят от модели. Но непонятно, как все могло быть иначе ...
сопряженный
3
+1 за то, что мы не имеем абсолютно никакой возможности оценить что-либо ценное в регрессии без каких-либо предположений о функции регрессии.
сопряженный
9

Полупараметрические модели имеют много преимуществ. Они предлагают такие тесты, как критерий Уилкоксона, как особый случай, но позволяют оценить коэффициенты воздействия, квантили, средние значения и вероятности превышения. Они распространяются на продольные и цензурированные данные. Они устойчивы в Y-пространстве и инвариантны к преобразованиям, за исключением оценки средних. См. Http://biostat.mc.vanderbilt.edu/rms ссылку на раздаточные материалы курса для подробного примера / тематического исследования.

tYYXX1X2, Примеры включают модель пропорциональных шансов (особый случай: Уилкоксон и Крускал-Уоллис) и модель пропорциональных опасностей (особый случай: критерий логарифмического и стратифицированного логарифмического критерия).

Y

Фрэнк Харрелл
источник
1
Я немного боролся с этим. Считаете ли вы t-тест полупараметрическим или непараметрическим? С одной стороны, я всегда предполагал, что «jist» полупараметрики заключается в следующем: возьмите «работающую» модель вероятности для данных, оцените параметры в этом распределении независимо от того, является ли распределение корректным, и улучшите оценку ошибки, чтобы учитывать неопределенность. (Таким образом, ошибки, основанные на сэндвичах для решений гауссовских уравнений, будут полупараметрическим T-тестом). Тем не менее, полупараметрика почти всегда включает в себя что-то частичное / обусловливание, как в моделях Кокса.
AdamO
Я добавлю больше описания в мой ответ, чтобы справиться с этим.
Фрэнк Харрелл
6

Среди множества предоставленных ответов я бы также обратил внимание на байесовскую статистику. Некоторые проблемы не могут быть решены только с помощью вероятностей. Частотник использует контрфактуальные рассуждения, где «вероятность» относится к альтернативным вселенным, а структура альтернативной вселенной не имеет смысла, если делать вывод о состоянии личности, например, о вине или невиновности преступника, или о том, является ли узким местом частота гена в виды, подвергшиеся значительному изменению окружающей среды, привели к его исчезновению. В байесовском контексте вероятность - это «вера», а не частота, которая может быть применена к тому, что уже ускорилось.

В настоящее время большинство байесовских методов требуют полного определения вероятностных моделей для предварительного и конечного результата. И большинство из этих вероятностных моделей являются параметрическими. В соответствии с тем, что говорят другие, они не обязательно должны быть точными для получения значимых сводок данных. «Все модели ошибочны, некоторые модели полезны».

Есть, конечно, непараметрические байесовские методы. В них много статистических морщин, и, вообще говоря, для полноценного использования требуются почти полные данные о населении.

Adamo
источник
6

Единственная причина, по которой я отвечаю, несмотря на все приведенные выше точные ответы, заключается в том, что никто не обратил внимания на причину № 1, по которой мы используем параметрические тесты (по крайней мере, при анализе данных физики элементарных частиц). Потому что мы знаем параметризацию данных. Duh! Это такое большое преимущество. Вы сводите свои сотни, тысячи или миллионы точек данных к нескольким параметрам, которые вас интересуют, и описываете свое распределение. Они говорят вам основную физику (или любую науку, которая дает вам ваши данные).

Конечно, если вы не имеете представления о базовой плотности вероятности, у вас нет выбора: используйте непараметрические тесты. Непараметрические тесты имеют то преимущество, что в них отсутствуют какие-либо предвзятые предубеждения, но их может быть сложнее реализовать, иногда гораздо сложнее.

TimeVariant
источник
5

Непараметрическая статистика имеет свои проблемы! Одним из них является акцент на проверке гипотез, часто нам нужны оценки и доверительные интервалы, и получение их в сложных моделях с непараметрическими параметрами является сложным. Об этом есть очень хороший пост в блоге с обсуждением на http://andrewgelman.com/2015/07/13/dont-do-the-wilcoxon/ Обсуждение ведет к этому другому сообщению, http: // notstatschat. tumblr.com/post/63237480043/rock-paper-scissors-wilcoxon-test , который рекомендуется для совершенно другой точки зрения на Уилкоксона. Короткая версия: Уилкоксон (и другие ранговые тесты) может привести к нетранзитивности.

Къетил б Халворсен
источник
4
Я не уверен, что транзитивность является конечной целью. И вы можете инвертировать тест Уилкоксона, чтобы получить очень надежный и полезный доверительный интервал оценщика местоположения.
Фрэнк Харрелл
2
Нетранзитивность имеет свои особенности в причинно-следственном моделировании, но я не думаю, что это действительно проблема для простых двух тестов ассоциации. Кроме того, я не вижу различий в проверке гипотез / оценке / доверительных интервалах между непараметрическими и параметрическими методами. Иногда при надежной оценке вы используете рабочую вероятностную модель, чтобы соответствующая параметрическая оценка содержала значимую сводку данных (даже если она не является правильной вероятностной моделью как таковой). Возможно, вы можете расширить этот ответ?
AdamO
2
Обычно для теста Уилкоксона делаются некоторые дополнительные предположения, например, стохастическое доминирование одной группы над другой, что в случае истинного восстановления транзитивности.
Scortchi - Восстановить Монику
3

Я бы сказал, что непараметрическая статистика более применима в том смысле, что она делает меньше предположений, чем параметрическая статистика.

Тем не менее, если использовать параметрическую статистику и основные допущения будут выполнены, то параметрическая статистика будет более мощной, чем непараметрическая.


источник
2

Параметрическая статистика часто является способом включения внешних [данных] знаний. Например, вы знаете, что распределение ошибок является нормальным, и эти знания были получены либо из предыдущего опыта, либо из других соображений, а не из набора данных. В этом случае, предполагая нормальное распределение, вы включаете эти внешние знания в свои оценки параметров, что должно улучшить ваши оценки.

По твоим часам аналогия. В наши дни почти все часы водонепроницаемы, за исключением специальных изделий с украшениями или необычных материалов, таких как дерево. Причина их носить именно так: они особенные. Если вы имели в виду водонепроницаемость, то многие наручные часы не являются водонепроницаемыми. Причиной их ношения является их назначение: вы не наденете часы для дайверов со свитой и галстуком. Кроме того, в наши дни многие часы имеют открытую заднюю часть, так что вы можете наслаждаться просмотром механизма сквозь кристалл. Естественно, эти часы обычно не являются водонепроницаемыми.

Аксакал
источник
1
Мне нравится эта метафора! Я помню, как один профессор сказал нам, что мы должны попробовать разные статистические методы для одной и той же вещи, чтобы увидеть, сможем ли мы получить одинаковые результаты.
Глубокий север
2

Это не сценарий проверки гипотез, но он может быть хорошим примером для ответа на ваш вопрос: давайте рассмотрим кластерный анализ. Существует много «непараметрических» методов кластеризации, таких как иерархическая кластеризация, K-средства и т. Д., Но проблема всегда заключается в том, как оценить, является ли ваше решение для кластеризации «лучшим», чем другое возможное решение (и часто существует множество возможных решений) , Каждый алгоритм дает вам лучшее, что он может получить, однако как вы узнаете, что нет ничего лучше ...? Теперь есть также параметрические подходы к кластеризации, так называемые кластеризация на основе моделей., как модели конечных смесей. С помощью FMM вы строите статистическую модель, описывающую распределение ваших данных, и встраиваете ее в данные. Когда у вас есть модель, вы можете оценить, насколько вероятны ваши данные для данной модели, вы можете использовать тесты отношения правдоподобия, сравнить AIC и использовать несколько других методов для проверки соответствия модели и сравнения модели. Алгоритмы непараметрической кластеризации просто группируют данные, используя некоторые критерии сходства, в то время как использование FMM позволяет вам описывать и пытаться понять ваши данные, проверять, насколько они хороши, делать прогнозы ... На практике непараметрические подходы просты, работают из коробки и довольно хороши, в то время как FMM может быть проблематичным, но подходы, основанные на моделях, часто обеспечивают более богатый результат.

Тим
источник
2

Предсказания и прогнозирование новых данных часто очень сложно или невозможно для непараметрических моделей. Например, я могу спрогнозировать количество гарантийных претензий в течение следующих 10 лет, используя модель выживания Вейбулла или Логнормала, однако это невозможно при использовании модели Кокса или Каплана-Мейера.

Изменить: Позвольте мне быть немного более ясным. Если у компании есть дефектный продукт, то она часто заинтересована в прогнозировании будущей нормы гарантийных требований и CDF на основе текущих гарантийных требований и данных о продажах. Это может помочь им решить, нужен ли отзыв. Я не знаю, как вы делаете это, используя непараметрическую модель.

лощина
источник
7
Позволю себе не согласиться. Вы можете использовать модель Кокса для оценки квантилей, среднего (если наибольшее значение Y не подвергнуто цензуре) и всевозможных вероятностей. Хотя невозможность прогнозирования за пределами диапазона данных является проблемой (как вы упомянули), но вы можете опасно экстраполировать.
Фрэнк Харрелл
@FrankHarrell Да, хороший момент, всегда нужно быть осторожным при экстраполяции.
Глен
А как насчет случайного леса, глубокого обучения или SVM? Они побеждают большинство, если не все параметрические методы прогнозирования.
en1
2
За исключением попыток и принятия дерева решений выучить диагональную границу
bill_e
1

Я искренне верю, что нет правильного ответа на этот вопрос. Судя по приведенным ответам, все согласны с тем, что параметрические тесты являются более мощными, чем непараметрические эквиваленты. Я не буду оспаривать эту точку зрения, но я вижу ее скорее как гипотетическую, а не фактическую точку зрения, поскольку в школах этому явно не учат, и ни один рецензент никогда не скажет вам «ваша статья была отклонена, поскольку вы использовали непараметрические тесты». Этот вопрос касается того, на что мир статистики не может дать четкого ответа, но воспринимает это как должное.

Мое личное мнение таково, что предпочтение либо параметрического, либо непараметрического больше связано с традицией, чем с чем-либо еще (из-за отсутствия лучшего термина). Параметрические методы тестирования и прогнозирования были первыми и имеют долгую историю, поэтому их нелегко полностью игнорировать. Предсказание, в частности, имеет ряд впечатляющих непараметрических решений, которые в настоящее время широко используются в качестве инструмента первого выбора. Я думаю, что это одна из причин того, что методы машинного обучения, такие как нейронные сети и деревья решений, которые являются непараметрическими по своей природе, приобрели широкую популярность в последние годы.

Digio
источник
3
3/π95%
«Консенсус» означает «общее согласие», а не мое личное мнение.
Digio
2
Я не имел в виду, представляло ли это утверждение вашу личную точку зрения или коллективную мудрость других, а просто указывал, что утверждение верно только в том случае, если выполняются необходимые условия для параметрического теста . Когда условия не выполняются, это может больше не иметь место, когда «параметрические тесты являются более мощными, чем непараметрические», и фактически может иметь место обратное (иногда с очень большим запасом).
Серебряная
Туше! ..... +1
Digio
0

Это вопрос статистической власти. Непараметрические тесты обычно имеют более низкую статистическую мощность, чем их параметрические аналоги.

Скрытая Марковская Модель
источник
6
Параметрические испытания будут иметь большую мощность, когда их предположения будут выполнены. Когда их предположения не выполняются, непараметрические тесты могут быть более мощными.
gung - Восстановить Монику
3
Этот ответ очень короткий, и мощность обсуждалась в предыдущих ответах. Не могли бы вы немного расширить его?
Scortchi - Восстановить Монику
4
Прирост мощности при параметрических испытаниях незначителен по сравнению с потерями мощности, которые они испытывают, когда их предположения не выполняются.
Фрэнк Харрелл
Фрэнк, это зависит от теста, некоторые тесты более устойчивы к нарушениям своих предположений.
Скрытая Марковская модель
0

Много хороших ответов уже есть, но есть некоторые причины, которые я не видел, упомянутые:

  1. Дружественные. В зависимости от вашей аудитории, параметрический результат может быть гораздо более знакомым, чем примерно эквивалентный непараметрический. Если оба дают схожие выводы, то знакомство это хорошо.

  2. Простота. Иногда параметрический тест проще выполнить и отчитаться. Некоторые непараметрические методы очень требовательны к компьютеру. Конечно, компьютеры стали намного быстрее, и алгоритмы тоже улучшились, но ... данные стали "больше".

    1. Иногда то, что обычно является недостатком параметрического теста, на самом деле является преимуществом, хотя это характерно для конкретных пар тестов. Например, я, как правило, фанат квантильной регрессии, так как она делает меньше предположений, чем обычные методы. Но иногда вам действительно нужно оценить среднее значение, а не среднее значение.
Питер Флом - Восстановить Монику
источник