Может ли кто-нибудь объяснить мне, почему кто-то выбрал бы параметрический непараметрический статистический метод для проверки гипотез или регрессионного анализа?
На мой взгляд, это все равно, что заняться рафтингом и выбрать не водостойкие часы, потому что вы можете их не намочить. Почему бы не использовать инструмент, который работает в каждом случае?
Ответы:
Редко, если когда-либо параметрический тест и непараметрический тест на самом деле имеют один и тот же нуль. Параметрический тест проверяет среднее значение распределения, предполагая, что существуют первые два момента. Тест суммы рангов Уилкоксона не предполагает никаких моментов и вместо этого проверяет равенство распределений. Его подразумеваемый параметр - странный функционал распределений, вероятность того, что наблюдение из одной выборки ниже, чем наблюдение из другой. Вы можете говорить о сравнениях между двумя тестами в рамках полностью определенного нулевого идентичного распределения ... но вы должны признать, что эти два теста проверяют разные гипотезы.T
Информация, которую приносят параметрические тесты вместе с их допущением, помогает повысить эффективность тестов. Конечно, эта информация должна быть правильной, но в наши дни мало областей человеческих знаний, где такой предварительной информации не существует. Интересное исключение, которое прямо говорит: «Я не хочу ничего предполагать» - это зал судебных заседаний, где непараметрические методы продолжают пользоваться широкой популярностью, и это имеет смысл для приложения. Вероятно, есть веская причина, полагает каламбур, что Филлип Гуд написал хорошие книги как по непараметрической статистике, так и по статистике в зале суда .
Существуют также ситуации тестирования, когда у вас нет доступа к микроданным, необходимым для непараметрического теста. Предположим, вас попросили сравнить две группы людей, чтобы определить, является ли один из них более страдающим ожирением, чем другой. В идеальном мире у вас будут измерения роста и веса для всех, и вы можете сформировать тест перестановки, рассортирующий по росту. В менее чем идеальном (то есть в реальном) мире у вас может быть только средний рост и средний вес в каждой группе (или могут быть некоторые диапазоны или отклонения этих характеристик поверх выборочных средних). Тогда лучше всего рассчитать средний ИМТ для каждой группы и сравнить их, если у вас есть только средства; или предположить двумерное нормальное значение для роста и веса, если у вас есть средние значения и отклонения (вам, вероятно, придется взять корреляцию из некоторых внешних данных, если они не пришли с вашими образцами),
источник
Как писали другие: если выполнены предварительные условия, ваш параметрический тест будет более мощным, чем непараметрический.
По аналогии с часами, не водостойкий был бы гораздо более точным, если бы он не промок. Например, ваши водонепроницаемые часы могут быть отключены на один час в любом случае, тогда как не водостойкие часы будут точными ... и вам нужно сесть на автобус после поездки на плоту. В таком случае может иметь смысл взять с собой не водостойкие часы и убедиться, что они не промокнут.
Бонус: непараметрические методы не всегда просты. Да, альтернатива тесту перестановки проста. Но непараметрическую альтернативу смешанной линейной модели с множеством двусторонних взаимодействий и вложенных случайных эффектов установить немного сложнее, чем простой вызов
nlme()
. Я сделал это, используя тесты перестановок, и по моему опыту, значения p параметрических и перестановочных тестов всегда были довольно близки, даже если остатки от параметрической модели были совершенно ненормальными. Параметрические тесты часто удивительно устойчивы к отклонениям от своих предварительных условий.источник
Хотя я согласен с тем, что во многих случаях непараметрические методы являются благоприятными, существуют также ситуации, в которых параметрические методы более полезны.
Давайте сосредоточимся на обсуждении «t-критерия с двумя выборками против критерия суммы рангов Уилкоксона» (в противном случае мы должны написать целую книгу).
источник
В тестировании гипотез непараметрические тесты часто тестируют разные гипотезы, что является одной из причин, почему нельзя всегда просто заменить непараметрический тест параметрическим.
источник
Полупараметрические модели имеют много преимуществ. Они предлагают такие тесты, как критерий Уилкоксона, как особый случай, но позволяют оценить коэффициенты воздействия, квантили, средние значения и вероятности превышения. Они распространяются на продольные и цензурированные данные. Они устойчивы в Y-пространстве и инвариантны к преобразованиям, за исключением оценки средних. См. Http://biostat.mc.vanderbilt.edu/rms ссылку на раздаточные материалы курса для подробного примера / тематического исследования.
источник
Среди множества предоставленных ответов я бы также обратил внимание на байесовскую статистику. Некоторые проблемы не могут быть решены только с помощью вероятностей. Частотник использует контрфактуальные рассуждения, где «вероятность» относится к альтернативным вселенным, а структура альтернативной вселенной не имеет смысла, если делать вывод о состоянии личности, например, о вине или невиновности преступника, или о том, является ли узким местом частота гена в виды, подвергшиеся значительному изменению окружающей среды, привели к его исчезновению. В байесовском контексте вероятность - это «вера», а не частота, которая может быть применена к тому, что уже ускорилось.
В настоящее время большинство байесовских методов требуют полного определения вероятностных моделей для предварительного и конечного результата. И большинство из этих вероятностных моделей являются параметрическими. В соответствии с тем, что говорят другие, они не обязательно должны быть точными для получения значимых сводок данных. «Все модели ошибочны, некоторые модели полезны».
Есть, конечно, непараметрические байесовские методы. В них много статистических морщин, и, вообще говоря, для полноценного использования требуются почти полные данные о населении.
источник
Единственная причина, по которой я отвечаю, несмотря на все приведенные выше точные ответы, заключается в том, что никто не обратил внимания на причину № 1, по которой мы используем параметрические тесты (по крайней мере, при анализе данных физики элементарных частиц). Потому что мы знаем параметризацию данных. Duh! Это такое большое преимущество. Вы сводите свои сотни, тысячи или миллионы точек данных к нескольким параметрам, которые вас интересуют, и описываете свое распределение. Они говорят вам основную физику (или любую науку, которая дает вам ваши данные).
Конечно, если вы не имеете представления о базовой плотности вероятности, у вас нет выбора: используйте непараметрические тесты. Непараметрические тесты имеют то преимущество, что в них отсутствуют какие-либо предвзятые предубеждения, но их может быть сложнее реализовать, иногда гораздо сложнее.
источник
Непараметрическая статистика имеет свои проблемы! Одним из них является акцент на проверке гипотез, часто нам нужны оценки и доверительные интервалы, и получение их в сложных моделях с непараметрическими параметрами является сложным. Об этом есть очень хороший пост в блоге с обсуждением на http://andrewgelman.com/2015/07/13/dont-do-the-wilcoxon/ Обсуждение ведет к этому другому сообщению, http: // notstatschat. tumblr.com/post/63237480043/rock-paper-scissors-wilcoxon-test , который рекомендуется для совершенно другой точки зрения на Уилкоксона. Короткая версия: Уилкоксон (и другие ранговые тесты) может привести к нетранзитивности.
источник
Я бы сказал, что непараметрическая статистика более применима в том смысле, что она делает меньше предположений, чем параметрическая статистика.
Тем не менее, если использовать параметрическую статистику и основные допущения будут выполнены, то параметрическая статистика будет более мощной, чем непараметрическая.
источник
Параметрическая статистика часто является способом включения внешних [данных] знаний. Например, вы знаете, что распределение ошибок является нормальным, и эти знания были получены либо из предыдущего опыта, либо из других соображений, а не из набора данных. В этом случае, предполагая нормальное распределение, вы включаете эти внешние знания в свои оценки параметров, что должно улучшить ваши оценки.
По твоим часам аналогия. В наши дни почти все часы водонепроницаемы, за исключением специальных изделий с украшениями или необычных материалов, таких как дерево. Причина их носить именно так: они особенные. Если вы имели в виду водонепроницаемость, то многие наручные часы не являются водонепроницаемыми. Причиной их ношения является их назначение: вы не наденете часы для дайверов со свитой и галстуком. Кроме того, в наши дни многие часы имеют открытую заднюю часть, так что вы можете наслаждаться просмотром механизма сквозь кристалл. Естественно, эти часы обычно не являются водонепроницаемыми.
источник
Это не сценарий проверки гипотез, но он может быть хорошим примером для ответа на ваш вопрос: давайте рассмотрим кластерный анализ. Существует много «непараметрических» методов кластеризации, таких как иерархическая кластеризация, K-средства и т. Д., Но проблема всегда заключается в том, как оценить, является ли ваше решение для кластеризации «лучшим», чем другое возможное решение (и часто существует множество возможных решений) , Каждый алгоритм дает вам лучшее, что он может получить, однако как вы узнаете, что нет ничего лучше ...? Теперь есть также параметрические подходы к кластеризации, так называемые кластеризация на основе моделей., как модели конечных смесей. С помощью FMM вы строите статистическую модель, описывающую распределение ваших данных, и встраиваете ее в данные. Когда у вас есть модель, вы можете оценить, насколько вероятны ваши данные для данной модели, вы можете использовать тесты отношения правдоподобия, сравнить AIC и использовать несколько других методов для проверки соответствия модели и сравнения модели. Алгоритмы непараметрической кластеризации просто группируют данные, используя некоторые критерии сходства, в то время как использование FMM позволяет вам описывать и пытаться понять ваши данные, проверять, насколько они хороши, делать прогнозы ... На практике непараметрические подходы просты, работают из коробки и довольно хороши, в то время как FMM может быть проблематичным, но подходы, основанные на моделях, часто обеспечивают более богатый результат.
источник
Предсказания и прогнозирование новых данных часто очень сложно или невозможно для непараметрических моделей. Например, я могу спрогнозировать количество гарантийных претензий в течение следующих 10 лет, используя модель выживания Вейбулла или Логнормала, однако это невозможно при использовании модели Кокса или Каплана-Мейера.
Изменить: Позвольте мне быть немного более ясным. Если у компании есть дефектный продукт, то она часто заинтересована в прогнозировании будущей нормы гарантийных требований и CDF на основе текущих гарантийных требований и данных о продажах. Это может помочь им решить, нужен ли отзыв. Я не знаю, как вы делаете это, используя непараметрическую модель.
источник
Я искренне верю, что нет правильного ответа на этот вопрос. Судя по приведенным ответам, все согласны с тем, что параметрические тесты являются более мощными, чем непараметрические эквиваленты. Я не буду оспаривать эту точку зрения, но я вижу ее скорее как гипотетическую, а не фактическую точку зрения, поскольку в школах этому явно не учат, и ни один рецензент никогда не скажет вам «ваша статья была отклонена, поскольку вы использовали непараметрические тесты». Этот вопрос касается того, на что мир статистики не может дать четкого ответа, но воспринимает это как должное.
Мое личное мнение таково, что предпочтение либо параметрического, либо непараметрического больше связано с традицией, чем с чем-либо еще (из-за отсутствия лучшего термина). Параметрические методы тестирования и прогнозирования были первыми и имеют долгую историю, поэтому их нелегко полностью игнорировать. Предсказание, в частности, имеет ряд впечатляющих непараметрических решений, которые в настоящее время широко используются в качестве инструмента первого выбора. Я думаю, что это одна из причин того, что методы машинного обучения, такие как нейронные сети и деревья решений, которые являются непараметрическими по своей природе, приобрели широкую популярность в последние годы.
источник
Это вопрос статистической власти. Непараметрические тесты обычно имеют более низкую статистическую мощность, чем их параметрические аналоги.
источник
Много хороших ответов уже есть, но есть некоторые причины, которые я не видел, упомянутые:
Дружественные. В зависимости от вашей аудитории, параметрический результат может быть гораздо более знакомым, чем примерно эквивалентный непараметрический. Если оба дают схожие выводы, то знакомство это хорошо.
Простота. Иногда параметрический тест проще выполнить и отчитаться. Некоторые непараметрические методы очень требовательны к компьютеру. Конечно, компьютеры стали намного быстрее, и алгоритмы тоже улучшились, но ... данные стали "больше".
источник