У меня такое чувство, что его, возможно, спросили в другом месте, но не совсем с тем типом базового описания, которое мне нужно. Я знаю, что непараметрический метод основан на медиане, а не на средстве для сравнения ... чего-то. Я также считаю, что это зависит от «степеней свободы» (?) Вместо стандартного отклонения. Поправь меня, если я ошибаюсь.
Я провел довольно хорошее исследование, или я так подумал, пытаясь понять концепцию, что за этим стоит, что на самом деле означают результаты теста и / или что вообще делать с результатами теста; однако никто, кажется, никогда не рискнул в эту область.
Для простоты давайте придерживаемся U-критерия Манна-Уитни, который, как я заметил, довольно популярен (и, по-видимому, также неправильно используется и используется слишком много для того, чтобы заставить свою «квадратную модель в круглую дыру»). Если вы хотите описать и другие тесты, не стесняйтесь, хотя я чувствую, как только я понимаю один, я могу понять другие аналогичным образом в отношении различных t-тестов и т. Д.
Допустим, я запустил непараметрический тест с моими данными и получил этот результат обратно:
2 Sample Mann-Whitney - Customer Type
Test Information
H0: Median Difference = 0
Ha: Median Difference ≠ 0
Size of Customer Large Small
Count 45 55
Median 2 2
Mann-Whitney Statistic: 2162.00
p-value (2-sided, adjusted for ties): 0.4156
Я знаком с другими методами, но что здесь отличается? Должны ли мы хотеть, чтобы значение p было ниже, чем 0,05? Что означает «статистика Манна-Уитни»? Есть ли в этом смысл? Эта информация просто подтверждает или не подтверждает, что определенный источник данных, который у меня есть, должен или не должен использоваться?
У меня есть достаточный опыт работы с регрессией и основами, но мне очень любопытно, что это за «особые» непараметрические вещи, которые, я знаю, будут иметь свои недостатки.
Только представь, что я пятиклассник, и посмотри, сможешь ли ты мне это объяснить.
Ответы:
Вряд ли какие-либо непараметрические тесты действительно "полагаются" на медианы в этом смысле. Я могу думать только о паре ... и единственное, от чего я ожидаю, что вы, вероятно, даже услышите, будет тест на знак.
Если бы они полагались на медианы, вероятно, это было бы для сравнения медиан. Но - несмотря на то, что ряд источников пытаются вам рассказать, - тесты, такие как тест со знаком ранга, или критерий Уилкоксона-Манна-Уитни или Крускала-Уоллиса, на самом деле вовсе не являются проверкой медиан; если вы сделаете некоторые дополнительные предположения, вы можете рассматривать тесты Уилкоксона-Манна-Уитни и Крускала-Уоллиса как медианы, но при тех же допущениях (пока существуют средства распределения) вы можете одинаково рассматривать их как проверку средств ,
Фактическая оценка местоположения, относящаяся к тесту Знакового ранга, представляет собой медиану парных средних значений в выборке, а оценку Уилкоксона-Манна-Уитни (и косвенно в Крускале-Уоллисе) - медиану парных различий между выборками. ,
Большинство непараметрических тестов не имеют «степеней свободы», хотя их распределение меняется в зависимости от размера выборки, и вы можете считать, что это несколько сродни степеням свободы в том смысле, что таблицы меняются в зависимости от размера выборки. Образцы, конечно, сохраняют свои свойства и имеют n степеней свободы в этом смысле, но степени свободы в распределении тестовой статистики обычно не являются тем, что нас интересует. Может случиться так, что у вас есть что-то более похожее на степени свободы - например, вы наверняка могли бы привести аргумент, что у Крускала-Уоллиса есть степени свободы в основном в том же смысле, что и хи-квадрат, но обычно на него не смотрят таким образом (например, если кто-то говорит о степенях свободы Крускала-Уоллиса, они почти всегда будут означать
Хорошее обсуждение степеней свободы можно найти здесь /
Я не уверен, что вы имеете в виду под этим.
Я мог бы предложить несколько книг, таких как « Практическая непараметрическая статистика» Коновера , и, если вы можете ее получить, книгу Нейва и Уортингтона (« Тесты без распространения» ), но есть много других - например, Мараскуило и МакСвини, Холландер и Вульф или книга Дэниела. Я предлагаю вам прочитать, по крайней мере, 3 или 4 из тех, которые говорят вам лучше всего, предпочтительно те, которые объясняют вещи настолько по-разному, насколько это возможно (это будет означать, по крайней мере, чтение нескольких из 6 или 7 книг, чтобы найти, скажем, 3, которые подходят).
Это то, что озадачило меня в вашем утверждении «никто, кажется, никогда не пойдет в эту область» - многие люди, использующие эти тесты, «рискуют в эту область», о которой вы говорили.
Я бы сказал, что непараметрические тесты, как правило, недоиспользуются (в том числе Уилкоксона-Манна-Уитни) - особенно тесты перестановки / рандомизации, хотя я не обязательно буду оспаривать, что они часто используются неправильно (как и параметрические, даже тем более).
[Надрез]
Какие еще методы вы имеете в виду? С чем вы хотите, чтобы я сравнил это?
Изменить: Вы упоминаете регрессию позже; Я предполагаю, что вы знакомы с t-тестом из двух выборок (поскольку это действительно особый случай регрессии).
При допущениях для обычного t-критерия с двумя выборками нулевая гипотеза гласит, что две популяции идентичны, в отличие от альтернативы, в которой одно из распределений сместилось. Если вы посмотрите на первый из двух наборов гипотез Уилкоксона-Манна-Уитни, приведенных ниже, то, что здесь проверяется, почти идентично; просто t-критерий основан на предположении, что выборки происходят из одинаковых нормальных распределений (кроме возможного смещения местоположения). Если нулевая гипотеза верна, а сопутствующие предположения верны, тестовая статистика имеет t-распределение. Если альтернативная гипотеза верна, то тест-статистика с большей вероятностью принимает значения, которые не выглядят согласующимися с нулевой гипотезой, но выглядят согласующимися с альтернативой - мы сосредоточимся на наиболее необычном,
Ситуация очень похожа на Уилкоксона-Манна-Уитни, но она несколько иначе измеряет отклонение от нуля. На самом деле, когда предположения t-критерия верны *, он почти так же хорош, как и наилучший из возможных (т. Е. T-критерий).
* (что на практике никогда не бывает, хотя на самом деле это не такая большая проблема, как кажется)
Действительно, можно считать Уилкоксона-Манна-Уитни эффективным «t-тестом», выполняемым в рядах данных - хотя тогда он не имеет t-распределения; статистика представляет собой монотонную функцию t-статистики из двух выборок, вычисляемой по разрядам данных, поэтому она индуцирует одинаковое упорядочение ** в пространстве выборок (то есть «t-критерий» для рангов - выполняется соответствующим образом - будет генерировать те же p-значения, что и Уилкоксон-Манн-Уитни), поэтому он отвергает точно такие же случаи.
** (строго, частичное упорядочение, но давайте оставим это в стороне)
[Можно подумать, что только использование рангов отбрасывает много информации, но когда данные берутся из нормальных групп населения с одинаковой дисперсией, почти вся информация о смещении местоположения находится в структуре рангов. Фактические значения данных (в зависимости от их рангов) добавляют к этому очень мало дополнительной информации. Если вы пойдете тяжелее хвоста, чем обычно, то вскоре у теста Уилкоксона-Манна-Уитни появится лучшая сила, а также сохранится его номинальный уровень значимости, так что «дополнительная» информация над рангами в конечном итоге станет не просто неинформативной, а в некоторых смысл, вводящий в заблуждение. Тем не менее, почти симметричная тяжеловесность является редкой ситуацией; на практике вы часто видите асимметрию.]
Основные идеи очень похожи, р-значения имеют одинаковую интерпретацию (вероятность результата как, или более экстремальную, если нулевая гипотеза была верна) - вплоть до интерпретации сдвига местоположения, если вы сделаете необходимые предположения (см. обсуждение гипотез в конце этого поста).
Если бы я выполнил ту же симуляцию, что и на графиках выше для t-теста, графики были бы очень похожи - шкала по осям x и y выглядела бы по-другому, но основной вид был бы похожим.
Вы не должны ничего "хотеть" там. Идея состоит в том, чтобы выяснить, отличаются ли выборки (в смысле местоположения) от случайных, а не «желать» определенного результата.
Если я говорю : «Можете ли вы пойти посмотреть , что цвет автомобиля Raj является пожалуйста?», Если я хочу объективную оценку этого я не хочу , чтобы вы собираетесь «Человек, я очень, очень надеюсь , что это синий! Он просто должен быть синий». Лучше просто посмотреть, какова ситуация, а не вдаваться в слова «мне нужно, чтобы это было что-то».
Если выбранный вами уровень значимости равен 0,05, то вы отклоните нулевую гипотезу, когда значение p будет ниже 0,05. Но отказ от отклонения, когда у вас достаточно большой размер выборки, чтобы почти всегда обнаружить соответствующие размеры эффекта, по крайней мере, так же интересен, потому что он говорит, что любые различия, которые существуют, небольшие.
Статистика Манна-Уитни .
Это действительно имеет смысл только по сравнению с распределением значений, которое может быть принято, когда нулевая гипотеза верна (см. Диаграмму выше), и это зависит от того, какое из нескольких конкретных определений может использовать любая конкретная программа.
Обычно вас не интересует точное значение как таковое, но где оно лежит в нулевом распределении (является ли оно более или менее типичным для значений, которые вы должны увидеть, когда нулевая гипотеза верна, или является ли она более экстремальной)
Этот тест ничего не говорит о «конкретном источнике данных, который у меня есть, или не следует использовать».
Смотрите мое обсуждение двух способов взглянуть на гипотезы WMW ниже.
В непараметрических тестах нет ничего особенно особенного (я бы сказал, что «стандартные» во многих отношениях даже более базовы, чем типичные параметрические тесты) - при условии, что вы действительно понимаете проверку гипотез.
Это, вероятно, тема для другого вопроса, однако.
Существует два основных подхода к проверке гипотез Уилкоксона-Манна-Уитни.
i) Один из них состоит в том, чтобы сказать: «Меня интересует смена местоположения, то есть, согласно нулевой гипотезе, две популяции имеют одинаковое (непрерывное) распределение по сравнению с альтернативой, согласно которой одна« смещена »вверх или вниз относительно Другие"
Уилкоксон-Манн-Уитни работает очень хорошо, если вы сделаете это предположение (что ваша альтернатива - просто смена местоположения)
В этом случае критерий Уилкоксона-Манна-Уитни на самом деле является тестом на медианы ... но в равной степени это тест на средние значения или даже любую другую статистику, эквивалентную местоположению (например, 90-й процентиль, или усеченные средние, или любое число другие вещи), так как все они одинаково подвержены сдвигу местоположения.
Приятно то, что это очень легко интерпретировать - и легко сгенерировать доверительный интервал для этого сдвига местоположения.
Тем не менее, критерий Уилкоксона-Манна-Уитни чувствителен к другим видам различий, кроме сдвига местоположения.
источник
Предположим, мы с тобой тренируем трековые команды. Наши спортсмены происходят из одной и той же школы, имеют одинаковый возраст и тот же пол (т. Е. Они взяты из одного и того же населения), но я утверждаю, что обнаружил революционную новую тренировочную систему, которая заставит членов моей команды бегать намного быстрее, чем твое. Как я могу убедить вас, что это действительно работает?
У нас есть гонка.
После этого я сажусь и вычисляю среднее время для членов моей команды и среднее время для членов вашей команды. Я буду претендовать на победу, если среднее время для моих спортсменов не только быстрее, чем среднее для вас, но и разница также велика по сравнению со «разбросом» или стандартным отклонением наших результатов.
«Но, Мэтт, - жалуетесь вы, - это не совсем справедливо. Наши команды очень похожи, но вы - по чистой случайности - оказались самым быстрым бегуном в округе. Он не в той же лиге, что и все». остальное, он практически фанат Природы. Он финишировал за 3 минуты до следующего самого быстрого финишера, что значительно сокращает ваше среднее время, но остальные участники довольно равномерно смешаны. Вместо этого давайте посмотрим на порядок финиша. Если ваш метод действительно работает, более ранние финишеры должны быть в основном из вашей команды, но если это не так, то финишный порядок должен быть довольно случайным. Это не придает вашей суперзвезде излишнего веса! "
источник
Вы просили исправить ошибки, если ошиблись. Вот некоторые комментарии под этим заголовком, чтобы дополнить положительные предложения @Peter Flom.
«непараметрическое значение опирается на медиану, а не на среднее»: часто на практике, но это не определение. Несколько непараметрических тестов (например, хи-квадрат) не имеют ничего общего с медианой.
полагается на степени свободы вместо стандартного отклонения; это очень смущает Идея степеней свободы ни в коем случае не является альтернативой стандартному отклонению; Степени свободы как идея применяются прямо в статистике.
«конкретный источник данных, который у меня есть, должен или не должен использоваться»: этот вопрос не имеет ничего общего с тестом значимости, который вы применили, который примерно равен разнице между подмножествами данных и сформулирован с точки зрения разницы между медианами.
источник
Вы «хотите» те же самые вещи из p-значения, которые вы хотите в любом другом тесте.
Статистика U - это результат расчета, также как и статистика t, отношение шансов, статистика F или что у вас есть. В формуле можно найти много мест. Это не очень интуитивно понятно, но и другие тестовые статистические данные не используются, пока вы не привыкнете к ним (мы присваиваем значению 2 значительный диапазон, потому что видим их все время).
Остальная часть вывода в вашем блок-тексте должна быть четкой.
Для более общего введения в непараметрические тесты я повторяю @NickCox .... получаю хорошую книгу. Непараметрический просто означает «без параметров»; Есть много непараметрических тестов и статистики для самых разных целей.
источник
В ответ на недавно закрытый вопрос , это касается и выше. Ниже приводится цитата из классических статистических тестов Брэдли без распределения (1968, с. 15–16), которая, на мой взгляд, является довольно длинным объяснением.
источник