Могу ли я использовать тесты перестановок, чтобы избежать проблемы множественного сравнения в контексте пропорций?

9

Я оцениваю эффективность 5 различных методов для прогнозирования конкретного двоичного результата (назовите их «Успех» и «Неудача»). Данные выглядят так:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Я хотел бы провести тест среди этих 5 методов, чтобы оценить относительное превосходство методов. Другими словами, я хочу упорядочить методы в порядке производительности как метод 1> метод 2> ... метод 5. Чтобы избежать проблемы множественных сравнений, я планирую провести тест перестановки по следующим строкам:

Шаг 1: Объедините все данные так, чтобы общий размер выборки составил 114 с общим 37 успехами.

Шаг 2: Случайно разделить данные на 5 групп с соответствующими размерами выборки 28, 19, 24, 21 и 22.

Шаг 3: Увеличьте счетчик, если наблюдаемый порядок Percent_Success из шага 2 соответствует порядку моих данных.

Шаг 4: Повторите шаги 2 и 3 много раз (скажем, 10000).

Желаемое значение p = Конечное значение счетчика / 10000.

Вопросов:

  1. Вышеописанная процедура в порядке?

  2. Есть ли в R что-нибудь, что позволило бы мне выполнить вышеуказанный тест?

  3. Любые предложения по улучшению или альтернативные методы будут полезны.

Sxv
источник
@whuber У вас есть R код, возможно, чтобы рассказать о том, как вы это сделали?
B_Miner

Ответы:

6

Предлагаемая процедура не отвечает на ваш вопрос. Он только оценивает частоту, по нулевой гипотезе, с которой ваш наблюдаемый порядок будет происходить. Но при этом нуле, в хорошем приближении, все ордера одинаково вероятны, поэтому ваш расчет даст значение, близкое к 1/5! = около 0,83%. Это ничего не говорит нам.

Еще одно очевидное наблюдение: порядок, основанный на ваших данных, составляет 4> 5> 3> 2> 1. Ваши оценки их относительного превосходства составляют 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% и т. Д.

Теперь предположим, что ваш вопрос касается степени, в которой любая из различий в пропорциях может быть случайной при нулевой гипотезе о разнице. Вы действительно можете оценить эти десять вопросов с помощью теста перестановки. Однако на каждой итерации необходимо отслеживать десять показателей относительной разницы в пропорциях, а не один глобальный показатель общего порядка.(52)=10

Для ваших данных симуляция с 100 000 итераций дает результаты

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Различия в пропорциях между методом 4 и методами 1, 2 и 3 маловероятны из-за случайности (с оценочными вероятностями 0,03%, 0,37%, 0,88% соответственно), но могут существовать и другие различия. Есть некоторые доказательства (р = 2,44%) различия между методами 1 и 5. Таким образом, кажется, вы можете быть уверены, что различия в пропорциях, связанных с отношениями 4> 3, 4> 2 и 4> 1, являются положительными и, скорее всего, такова разница в 5> 1.

Whuber
источник
1
Это гораздо лучший ответ, чем мой! Боюсь, я не смог правильно прочитать вопрос (шаг 3 в частности). Я думал об удалении своего ответа, но я придерживаюсь большей интерпретируемости байесовского подхода, поскольку именно рейтинг представляет интерес.
остановка
Просто чтобы убедиться, что я правильно понимаю - индикатор, который отслеживает относительную разницу между методом 4 и 5, будет обновляться всякий раз, когда мы увидим разницу, превышающую 0,21.
SXV
@sxv Да, верно. (Ну, на самом деле я использовал больше или равно. Связи случаются. Я думаю, что включение равенства между значимыми результатами - это правильная вещь, потому что мы оцениваем вероятность того, что различия, такие большие или большие, могут произойти случайно.)
whuber
1

Предложенная вами процедура теста перестановки Монте-Карло даст значение p для проверки нулевой гипотезы о том, что вероятность успеха одинакова для всех методов. Но есть небольшая причина для проведения теста перестановки Монте-Карло здесь, когда соответствующий тест точной перестановки вполне выполним. Это точный тест Фишера (ну, некоторые люди резервируют это имя для таблиц 2x2, в этом случае это условный точный тест). Я только что ввел ваши данные в Stata и -tabi ..., точнее - дал p = .0067 (для сравнения, критерий хи-квадрат Пирсона дает p = .0059). Я уверен, что в R есть эквивалентная функция, которую скоро добавят гуру R.

Если вы действительно хотите посмотреть на ранжирование, вам лучше всего использовать байесовский подход, поскольку он может дать простую интерпретацию как вероятность того, что каждый метод действительно лучший, второй лучший, третий лучший, .... Конечно, это связано с ценой того, что вы должны ставить приоритеты в своих вероятностях. Оценка максимального правдоподобия рангов - это просто наблюдаемое упорядочение, но трудно определить количественно неопределенность в ранжировании в рамках частых подходов так, чтобы это было легко интерпретировать, насколько я знаю.

Я понимаю, что не упоминал многократных сравнений, но я просто не вижу, как это происходит.

универсальный
источник
2
Точный критерий Фишера и хи-квадрат Пирсона проверяют нулевую гипотезу о том, что все 5 методов одинаково эффективны против альтернативы, что по крайней мере 1 лучше, чем другие. Значения р говорят мне, что ноль отклоняется. Итак, если я хочу выяснить, какие методы на самом деле лучше, чем другие, мне не придется делать 10 попарных сравнений?
SXV