Я оцениваю эффективность 5 различных методов для прогнозирования конкретного двоичного результата (назовите их «Успех» и «Неудача»). Данные выглядят так:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Я хотел бы провести тест среди этих 5 методов, чтобы оценить относительное превосходство методов. Другими словами, я хочу упорядочить методы в порядке производительности как метод 1> метод 2> ... метод 5. Чтобы избежать проблемы множественных сравнений, я планирую провести тест перестановки по следующим строкам:
Шаг 1: Объедините все данные так, чтобы общий размер выборки составил 114 с общим 37 успехами.
Шаг 2: Случайно разделить данные на 5 групп с соответствующими размерами выборки 28, 19, 24, 21 и 22.
Шаг 3: Увеличьте счетчик, если наблюдаемый порядок Percent_Success из шага 2 соответствует порядку моих данных.
Шаг 4: Повторите шаги 2 и 3 много раз (скажем, 10000).
Желаемое значение p = Конечное значение счетчика / 10000.
Вопросов:
Вышеописанная процедура в порядке?
Есть ли в R что-нибудь, что позволило бы мне выполнить вышеуказанный тест?
Любые предложения по улучшению или альтернативные методы будут полезны.
Ответы:
Предлагаемая процедура не отвечает на ваш вопрос. Он только оценивает частоту, по нулевой гипотезе, с которой ваш наблюдаемый порядок будет происходить. Но при этом нуле, в хорошем приближении, все ордера одинаково вероятны, поэтому ваш расчет даст значение, близкое к 1/5! = около 0,83%. Это ничего не говорит нам.
Еще одно очевидное наблюдение: порядок, основанный на ваших данных, составляет 4> 5> 3> 2> 1. Ваши оценки их относительного превосходства составляют 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% и т. Д.
Теперь предположим, что ваш вопрос касается степени, в которой любая из различий в пропорциях может быть случайной при нулевой гипотезе о разнице. Вы действительно можете оценить эти десять вопросов с помощью теста перестановки. Однако на каждой итерации необходимо отслеживать десять показателей относительной разницы в пропорциях, а не один глобальный показатель общего порядка.(52)=10
Для ваших данных симуляция с 100 000 итераций дает результаты
Различия в пропорциях между методом 4 и методами 1, 2 и 3 маловероятны из-за случайности (с оценочными вероятностями 0,03%, 0,37%, 0,88% соответственно), но могут существовать и другие различия. Есть некоторые доказательства (р = 2,44%) различия между методами 1 и 5. Таким образом, кажется, вы можете быть уверены, что различия в пропорциях, связанных с отношениями 4> 3, 4> 2 и 4> 1, являются положительными и, скорее всего, такова разница в 5> 1.
источник
Предложенная вами процедура теста перестановки Монте-Карло даст значение p для проверки нулевой гипотезы о том, что вероятность успеха одинакова для всех методов. Но есть небольшая причина для проведения теста перестановки Монте-Карло здесь, когда соответствующий тест точной перестановки вполне выполним. Это точный тест Фишера (ну, некоторые люди резервируют это имя для таблиц 2x2, в этом случае это условный точный тест). Я только что ввел ваши данные в Stata и -tabi ..., точнее - дал p = .0067 (для сравнения, критерий хи-квадрат Пирсона дает p = .0059). Я уверен, что в R есть эквивалентная функция, которую скоро добавят гуру R.
Если вы действительно хотите посмотреть на ранжирование, вам лучше всего использовать байесовский подход, поскольку он может дать простую интерпретацию как вероятность того, что каждый метод действительно лучший, второй лучший, третий лучший, .... Конечно, это связано с ценой того, что вы должны ставить приоритеты в своих вероятностях. Оценка максимального правдоподобия рангов - это просто наблюдаемое упорядочение, но трудно определить количественно неопределенность в ранжировании в рамках частых подходов так, чтобы это было легко интерпретировать, насколько я знаю.
Я понимаю, что не упоминал многократных сравнений, но я просто не вижу, как это происходит.
источник