Тесты Вальда, отношения правдоподобия и множителя Лагранжа в контексте оценки максимального правдоподобия асимптотически эквивалентны. Однако для небольших выборок они имеют тенденцию к значительному расхождению, а в некоторых случаях приводят к различным выводам.
Как они могут быть ранжированы в соответствии с вероятностью отклонения нуля? Что делать, если тесты дают противоречивые ответы? Вы можете просто выбрать тот, который дает желаемый ответ, или есть «правило» или «руководство» относительно того, как действовать дальше?
Ответы:
Я не знаю литературы в этой области достаточно хорошо, чтобы предложить прямой ответ. Тем не менее, мне кажется, что если три теста отличаются, то это указывает на то, что вам необходимо дальнейшее исследование / сбор данных, чтобы окончательно ответить на ваш вопрос.
Вы также можете посмотреть на этот поиск Google Scholar
Обновление в ответ на ваш комментарий:
Если сбор дополнительных данных невозможен, существует один обходной путь. Проведите симуляцию, которая отражает вашу структуру данных, размер выборки и предложенную модель. Вы можете установить параметры для некоторых предварительно заданных значений. Оцените модель, используя полученные данные, а затем проверьте, какой из трех тестов указывает на правильную модель. Такое моделирование даст некоторые рекомендации относительно того, какой тест использовать для ваших реальных данных. Имеет ли это смысл?
источник
Я не буду давать однозначного ответа с точки зрения рейтинга трех. Постройте 95% CI вокруг ваших параметров на основе каждого, и если они радикально отличаются, то ваш первый шаг должен быть копать глубже. Преобразование ваших данных (хотя LR будет инвариантным), регуляризация вашей вероятности и т. Д. В крайнем случае, я бы, вероятно, выбрал тест LR и связанный с ним CI. Грубый аргумент следует.
LR инвариантен при выборе параметризации (например, T против логита (T)). Статистика Вальда предполагает нормальность (T - T0) / SE (T). Если это не удается, ваш КИ плох. Хорошая вещь о LR состоит в том, что вам не нужно находить преобразование f (T) для удовлетворения нормальности. 95% ДИ на основе Т будет таким же. Кроме того, если ваша вероятность не квадратична, симметричный 95-процентный доверительный интервал Wald может быть странным, поскольку он может предпочесть значения с более низкой вероятностью, чем значения с более высокой вероятностью.
Еще один способ думать о LR состоит в том, что он использует больше информации, в широком смысле, из функции правдоподобия. Вальд основан на MLE и кривизне вероятности на нуле. Оценка основана на нуле наклона и кривизне на нуле. LR оценивает вероятность при нулевом значении и вероятность при объединении нулевого и альтернативного и объединяет оба. Если вы вынуждены выбрать один, это может быть интуитивно удовлетворительным для выбора LR.
Имейте в виду, что есть другие причины, такие как удобство или расчет, чтобы выбрать Вальд или Оценка. Wald является самым простым, и, учитывая многовариантный параметр, если вы тестируете установку множества отдельных в 0, есть удобные способы приблизить вероятность. Или, если вы хотите добавить переменную за раз из некоторого набора, вы можете не захотеть максимизировать вероятность для каждой новой модели, и реализация тестов Score предлагает некоторое удобство здесь. Wald и Score становятся привлекательными, поскольку ваши модели и вероятность становятся непривлекательными. (Но я не думаю, что это то, что вы спрашивали, так как у вас есть все три доступны ...)
источник