Учитывая мощь компьютеров в наши дни, есть ли причина для проведения теста хи-квадрат, а не для точного теста Фишера?

86

Учитывая, что в настоящее время программное обеспечение может так легко выполнять точный расчет теста Фишера , есть ли обстоятельства, когда теоретически или практически критерий хи-квадрат на самом деле предпочтительнее точного теста Фишера?

Преимущества точного теста Фишера включают в себя:

  • масштабирование до таблиц сопряженности больше 2х2 (т. е. любой таблицы r x c )
  • дает точное значение р
  • не нужно иметь минимальное ожидаемое количество ячеек, чтобы быть действительным
pmgjones
источник
10
Потому что это старая добрая классика. Вскоре он станет изысканным винтажным. После этого, когда люди восстанут против компьютеров, они будут жить второй молодостью.
ttnphns
7
Вы когда-нибудь пытались вычислить точную статистику теста Фишера на большой таблице? (Это занимает слишком много времени ...)
whuber
22
В дополнение к хорошим комментариям и ответам, которые вы уже получили, я думаю, что лучший вопрос - «Учитывая мощь компьютеров, почему бы не проводить тесты на симуляцию / перестановку все время?».
Питер Флом - Восстановить Монику
1
@whuber Я сделал (проприетарную) реализацию без (большого количества) таблиц в C ++. Он запускает тысячи значений P для чисел до 8 цифр в секундах.
Мишель де Рюйтер
1
@Michel Я имел в виду общее количество ячеек в таблице. Вычисление легко для таблиц 2 x 2, но по мере увеличения таблиц вычисления становятся обременительными.
whuber

Ответы:

61

Вы можете перевернуть вопрос. Так как обычный тест Пирсона почти всегда более точен, чем точный тест Фишера, и его гораздо быстрее вычислить, почему кто-то использует тест Фишера?χ2

Обратите внимание, что ошибочно то, что ожидаемые частоты ячеек должны превышать 5, чтобы Пирсона давала точные значенияТест является точным, если ожидаемые частоты ячеек превышают 1,0, если к статистике теста применяется очень простая коррекция .χ2PN1N


От R-help, 2009 :

Тесты Кэмпбелла, И. Чи-квадрата и Фишера-Ирвина по схеме «два на два» с рекомендациями для небольших выборок. Статистика в медицине 2007; 26 : 3661-3675. ( аннотация )

  • ... последнее издание книги Армитиджа рекомендует, чтобы корректировки непрерывности никогда не использовались для тестов хи-квадрат таблицы сопряженности;

  • Э. Пирсон - модификация критерия хи-квадрат Пирсона, отличающаяся от оригинала фактором (N-1) / N;

  • Кохран отметил, что число 5 в «ожидаемой частоте меньше 5» было произвольным;

  • Результаты опубликованных исследований могут быть обобщены следующим образом , для сравнительных испытаний:

    1. В тесте Йета по хи-квадрату частота ошибок типа I меньше номинальной, часто меньше половины номинальной;

    2. В тесте Фишера-Ирвина частота ошибок типа I меньше номинальной;

    3. В версии теста Хи-квадрата Пирсона коэффициенты ошибок типа I ближе к номинальному, чем критерий хи-квадрат Йейта и критерий Фишера-Ирвина, но в некоторых ситуациях ошибки типа I заметно превышают номинальное значение;

    4. Тест хи-квадрат 'N-1' ведет себя как вариант 'N' К. Пирсона, но тенденция к превышению номинальных значений уменьшается;

    5. Двусторонний критерий Фишера-Ирвин , используя правило Ирвина менее консервативны , чем метод удвоения односторонней вероятности;

    6. Тест среднего Фишера-Ирвина с удвоением односторонней вероятности работает лучше, чем стандартные версии теста Фишера-Ирвина, а метод среднего Р по правилу Ирвина работает еще лучше, когда фактические ошибки типа I приближаются к номинальным уровням. «;

  • сильная поддержка теста «N-1» при условии, что ожидаемые частоты превышают 1;

  • ошибка в тесте Фишера, основанная на предпосылке Фишера о том, что предельные итоги не содержат никакой полезной информации;

  • демонстрация их полезной информации в очень небольших размерах выборки;

  • Регулировка непрерывности Yate N / 2 является большой избыточной коррекцией и неуместна;

  • встречные аргументы существуют для использования рандомизированных тестов в рандомизированных исследованиях;

  • расчеты наихудших случаев;

  • общая рекомендация : используйте критерий хи-квадрат 'N-1', когда все ожидаемые частоты равны, по крайней мере, 1, в противном случае используйте тест Фишера-Ирвина, используя правило Ирвина для двусторонних тестов, принимая таблицы с любого хвоста как вероятные или менее, как это наблюдается; см. письмо к редактору Антонио Андрес и ответ автора в 27: 1791-1796; 2008.


Кранс Г.Г., Шустер Дж. Насколько консервативен точный тест Фишера? Количественная оценка сравнительного биномиального испытания с двумя образцами. Статистика в медицине 2008; 27 : 3598-3611. ( аннотация )

  • ... первая статья, которая действительно количественно оценила консервативность теста Фишера;

  • «Размер испытания FET был менее 0,035 для почти всех размеров выборки до 50 и не приближался к 0,05 даже для размеров выборки свыше 100».;

  • консервативность «точных» методов;

  • см. Стат в Med 28 : 173-179, 2009 для критики, которая осталась без ответа


Lydersen S, Fagerland MW, Laake P. Рекомендуемые тесты для ассоциации в таблицы. Статистика в медицине 2009; 28 : 1159-1175. ( аннотация )2×2

  • ... Точный критерий Фишера никогда не должен использоваться, если не применяется коррекция среднего ;P

  • значение безусловных тестов;

  • см. письмо в редакцию 30: 890-891; 2011

Фрэнк Харрелл
источник
1
Можете ли вы предложить, как применить коррекцию (N-1) / N? Существуют ли онлайн-калькуляторы, которые включают это исправление? Есть ли простой способ вручную откорректировать результаты теста хи-квадрат, чтобы сделать эту коррекцию самостоятельно?
DW
Одна из ссылок, которые я перечислил выше, является вашей лучшей ставкой.
Фрэнк Харрелл
1
Почему вы говорите, что "почти всегда более точен, чем точный критерий Фишера" ? Я бы сказал обратное, потому что не является «точным» тестом. χ2 χ2
Стефан Лоран
2
Маркировка чего-либо как «точного» не делает это так. Посмотрите замечательное объяснение @suncoolsu, которое вы пропустили (вы также пропустили все объяснения выше). Тест Пирсона даже более точен, чем думал Пирсон. См., Например, citeulike.org/user/harrelfe/article/13265687 и citeulike.org/user/harrelfe/article/13263676 . «Точный» тест Фишера точен только в том смысле, что истинная ошибка типа I не превышает заявленную. Но он оказывается меньше заявленного, поэтому ошибка типа II выше, что означает меньшую мощность.
Фрэнк Харрелл
Я знаю значение точности. Точный момент, который мне не нравится в неточных тестах, - это вероятность того, что ошибка типа I выше номинального уровня. Но вы правы, я неправильно понял ваш ответ, а другой (оба великолепны)
Стефан Лоран,
47

Это большой вопрос.

Точный критерий Фишера является одним из замечательных примеров умного использования экспериментом плана Фишера , наряду с подготовкой данных (в основном на таблицах с наблюдаемыми рядами и предельными значениями) и его изобретательностью в нахождении распределений вероятности (хотя это не лучший пример , для лучшего примера см. здесь ). Использование компьютеров для вычисления «точных» p-значений определенно помогло получить точные ответы.

Однако трудно обосновать предположения о точном тесте Фишера на практике. Поскольку так называемый «точный» исходит из того факта, что в «эксперименте по дегустации чая» или в случае таблиц непредвиденных обстоятельств 2x2 итоговая сумма строки и итоговая сумма столбца, то есть предельные итоговые значения, являются фиксированными. Это предположение редко оправдывается на практике. Хорошие ссылки смотрите здесь .

Название «точный» приводит к убеждению, что значения p, приведенные в этом тесте, являются точными, что опять же в большинстве случаев, к сожалению, неверно из-за этих причин.

  1. Если предельные значения не являются фиксированными (что происходит практически каждый раз на практике), значения p будут консервативными.
  2. Поскольку в тесте используется дискретное распределение вероятностей (в частности, гипергеометрическое распределение), для определенных отсечений невозможно вычислить «точные нулевые вероятности», то есть значение p.

В большинстве практических случаев использование критерия отношения правдоподобия или критерия хи-квадрат не должно давать сильно отличающихся ответов (значение p) от точного критерия Фишера. Да, когда маргинальные значения установлены, точный тест Фишера - лучший выбор, но это случается редко. Следовательно, для проверки согласованности всегда рекомендуется использовать критерий хи-квадрат критерия отношения правдоподобия.

Подобные идеи применимы, когда точный критерий Фишера обобщается на любую таблицу, что в основном эквивалентно вычислению многомерной гипергеометрической вероятности. Поэтому всегда нужно пытаться вычислить х-квадрат и p-значения распределения отношения правдоподобия, в дополнение к «точным» р-значениям.

suncoolsu
источник