Это хороший вопрос, но большой. Я не думаю, что смогу дать полный ответ, но я выброшу пищу для размышлений.
Во-первых, под вашей верхней точкой, исправление, на которое вы ссылаетесь, называется исправлением Йейтса для непрерывности . Проблема в том, что мы вычисляем дискретную логическую статистику:
(Это дискретно, потому что в таблице непредвиденных обстоятельств только конечное число экземпляров представлено имеет конечное число возможных значений , реализованных , что эта статистика может взять на себя .) Несмотря на это, он сравнивается с непрерывным опорным распределением ( а именно , то распределение с степенями свободы
χ2= ∑ ( O - E)2Е
χ2 ( r - 1 ) ( c - 1 )). Это обязательно приводит к несоответствию на каком-то уровне. При особенно небольшом наборе данных, и если некоторые ячейки имеют ожидаемые значения менее 5, возможно, что значение p может быть слишком маленьким. Коррекция Йейтса подстраивается под это.
По иронии судьбы, та же самая основная проблема (дискретно-непрерывное несоответствие) может привести к слишком высоким значениям p . В частности, значение p обычно определяется как вероятность получения данных, которые являются экстремальными или болеечем наблюдаемые данные. С помощью непрерывных данных понятно, что вероятность получения какого-либо точного значения исчезающе мала, и, таким образом, у нас действительно есть вероятность того, что данные являются более экстремальными. Тем не менее, с дискретными данными существует конечная вероятность получения данных, как у вас. Только вычисление вероятности получения данных более экстремальных, чем у вас, приводит к получению слишком низких номинальных значений p (что приводит к увеличению ошибок типа I), но с учетом вероятности получения данных, таких же, как ваши, приводит к получению слишком высоких номинальных значений p (что приведет к увеличению ошибок типа II). Эти факты подсказывают идею среднего значения р . При таком подходе p-значение - это вероятность того, что данные будут более экстремальными, чем ваши плюс половина вероятность данных точно такая же как у вас.
Как вы указали, существует множество возможностей для тестирования данных таблицы сопряженности. Наиболее полное рассмотрение плюсов и минусов различных подходов здесь . Эта статья относится к таблицам 2x2, но вы все же можете многое узнать о вариантах данных таблиц непредвиденных расходов, прочитав их.
Я также думаю, что стоит серьезно рассмотреть модели. Старые тесты, такие как хи-квадрат, бывают быстрыми, легкими и понятными для многих людей, но не дают вам полного понимания ваших данных, которое вы получаете при построении подходящей модели. Если разумно рассматривать строки [столбцы] вашей таблицы непредвиденных обстоятельств как переменную ответа, а столбцы [строки] - как переменные объяснения / предиктора, подход к моделированию следует довольно легко. Например, если у вас было только две строки, вы можете построить модель логистической регрессии ; если имеется несколько столбцов, вы можете использовать эталонное кодирование ячейки (фиктивное кодирование) для построения модели типа ANOVA. С другой стороны, если у вас более двух рядов, полиномиальная логистическая регрессияможно использовать таким же образом. Если ваши строки имеют внутренний порядок, порядковая логистическая регрессия даст превосходную производительность для многочлена. Лог-линейная модель (регрессия Пуассона), вероятно, менее актуальна, если, на мой взгляд, у вас нет таблиц сопряженности с более чем двумя измерениями.
Для всестороннего рассмотрения таких тем лучше всего подать книги Агрести: либо его полномасштабное обращение (более строгое), его вступительную книгу (проще, но все же всеобъемлющее и очень хорошее), либо, возможно, также его обычную книгу .
грамм2-тестовое задание
грамм2= ∑ O ⋅ ln ( OЕ)
Я постараюсь ответить на некоторые ваши вопросы как можно лучше с моей точки зрения. Во-первых, тест Фишера-Ирвина - это еще одно название точного теста Фишера. За исключением того факта, что это иногда требует больших вычислительных ресурсов, я обычно предпочитаю использовать тест Фишера. Если есть какие-либо проблемы с этим тестом, это обусловливает предельные итоги. Прелесть теста в том, что согласно нулевой гипотезе набор таблиц сопряженности с теми же предельными итогами, что и у наблюдаемой таблицы, имеет гипергеометрическое распределение. Некоторые люди утверждают, что не видят смысла ограничивать рассмотрение таблицами с одинаковыми предельными итогами.
Критерий хи-квадрат Пирсона очень часто используется для проверки связи в таблицах непредвиденных обстоятельств. Как и многие другие тесты, он приблизительный, поэтому уровень значимости не всегда точен. Кокран показал, что в небольших выборках, когда некоторые ячейки очень разрежены (например, содержат менее 5 случаев в некоторых ячейках), аппроксимация будет плохой.
Есть много других приблизительных тестов. Обычно при применении теста Фишера с использованием SAS я получаю результаты всех этих тестов, и они обычно дают почти одинаковые результаты. Но критерий Фишера всегда точен при условии предельных итогов.
Что касается регрессии Пуассона, то это модель, которая связывает категориальные переменные с итоговыми данными ячейки. Как и любая модель, это зависит от ряда предположений. Наиболее важным является то, что число клеток соответствует распределению Пуассона, что означает, что среднее число импульсов равно его дисперсии. Обычно это не так для распределения количества клеток. В случае чрезмерной дисперсии (дисперсия больше, чем среднее) отрицательная биномиальная модель может быть более подходящей.
источник