Точный тест Фишера с весами?

12

Кто-нибудь знает вариант точного теста Фишера, который учитывает вес? Например, веса выборки .
Таким образом, вместо обычной кросс-таблицы 2x2 каждая точка данных имеет значение «масса» или «размер», взвешивающее точку.

Пример данных:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Точный тест Фишера затем использует кросс-таблицу 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Если бы мы взяли вес как «фактическое» количество точек данных, это привело бы к:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Но это привело бы к слишком высокой уверенности. Одна точка данных, изменяющаяся с N / Y на N / N, очень сильно изменила бы статистику.
Плюс, это не сработало бы, если бы любой вес содержал дроби.

Мишель де Рюитер
источник

Ответы:

10

У меня есть подозрение, что «точные» тесты и веса выборки по сути несовместимы. Я проверил в Stata, которая имеет хорошие возможности для выборочных обследований и приемлемые для точных тестов, и его 8 возможных статистик испытаний для кросс-таблицы с весами выборки не включают в себя никаких «точных» тестов, таких как тест Фишера.

Соответствующая запись в Stata (для svy: tabulate twoway ) рекомендует использовать тест по умолчанию во всех случаях. Этот метод по умолчанию основан на обычной статистике хи-квадрат Пирсона. Цитировать:

«Чтобы учесть план обследования, статистика превращается в F-статистику с нецелыми степенями свободы с использованием поправки Рао и Скотта второго порядка (1981, 1984)».

Refs:

  • Рао, JNK и AJ Скотт. 1981. Анализ категориальных данных из комплексных выборочных обследований: критерий хи-квадрат для оценки пригодности и независимости в двусторонних таблицах. Журнал Американской статистической ассоциации 76: 221–230.
  • Рао, JNK и AJ Скотт. 1984. Об испытаниях по критерию хи-квадрат для многомерных таблиц сопряженности с пропорциями ячеек, оцененными по данным обследования. Летопись статистики 12: 46–60.
универсальный
источник
3

Интересный вопрос. Что вы имеете в виду под весом?

Я был бы склонен сделать начальную загрузку ... выбрать вашу любимую статистику (то есть точную информацию Фишера) и вычислить ее по вашим данным. Затем назначьте новые ячейки каждому экземпляру в соответствии с вашей нулевой гипотезой и повторите процесс 999 раз. Это должно дать довольно хорошее эмпирическое распределение для вашей тестовой статистики при нулевой гипотезе и позволить легко вычислить ваше p-значение!

user549
источник
Благодарность! Но я надеялся, что статистика будет более быстрой и стабильной для расчета ...
Мишель де Рюйтер
2

Одна небольшая вещь о весах выборки - они, как правило, являются способом включения некоторой информации о населении, из которого производится выборка, - но обычно они основаны на сценариях типа «большой выборки» (обычно это скрытый прогноз BLUP или BLUE в скрытой форме). Так что я думаю, что весовые коэффициенты выборки, вероятно, будут не лучше, чем нет весов. Я думаю, что было бы лучше использовать информацию о населении, на которой основывался дизайн выборки.

р1,...,рККр1;11,р1;12,р1;21,р1;22,...ΣLзнак равно1КрL;яJрL;яJрL;яJΣя,JрL;яJзнак равнорL(Lзнак равно1,...,К)

п(Dм)знак равно1п(Dм)знак равно0если бы они не были в образце. Однако, как правило, дизайн основан на большем количестве информации, чем просто данные, которые можно наблюдать. но обратите внимание, что важна не информация, а сама структура опроса. Вывод на основе дизайна - это довольно эффективный способ включить всю эту информацию в ваш анализ.

probabilityislogic
источник