Проверка гипотезы на равенство пропорций с 3 образцами

9

У меня есть набор данных с информацией о клиентах сотового телефона с двумя столбцами. Первый столбец содержит определенную категорию, к которой относится учетная запись (A, B или C), а второй столбец содержит двоичное значение для определения того, была ли удалена эта учетная запись. например

A | cancelled
C | active
B | active
A | cancelled

что я хочу сделать, так это придумать какой-нибудь тест на гипотезу, чтобы проверить, отличается ли соотношение счетов типа A, B и C для активных учетных записей по сравнению с отмененными счетами - нулевая гипотеза заключается в том, что они одинаковы. Так что это как проверка гипотезы для пропорций, за исключением того, что я не знаю, как это сделать для 3 значений

user1893354
источник
6
Вы можете использовать тест для проверки равенства пропорций между тремя группами. χ2
Я также думаю, что мог бы сделать три теста гипотез A против B, B против C и A против C, чтобы увидеть, отличаются ли они
user1893354
5
Вы можете, но помните, что тогда вам придется исправлять проблемы множественных сравнений.
Спасибо за ваш ответ. Мне просто интересно, что вы подразумеваете под проблемами множественных сравнений? Или, более конкретно, почему метод проверки трех гипотез невыгоден. Спасибо!
user1893354
3
У тебя две проблемы с использованием трех тестов гипотез. Во-первых, они взаимозависимы, потому что каждая пара повторно использует некоторые данные. Во-вторых, если бы они были на самом деле независимыми, то вероятность того, что хотя бы один из них был бы значительным, даже если значение равно нулю, т. Е. Вероятность ложноположительной ошибки, была бы почти в три раза больше, чем желаемое ложное значение. положительный показатель. Вторая проблема указывает на то, что тест необходимо скорректировать, но первая показывает, что поиск соответствующей корректировки может быть проблематичным. подход позволяет избежать этих проблем. χ2
whuber

Ответы:

13

Я собираюсь основать свой ответ в целом и вставить комментарии о том, как ваша проблема вписывается в рамки тестирования. В общем, мы можем проверить равенство пропорций, используя критерий где типичная нулевая гипотеза H 0 следующая:χ2ЧАС0

ЧАС0:п1знак равноп2знак равно,,,знак равнопК

т.е. все пропорции равны друг другу. Теперь в вашем случае у вас нулевая гипотеза:

и альтернативной гипотезой является H A :  по крайней мере, один  p i  отличается для  i = 1 , 2 , 3

ЧАС0:п1знак равноп2знак равноп3
ЧАСA: по крайней мере один пя отличается для язнак равно1,2,3

Теперь, чтобы выполнить тест нам нужно вычислить следующую статистику теста: значение теста-статистикиχ2

χ2знак равноΣязнак равно1N(Оя-Ея)2Ея

где

  • = совокупная тестовая статистика Пирсона, которая асимптотически приближается краспределению χ 2χ2χ2
  • = наблюдаемая частотаОя
  • = ожидаемая (теоретическая) частота, утвержденная нулевой гипотезойЕя
  • = количество ячеек в таблицеN

В вашем случае так как мы можем думать об этой проблеме как о следующей таблице: Nзнак равно6введите описание изображения здесь

Теперь, когда у нас есть статистика теста, у нас есть два варианта, как пройти тестирование гипотез.

χ2ЧАС0χ2рСχ2(р-1)×(С-1)χ*χ2>χ*χ2χ*

Графически (все числа составлены) это следующее: введите описание изображения здесь

χ2χ2<χ*

dезнак равно(р-1)×(С-1)знак равно(2-1)×(3-1)знак равно1×2знак равно2

ααχ(р-1)×(С-1)2

Графически мы имеем это введите описание изображения здесь

где значение p рассчитывается как площадь, которая больше, чем наша тестовая статистика (синяя заштрихованная область в примере).

α>р-значениеЧАС0

αр-значениеЧАС0


источник