У меня есть набор данных с информацией о клиентах сотового телефона с двумя столбцами. Первый столбец содержит определенную категорию, к которой относится учетная запись (A, B или C), а второй столбец содержит двоичное значение для определения того, была ли удалена эта учетная запись. например
A | cancelled
C | active
B | active
A | cancelled
что я хочу сделать, так это придумать какой-нибудь тест на гипотезу, чтобы проверить, отличается ли соотношение счетов типа A, B и C для активных учетных записей по сравнению с отмененными счетами - нулевая гипотеза заключается в том, что они одинаковы. Так что это как проверка гипотезы для пропорций, за исключением того, что я не знаю, как это сделать для 3 значений
hypothesis-testing
equivalence
user1893354
источник
источник
Ответы:
Я собираюсь основать свой ответ в целом и вставить комментарии о том, как ваша проблема вписывается в рамки тестирования. В общем, мы можем проверить равенство пропорций, используя критерий где типичная нулевая гипотеза H 0 следующая:χ2 ЧАС0
т.е. все пропорции равны друг другу. Теперь в вашем случае у вас нулевая гипотеза:
и альтернативной гипотезой является H A : по крайней мере, один p i отличается для i = 1 , 2 , 3
Теперь, чтобы выполнить тест нам нужно вычислить следующую статистику теста: значение теста-статистикиχ2
где
В вашем случае так как мы можем думать об этой проблеме как о следующей таблице:n = 6
Теперь, когда у нас есть статистика теста, у нас есть два варианта, как пройти тестирование гипотез.
Графически (все числа составлены) это следующее:
Графически мы имеем это
где значение p рассчитывается как площадь, которая больше, чем наша тестовая статистика (синяя заштрихованная область в примере).
источник