Я собираю очень большие выборки (> 1 000 000) категориальных данных каждый день и хочу, чтобы данные выглядели «существенно» по-разному в разные дни, чтобы обнаружить ошибки в сборе данных.
Я подумал, что для этого пригодится тест на пригодность (в частности, G-тест). Ожидаемое распределение дается распределением предыдущего дня.
Но, поскольку мои размеры выборки очень велики, тест имеет очень высокую мощность и дает много ложных срабатываний. То есть даже очень незначительное дневное колебание даст почти нулевое значение р.
Я закончил тем, что умножил свою статистику теста на некоторую константу (0,001), что хорошо интерпретирует выборку данных с такой скоростью. Эта статья, похоже, согласна с таким подходом. Они говорят, что:
Квадрат Ци является наиболее надежным с выборками от примерно 100 до 2500 человек
Я ищу более авторитетные комментарии по этому поводу. Или, возможно, некоторые альтернативные решения ложных срабатываний при выполнении статистических тестов на больших наборах данных.
источник
Ответы:
Тест возвращает правильный результат. Распределения не совпадают изо дня в день. Это, конечно, бесполезно для вас. Проблема, с которой вы сталкиваетесь, давно известна. См .: Карл Пирсон и Р.А. Фишер о статистических тестах: обмен 1935 года с натуры
Вместо этого вы можете посмотреть на предыдущие данные (ваши или откуда-то еще) и получить распределение ежедневных изменений для каждой категории. Затем вы проверяете, возможно ли, что текущее изменение произошло при данном распределении. Трудно ответить более конкретно, не зная о данных и типах ошибок, но этот подход кажется более подходящим для вашей проблемы.
источник
Давайте идти вперед и убить священную корову на 5%.
Вы (правильно) указали, что проблема заключается в чрезмерной силе теста. Возможно, вы захотите перекалибровать его в сторону более релевантной силы, как, например, более традиционное значение 80%:
Предположим, у вас есть 5 категорий с равными вероятностями, , и ваша альтернатива - . Таким образом, для , . Асимптотическое распределение является нецентральным хи-квадратом с (# category-1) = 4 df и параметром нецентральности При этом большое значение , это достаточно близко к . 80% -й коэффициент равенp + δ / √п1= р2= р3= р4= р5= 0,2 р + δ/ н--√= ( 0,198 , 0,202 , 0,2 , 0,2 , 0,2 ) п = 106 δ= ( - 2 , + 2 , 0 , 0 , 0 ) к =
(Пожалуйста, проверьте мою математику, это нелепый уровень теста, но это то, что вы хотели с вашими большими данными, не так ли? С другой стороны, если вы регулярно видите Pearson в диапазоне пары сто, это может быть совершенно значимым критическим значением для развлечения.)χ2
Имейте в виду, однако, что аппроксимации, как для нулевого, так и для альтернативного, могут плохо работать в хвостах, см. Это обсуждение .
источник
В этих случаях мой профессор предложил вычислить V Крамера, который является мерой ассоциации, основанной на статистике хи-квадрат. Это должно дать вам силы и помочь вам решить, является ли тест гиперчувствительным. Но я не уверен, что вы можете использовать V с той статистикой, которую возвращают тесты G2.
Это должна быть формула для V:
где - общий итог наблюдений, а - количество строк или столбцов, в зависимости от того, что меньше. Или для проверки пригодности, по-видимому, нет. рядов.к кN К К
источник
Один из подходов состоит в том, чтобы сделать тесты соответствия пригодности более значимыми, выполняя их на меньших блоках данных.
Вы можете разделить ваши данные за определенный день, например, на 1000 блоков по 1000 выборок в каждом, и выполнить отдельный тест на соответствие требованиям для каждого блока с ожидаемым распределением, заданным полным набором данных за предыдущий день. Сохраняйте уровень значимости для каждого отдельного теста на том уровне, который вы использовали (например, ). Затем найдите существенные отклонения общего количества положительных тестов от ожидаемого количества ложных срабатываний (при нулевой гипотезе о том, что нет различий в распределениях, общее количество положительных тестов распределено биномиально, с параметром ).αα = 0,05 α
Вы можете найти хороший размер блока для использования, взяв наборы данных за два дня, где вы можете предположить, что распределение было одинаковым, и посмотреть, какой размер блока дает частоту положительных тестов, примерно равную (то есть, какой размер блока останавливается ваш тест от сообщения о ложных различиях).α
источник