У меня есть то, что я наивно думал, что это довольно прямая проблема, которая включает в себя обнаружение выбросов для множества различных наборов данных подсчета. В частности, я хочу определить, является ли одно или несколько значений в серии данных подсчета выше или ниже ожидаемого по сравнению с остальными подсчетами в распределении.
Смущающий фактор заключается в том, что мне нужно сделать это для 3500 распределений, и, вероятно, некоторые из них будут соответствовать избыточно рассеянному пуассону с нулевым надуванием, в то время как другие могут лучше всего подходить для отрицательного бинома или ZINB, тогда как другие могут быть нормально распределенными. По этой причине простые Z-оценки или графики распределения не подходят для большей части набора данных. Вот пример данных подсчета, для которых я хочу обнаружить выбросы.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Сначала я подумал, что мне нужно написать цикл на Python или R, который бы применял набор моделей для каждого дистрибутива и выбирал наилучшую подходящую модель в соответствии с AIC или другой (возможно, fitdistrplus в R?). Затем я мог бы спросить, каковы были крайние значения для данного распределения (например, количество, попадающее в хвосты, будет ли число «4» выбросом в распределении counts1 выше?). Однако я не уверен, что это правильная стратегия, и мне пришло в голову, что может быть простая методология определения выбросов в данных подсчета, о которых я не знал. Я много искал и не нашел ничего подходящего для моей проблемы, учитывая количество дистрибутивов, которые я хочу посмотреть.
Моя конечная цель состоит в том, чтобы обнаружить значительное увеличение или уменьшение количества для каждого распределения количества, используя наиболее статистически подходящую методологию.
источник