Я пытаюсь найти метрику для измерения неравномерности распределения для эксперимента, который я провожу. У меня есть случайная переменная, которая должна быть равномерно распределена в большинстве случаев, и я хотел бы иметь возможность идентифицировать (и, возможно, измерить степень) примеры наборов данных, где переменная не распределена равномерно в некотором поле.
Пример трех рядов данных, каждый из которых содержит 10 измерений, представляющих частоту появления чего-то, что я измеряю, может выглядеть примерно так:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Я хотел бы иметь возможность различать распределения как c от таких как a и b и измерять отклонение c от равномерного распределения. Эквивалентно, если есть метрика для того, насколько равномерно распределение (стандартное отклонение, близкое к нулю?), Я могу, возможно, использовать это, чтобы различать с высокой дисперсией. Тем не менее, мои данные могут иметь один или два выброса, как в примере c выше, и я не уверен, будет ли это легко обнаружить таким образом.
Я могу взломать что-нибудь, чтобы сделать это в программном обеспечении, но я ищу статистические методы / подходы, чтобы обосновать это формально. Я взял класс лет назад, но статистика это не моя область. Это похоже на то, что должно иметь хорошо известный подход. Извините, если что-то из этого полностью кость. Заранее спасибо!
Ответы:
Если у вас есть не только частоты, но и фактические значения, вы можете использовать критерий соответствия 2 для каждого ряда данных. В частности, вы хотите использоватьтест для дискретного равномерного распределения. Это дает хорошийтест, который позволяет выяснить, какие ряды данных, вероятно, не были сгенерированы при равномерном распределении, но не обеспечивает меру однородности.χ2
Существуют и другие возможные подходы, такие как вычисление энтропии каждого ряда - равномерное распределение максимизирует энтропию, поэтому, если энтропия подозрительно мала, вы можете заключить, что у вас, вероятно, нет равномерного распределения. Это работает как мера единообразия в некотором смысле.
Другим предложением было бы использовать такую меру, как дивергенция Кульбака-Лейблера , которая измеряет сходство двух распределений.
источник
В дополнение к хорошим идеям @MansT, вы могли бы предложить и другие меры, но это зависит от того, что вы подразумеваете под "неоднородностью". Чтобы было проще, давайте посмотрим на 4 уровня. Совершенную однородность легко определить:
25 25 25 25
но что из следующего является более неоднородным?
20 20 30 30 или 20 20 25 35
или они одинаково неоднородны?
если вы считаете, что они одинаково неоднородны, вы можете использовать показатель, основанный на сумме абсолютных значений отклонений от нормы, масштабированных до максимально возможного. Тогда первое 5 + 5 + 5 + 5 = 20, а второе 5 + 5 + 0 + 10 = 20. Но если вы думаете, что второе более неоднородно, вы можете использовать что-то, основанное на квадрате отклонений, и в этом случае первый получает 25 + 25 + 25 + 25 = 100, а второй получает 25 + 25 + 0 + 100 = 150.
источник
источник
Наткнулся на это недавно и добавлю к ответу от @ user495285, насколько я понимаю:
Я полагаю, что полезность геометрических мер применима, когда предполагается, что каждая позиция (измерение) описанного пространства измеряется в эквивалентных масштабах, например, во всех подсчетах потенциально равного распределения. Те же самые предположения, лежащие в основе изменения основ, как PCA / SVD, вероятно, здесь аналогичны. Но опять же, я не математик, поэтому я оставлю это открытым для более информированных.
источник