Предположим, у вас есть набор данных из непрерывного распределения с плотностью поддерживаемой на которая неизвестна, но довольно велико, поэтому плотность ядра (например) оценка, , довольно точна. Для конкретного приложения мне нужно преобразовать наблюдаемые данные в конечное число категорий, чтобы получить новый набор данных с подразумеваемой функцией массы .
Простым примером будет когда и когда . В этом случае индуцированная функция массы будет
Двумя «параметрами настройки» здесь являются число групп и вектор длины порогов . Обозначим индуцированную функцию массы через .
Я хотел бы, чтобы процедура отвечала, например, на «Какой лучший выбор чтобы увеличение числа групп до (и выбор там оптимального ) дало бы незначительное улучшение?» , Я чувствую, что, возможно, можно создать тестовую статистику (возможно, с разницей в дивергенции KL или чем-то подобном), распределение которой можно получить. Есть идеи или соответствующая литература?
Редактировать: я равномерно распределил временные измерения непрерывной переменной и использую неоднородную цепь Маркова для моделирования временной зависимости. Честно говоря, с цепями дискретных состояний Маркова работать гораздо проще, и это моя мотивация. Наблюдаемые данные являются процентами. В настоящее время я использую специальную дискретизацию, которая выглядит очень хорошо для меня, но я думаю, что это интересная проблема, где возможно формальное (и общее) решение.
Редактировать 2: Фактически минимизация расхождения KL была бы эквивалентна не дискретизации данных вообще, так что идея полностью отсутствует. Я отредактировал тело соответственно.
источник
Ответы:
Я собираюсь поделиться решением, которое я придумал для этой проблемы некоторое время назад - это не формальный статистический тест, но может предоставить полезную эвристику.
Рассмотрим общий случай, когда у вас есть непрерывные наблюдения ; Без ограничения общности предположим, что выборочным пространством каждого наблюдения является интервал . Схема категоризации будет зависеть от ряда категорий и пороговых значений местоположений, которые разделяют категории, .Y1,Y2,...,Yn [0,1] m 0<λ1<λ2<⋯<λm−1<1
Обозначим классифицированную версию через , где . Думая о дискретизации данных как о разделении исходных данных на классы, дисперсию можно рассматривать как комбинацию вариаций внутри и между группами для фиксированного значения :Yi Zi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Данная категоризация успешна при создании однородных групп, если в групповой дисперсии относительно мало, что определяется количественно . Поэтому мы ищем экономной группировку, предусматривающим большую часть вариации в к . член в В частности, мы хотим выбрать так, чтобы, добавляя дополнительные уровни, мы не добавляли значительно к однородности внутри группы. С учетом этого мы определяем оптимальный для фиксированного значения которое будетE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
Грубая диагностика для определения того, какой выбор адекватен, состоит в том, чтобы посмотреть на выпадение в как функция от - эта траектория монотонно не увеличивается и после ее резкого уменьшения вы можете видеть, что вы получаете относительно меньшую точность за счет включения большего количества категорий. Эта эвристика по духу похожа на то, как иногда используется « График Скри », чтобы увидеть, сколько основных компонентов объясняют «достаточно» вариации.m E(var(Yi|Zi(m,λ⋆m))) m
источник