Определение оптимальной дискретизации данных из непрерывного распределения

11

Предположим, у вас есть набор данных из непрерывного распределения с плотностью поддерживаемой на которая неизвестна, но довольно велико, поэтому плотность ядра (например) оценка, , довольно точна. Для конкретного приложения мне нужно преобразовать наблюдаемые данные в конечное число категорий, чтобы получить новый набор данных с подразумеваемой функцией массы .Y1,...,Ynp(y)[0,1]np^(y)Z1,...,Zng(z)

Простым примером будет когда и когда . В этом случае индуцированная функция массы будетZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Двумя «параметрами настройки» здесь являются число групп и вектор длины порогов . Обозначим индуцированную функцию массы через .m(m1)λg^m,λ(y)

Я хотел бы, чтобы процедура отвечала, например, на «Какой лучший выбор чтобы увеличение числа групп до (и выбор там оптимального ) дало бы незначительное улучшение?» , Я чувствую, что, возможно, можно создать тестовую статистику (возможно, с разницей в дивергенции KL или чем-то подобном), распределение которой можно получить. Есть идеи или соответствующая литература?m,λm+1λ

Редактировать: я равномерно распределил временные измерения непрерывной переменной и использую неоднородную цепь Маркова для моделирования временной зависимости. Честно говоря, с цепями дискретных состояний Маркова работать гораздо проще, и это моя мотивация. Наблюдаемые данные являются процентами. В настоящее время я использую специальную дискретизацию, которая выглядит очень хорошо для меня, но я думаю, что это интересная проблема, где возможно формальное (и общее) решение.

Редактировать 2: Фактически минимизация расхождения KL была бы эквивалентна не дискретизации данных вообще, так что идея полностью отсутствует. Я отредактировал тело соответственно.

макрос
источник
1
В большинстве случаев потребности последующего применения будут определять качество любого решения. Возможно, чтобы дать нам некоторое руководство, вы могли бы сказать больше об этом.
whuber
Сначала определите, что вы подразумеваете под пренебрежимо малым . Это, похоже, связано с проблемой искажения скорости . Текст « Обложка и Томас» предоставляет хорошее читаемое введение в такие темы.
кардинал
Я думаю о дискретизации с уровнями, как модель с параметрами (для порогов). В этой ситуации, когда я говорю «незначительный», я имею в виду «не стоит добавлять дополнительный параметр» в статистическом смысле. kk1
Макрос
Я не уверен, что дискретизация - это действительно хороший ход. Вы не сможете обобщать границы, которые дискретные значения создают в исходном пространстве ваших наблюдений.
Bayerj

Ответы:

3

Я собираюсь поделиться решением, которое я придумал для этой проблемы некоторое время назад - это не формальный статистический тест, но может предоставить полезную эвристику.


Рассмотрим общий случай, когда у вас есть непрерывные наблюдения ; Без ограничения общности предположим, что выборочным пространством каждого наблюдения является интервал . Схема категоризации будет зависеть от ряда категорий и пороговых значений местоположений, которые разделяют категории, .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

Обозначим классифицированную версию через , где . Думая о дискретизации данных как о разделении исходных данных на классы, дисперсию можно рассматривать как комбинацию вариаций внутри и между группами для фиксированного значения :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Данная категоризация успешна при создании однородных групп, если в групповой дисперсии относительно мало, что определяется количественно . Поэтому мы ищем экономной группировку, предусматривающим большую часть вариации в к . член в В частности, мы хотим выбрать так, чтобы, добавляя дополнительные уровни, мы не добавляли значительно к однородности внутри группы. С учетом этого мы определяем оптимальный для фиксированного значения которое будетE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

Грубая диагностика для определения того, какой выбор адекватен, состоит в том, чтобы посмотреть на выпадение в как функция от - эта траектория монотонно не увеличивается и после ее резкого уменьшения вы можете видеть, что вы получаете относительно меньшую точность за счет включения большего количества категорий. Эта эвристика по духу похожа на то, как иногда используется « График Скри », чтобы увидеть, сколько основных компонентов объясняют «достаточно» вариации.mE(var(Yi|Zi(m,λm)))m

макрос
источник