Этот вопрос описывает принципиальное различие между равномерной и неоднородной гистограммой. И в этом вопросе обсуждается эмпирическое правило для выбора количества бинов однородной гистограммы, которое оптимизирует (в некотором смысле) степень, в которой гистограмма представляет распределение, из которого были взяты выборки данных.
Похоже, я не могу найти такой же вид «оптимальности» в отношении однородных и неоднородных гистограмм. У меня есть кластерное непараметрическое распределение с далеко расположенными выбросами, поэтому неоднородная гистограмма интуитивно понятнее. Но я хотел бы увидеть более точный анализ следующих двух вопросов:
- Когда гистограмма с однородным мусорным ведром лучше, чем гистограмма с однородным мусорным ведром?
- Что такое хорошее количество бинов для неоднородной гистограммы?
Для неоднородной гистограммы я рассматриваю самый простой случай, когда мы берем выборок из неизвестного распределения, упорядочиваем результирующие значений и разделяем их на бинов так, чтобы у каждого бина было из них. выборки (при условии, что для некоторого большого целого числа ). Диапазоны формируются путем взятия средней точки между значений в bin i и \ min значений в bin i + 1 . Здесь и здесь ссылки, которые описывают этот тип неоднородных гистограмм.н к к
источник
Ответы:
Это требует некоторой идентификации того, что мы стремимся оптимизировать; многие люди пытаются оптимизировать среднеквадратическую среднеквадратичную ошибку, но во многих случаях я думаю, что это несколько упускает из виду создание гистограммы; это часто (на мой взгляд) «перегибы»; для исследовательского инструмента, такого как гистограмма, я могу терпеть гораздо большую шероховатость, поскольку сама шероховатость дает мне ощущение степени, в которой я должен «сглаживаться» на глаз; Я склонен, по крайней мере, удваивать обычное количество бинов по таким правилам, иногда гораздо больше. Я склонен согласиться с Эндрю Гельманом в этом; действительно, если бы мой интерес был действительно получить хороший AIMSE, я, вероятно, не должен был бы рассматривать гистограмму так или иначе.
Поэтому нам нужен критерий.
Позвольте мне начать с обсуждения некоторых вариантов гистограмм неравных областей:
Есть некоторые подходы, которые делают большее сглаживание (меньше, более широкие ячейки) в областях меньшей плотности и имеют более узкие ячейки, где плотность выше - например, гистограммы «равной площади» или «равного количества». Ваш отредактированный вопрос, кажется, рассматривает возможность равного количества.
histogram
Функция R вlattice
упаковке может производить примерно равную площадь баров:Этот провал справа от самого левого бункера еще яснее, если вы берете четвертые корни; с мусорными ведрами равной ширины вы не сможете увидеть их, если не будете использовать в 15-20 раз больше мусорных ведер, и тогда правый хвост выглядит ужасно.
Там в равном количестве гистограммы здесь , с R-кодом, который использует выборочные-квантили найти разрывы.
Например, на тех же данных, что и выше, вот 6 корзин с (надеюсь) 8 наблюдениями в каждой:
Этот вопрос CV указывает на статью Денби и Мэллоу, вариант которой можно скачать здесь, где описывается компромисс между лотками одинаковой ширины и лотками одинаковой площади.
В нем также рассматриваются вопросы, которые у вас были в некоторой степени.
Возможно, вы могли бы рассмотреть эту проблему как одну из идентификации разрывов в кусочно-постоянном пуассоновском процессе. Это привело бы к такой работе . Есть также связанная с этим возможность взглянуть на алгоритмы типа кластеризации / классификации по (скажем) подсчетам Пуассона, некоторые из которых дали бы несколько бинов. Кластеризация использовалась на 2D гистограммах ( изображения , в действительности), чтобы идентифицировать области, которые являются относительно однородными.
-
Если бы у нас была гистограмма с равным количеством и какой-то критерий для оптимизации, мы могли бы тогда попробовать диапазон значений на ячейку и каким-то образом оценить критерий. Упомянутый здесь документ Wand [ paper , или рабочий документ pdf ] и некоторые из его ссылок (например, на статьи Sheather и др.) Описывают оценку ширины «подключаемого модуля», основанную на идеях сглаживания ядра для оптимизации AIMSE; Вообще говоря, такой подход должен быть адаптирован к этой ситуации, хотя я не помню, чтобы это было сделано.
источник