Я прочитал несколько статей и выдержки из книг, которые объясняют, как выбрать хорошее количество интервалов (бинов) для гистограммы набора данных, но мне интересно, есть ли жесткое максимальное количество интервалов, основанное на количестве точек в набор данных или какой-то другой критерий.
Справочная информация: причина, по которой я спрашиваю, состоит в том, что я пытаюсь написать программное обеспечение на основе процедуры из исследовательской работы. Одним из шагов в этой процедуре является создание нескольких гистограмм из набора данных, а затем выбор оптимального разрешения на основе характеристической функции (определенной авторами статьи). Моя проблема в том, что авторы не упоминают верхнюю границу для количества тестируемых интервалов. (У меня есть сотни наборов данных для анализа, и каждый из них может иметь различное «оптимальное» количество бинов. Кроме того, важно, чтобы было выбрано оптимальное количество бинов, поэтому ручной просмотр результатов и выбор хорошего не будут Работа.)
Будет ли просто установка максимального количества интервалов равным количеству точек в наборе данных хорошим руководством или есть какой-то другой критерий, который обычно используется в статистике?
источник
Ответы:
На самом деле не существует какого-либо жесткого верхнего предела, но, с другой стороны, в большинстве ситуаций, когда вы получаете все уникальные наблюдения в своем собственном контейнере, более тонкие контейнеры служат только для более точного определения их положения, не передавая намного больше. например, сравните это:
За исключением некоторых особых обстоятельств, на втором сюжете, скорее всего, не будет никакой практической пользы, а на первом - не так уж много. Если ваши данные непрерывны, это, вероятно, далеко за пределы полезного количества бинов.
Так что в большинстве ситуаций это выглядит как практическая верхняя граница - каждое уникальное наблюдение в своем собственном мусорном ведре.
(Если есть преимущество в большем количестве контейнеров , чем один на каждое уникальное наблюдение, вы , вероятно , следует делать rugplot или jittered stripchart , чтобы получить такого рода информацию) - что - то вроде того, что делается на полях этих гистограмм:
(Эти гистограммы взяты из этого ответа , ближе к концу)
источник
Существует хороший случай наличия большого количества элементов разрешения, например элементов разрешения для каждого возможного значения, всякий раз, когда предполагается, что деталь гистограммы будет не шумом, а интересной или важной тонкой структурой.
Это напрямую не связано с точной мотивацией для этого вопроса, когда требуется автоматическое правило для некоторого оптимального числа бинов, но оно имеет отношение к вопросу в целом.
Давайте сразу перейдем к примерам. В демографии округление зарегистрированных возрастов является обычным явлением, особенно, но не только в странах с ограниченной грамотностью. Может случиться так, что многие люди не знают точную дату своего рождения, или существуют социальные или личные причины занижения или преувеличения их возраста. Военная история полна примеров того, как люди лгали о своем возрасте, чтобы избежать или искать службу в вооруженных силах. Действительно, многие читатели узнают кого-то, кто очень застенчив или иначе не совсем правдив в отношении своего возраста, даже если они не лгут об этом по переписи. Чистый результат варьируется, но, как уже подразумевалось, обычно является округлением, например, возрасты, оканчивающиеся на 0 и 5, встречаются гораздо чаще, чем возрасты на один год или более.
Подобное явление предпочтения цифр характерно даже для совершенно разных задач. В некоторых старомодных методах измерения последняя цифра сообщаемого измерения должна измеряться на глаз путем интерполяции между градуированными метками. Это было долгое время в метеорологии с ртутными термометрами. Было обнаружено, что в совокупности некоторые сообщаемые цифры встречаются чаще, чем другие, и что по отдельности многие из нас имеют подписи, личный образец предпочтения одних цифр, а не других. Обычное эталонное распределение здесь является равномерным, то есть, поскольку диапазон возможных измерений во много раз превышает «единицу» измерения, ожидается, что окончательные цифры будут появляться с одинаковой частотой. Таким образом, если заявленные значения температуры в тени могут охватывать диапазон (скажем) 50∘ C десять последних цифр, дроби степени .0, .1, , .8, .9 должны встречаться с вероятностью 0,1. Качество этого приближения должно быть хорошим даже для более ограниченного диапазона.⋯
Кстати, просмотр последних цифр сообщаемых данных - это простой и хороший метод проверки сфабрикованных данных, который гораздо проще для понимания и менее проблематичен, чем модный в настоящее время анализ первых цифр с обращением к закону Бенфорда.
Результат для гистограмм теперь должен быть ясным. Представление в виде шипа может служить для демонстрации или, в более общем смысле, для проверки такого рода тонкой структуры. Естественно, если ничего интересного не видно, график может оказаться бесполезным.
В одном примере показана возрастная куча из переписи Ганы 1960 года. См. Http://www.stata.com/manuals13/rspikeplot.pdf
Был хороший обзор раздач финальных цифр в
Прис, Д.А. 1981. Распределение конечных цифр в данных. Статистик 30: 31-60.
Примечание по терминологии: некоторые люди пишут об уникальных значениях переменной, когда им лучше говорить об отдельных значениях переменной. Словари и руководства по использованию по-прежнему советуют, что «уникальные» средства встречаются только один раз. Таким образом, отчетный возраст населения может составлять в годах 0, 1, 2 и т. Д., Но подавляющее большинство этих возрастов не будет уникальным для одного человека.
источник
Не существует жесткого максимума для количества бинов в гистограмме. Если отображаемая переменная является непрерывной, то можно привести аргумент для бесконечного числа категорий (и гистограмма в основном становится графиком коврика).
Количество точек в наборе данных не является подходящей верхней границей. Рассмотрим набор данных, содержащий два значения: 1 и 1000. Наличие двух корзин не подходит.
Два практических метода определения верхней границы: а) Определение основного округления данных. Например, если данные являются целыми числами, то имеет смысл иметь ячейки с целочисленной шириной. б) Просмотр максимального видимого разрешения (например, количество пикселей в горизонтальном измерении, которое можно использовать для построения графика).
источник