Когда я строю гистограмму моих данных, она имеет два пика:
Означает ли это потенциальное мультимодальное распределение? Я запустил dip.test
в R ( library(diptest)
), и вывод:
D = 0.0275, p-value = 0.7913
Я могу заключить, что мои данные имеют мультимодальное распределение?
ДАННЫЕ
10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487
15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289
25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 28088 23827
30707 19653 12791 13463 11465 12326 12277 12769 18341 19140 24590 28277 22694 15489
11070 11002 11579 9834 9364 15128 15147 18499 25134 32116 24475 21952 10272 15404
13079 10633 10761 13714 16073 23335 29822 26800 31489 19780 12238 15318 9646 11786
10906 13056 17599 22524 25057 28809 27880 19912 12319 18240 11934 10290 11304 16092
15911 24671 31081 27716 25388 22665 10603 14409 10736 9651 12533 17546 16863 23598
25867 31774 24216 20448 12548 15129 11687 11581
r
hypothesis-testing
distributions
self-study
histogram
user1260391
источник
источник
Ответы:
@NickCox представил интересную стратегию (+1). Я мог бы счесть это более исследовательским по своей природе, однако, из-за беспокойства, на которое указывает @whuber .
Позвольте мне предложить другую стратегию: вы можете использовать гауссовскую модель конечной смеси. Обратите внимание, что это делает очень сильное предположение, что ваши данные взяты из одной или нескольких истинных нормалей. Как указывают @whuber и @NickCox в комментариях, без существенной интерпретации этих данных, подкрепленной устоявшейся теорией, в поддержку этого предположения, эту стратегию также следует считать исследовательской.
Во-первых, давайте последуем предложению @ Glen_b и посмотрим на ваши данные, используя в два раза больше бинов:
Мы все еще видим два режима; во всяком случае, они проходят здесь более четко. (Обратите также внимание, что линия плотности ядра должна быть одинаковой, но выглядит более разбросанной из-за большего количества бинов.)
Теперь давайте подгоним гауссову модель конечной смеси. В
R
, вы можете использоватьMclust
пакет для этого:Два обычных компонента оптимизируют БИК. Для сравнения мы можем принудительно выбрать однокомпонентный компонент и выполнить тест отношения правдоподобия:
Это говорит о том, что крайне маловероятно, что вы найдете данные столь же далекие от унимодальных, как и ваши, если они получены из единственного истинного нормального распределения.
Некоторые люди не чувствуют себя комфортно, используя здесь параметрический тест (хотя, если предположения верны, я не знаю ни одной проблемы). Одним из широко применяемых методов является использование метода параметрической начальной загрузки (я опишу алгоритм здесь ). Мы можем попробовать применить его к этим данным:
Сводная статистика и графики плотности ядра для распределений выборки показывают несколько интересных особенностей. Вероятность записи в журнал для однокомпонентной модели редко превышает вероятность соответствия двух компонентов, даже если в процессе создания истинных данных имеется только один компонент, а когда он больше, это количество тривиально. Идея сравнения моделей, которые различаются по своей способности подгонять данные, является одной из причин, лежащих в основе PBCM. Два распределения выборки практически не перекрываются; только 0,35%
x2.d
меньше максимальногоx1.d
значение. Если вы выбрали двухкомпонентную модель, если разница в вероятности записи была> 9,7, вы бы неправильно выбрали однокомпонентную модель 0,01% и двухкомпонентную модель 0,02% времени. Это очень разборчиво. Если, с другой стороны, вы решили использовать однокомпонентную модель в качестве нулевой гипотезы, ваш наблюдаемый результат достаточно мал, чтобы не отображаться в эмпирическом распределении выборки за 10 000 итераций. Мы можем использовать правило 3 (см. Здесь ), чтобы установить верхнюю границу для значения p, а именно, мы оцениваем, что ваше значение p меньше, чем .0003. То есть это очень важно.источник
Следуя идеям в ответе и комментариях @ Nick, вы можете увидеть, насколько широкой должна быть просто сгладить вторичный режим:
Возьмите эту оценку плотности ядра как проксимальный нуль - распределение, наиболее близкое к данным, но все еще согласующееся с нулевой гипотезой, что это образец из унимодальной популяции, - и смоделируйте его. В смоделированных выборках вторичный режим не часто выглядит настолько отчетливым, и вам не нужно сильно увеличивать полосу пропускания, чтобы сгладить ее.
Формализация этого подхода приводит к тесту, приведенному в Silverman (1981), «Использование оценок плотности ядра для исследования модальности», JRSS B , 43 , 1.
silvermantest
Пакет Schwaiger & Holzmann реализует этот тест, а также процедуру калибровки, описанную Hall & York ( 2001), «О калибровке критерия Сильвермана для мультимодальности», Statistica Sinica , 11 , p 515, в котором учитывается асимптотический консерватизм. Выполнение теста на ваших данных с нулевой гипотезой унимодальности приводит к значениям р 0,08 без калибровки и 0,02 с калибровкой. Я не достаточно знаком с тестом на падение, чтобы догадаться, почему он может отличаться.Код R:
источник
->
; Я просто ошеломлен.Вещи для беспокойства включают в себя:
Размер набора данных. Это не крошечный, не большой.
Зависимость того, что вы видите от происхождения гистограммы и ширины бина. Поскольку очевиден только один выбор, вы (и мы) понятия не имеем о чувствительности.
Зависимость того, что вы видите, от типа и ширины ядра и любых других вариантов, сделанных для вас при оценке плотности. Поскольку очевиден только один выбор, вы (и мы) понятия не имеем о чувствительности.
В другом месте я предположительно предположил, что достоверность режимов поддерживается (но не установлена) существенной интерпретацией и способностью различать ту же модальность в других наборах данных того же размера. (Чем больше, тем лучше ....)
Мы не можем комментировать ни одного из них здесь. Один небольшой критерий повторяемости заключается в сравнении того, что вы получаете с образцами начальной загрузки того же размера. Вот результаты токен-эксперимента с использованием Stata, но то , что вы видите, произвольно ограничено значениями по умолчанию Stata, которые сами задокументированы как вырванные из воздуха . Я получил оценки плотности для исходных данных и для 24 образцов начальной загрузки из того же.
Показатель (не больше, не меньше) - это то, что, как мне кажется, опытные аналитики могли бы просто угадать из вашего графика. Режим левой руки хорошо повторяется, а правая рука заметно более хрупкая.
Обратите внимание, что в этом есть неизбежность: поскольку в правом режиме меньше данных, они не всегда будут появляться в образце начальной загрузки. Но это также ключевой момент.
Обратите внимание, что пункт 3. выше остается нетронутым. Но результаты находятся где-то между унимодальным и бимодальным.
Для тех, кто заинтересован, это код:
источник
LP Непараметрическая идентификация режима (название алгоритма LPMode , ссылка на статью приведена ниже)
MaxEnt Modes [Красные цветные треугольники на графике]: 12783.36 и 24654.28.
Режимы L2 [Зеленые цветные треугольники на графике]: 13054.70 и 24111.61.
Интересно отметить модальные формы, особенно вторую, которая демонстрирует значительную асимметрию (модель традиционной гауссовой смеси, скорее всего, потерпит неудачу).
Мухопадхяй, С. (2016). Идентификация в крупном масштабе и управляемые данными науки. https://arxiv.org/abs/1509.06428
источник