Тест на бимодальное распределение

30

Интересно, существует ли какой-либо статистический тест для «проверки» значимости бимодального распределения. Я имею в виду, насколько мои данные соответствуют бимодальному распределению или нет? Если да, есть ли тест в программе R?

Pauloc
источник
3
Вы не нашли ответ при поиске на нашем сайте ? Если нет, то чего не хватает?
whuber
7
Есть тесты на бимодальность или мультимодальность, но они, как правило, односторонние. То есть вы можете заключить что-то вроде «существует более одного режима», но вы не можете сказать «существует менее трех режимов» - вы можете получить нижние границы для количества режимов, но вы не можете получить верхние границы, потому что может быть найдено мультимодальное распределение с любым количеством мод, которое произвольно близко к распределению с любым меньшим количеством мод. Я посмотрю, смогу ли я выкопать некоторые явные тесты или ссылки.
Glen_b
4
На странице википедии о бимодальном распределении перечислены восемь тестов на мультимодальность против унимодальности и приведены ссылки на семь из них. Я не уверен, есть ли в R. Я посмотрю.
Glen_b

Ответы:

17

Другой возможный подход к этой проблеме - подумать о том, что может происходить за кулисами, которые генерируют данные, которые вы видите. То есть, вы можете думать в терминах модели смеси , например, модели смеси Гаусса. Например, вы можете полагать, что ваши данные взяты либо из одной нормальной совокупности, либо из смеси двух нормальных распределений (в некоторой пропорции) с разными средними и различиями. Конечно, вы не должны верить, что есть только один или два, и вы не должны верить, что группы населения, из которых получены данные, должны быть нормальными.

Существует (как минимум) два пакета R, которые позволяют вам оценивать модели смеси. Один пакет - это flexmix , а другой - mclust . Оценив две модели-кандидата, я считаю, что возможно провести тест отношения правдоподобия. В качестве альтернативы вы можете использовать метод параметрической начальной загрузки ( pdf ).

Gung - Восстановить Монику
источник
Привет @gung, для параметрического метода перекрестной аппроксимации начальной загрузки, как бы вы определили оптимальный критерий в отношении бимодального распределения? Может быть случай, когда два конкурирующих распределения пересекаются друг с другом в двух точках. Что нужно сделать в таком случае?
akashrajkn
32

Как упоминалось в комментариях, на странице Википедии «Бимодальное распределение» перечислены восемь тестов на мультимодальность против унимодальности и приведены ссылки на семь из них.

Есть по крайней мере некоторые в R. Например:

  1. Пакет diptestреализует тест Гиптигана на провал.

  2. Эти stampданные в bootstrapпакете был использован в Эфрон и Tibshirani в введении к Bootstrap (книги , на которой основан пакет) , чтобы сделать пример , относящийся к самонастройки по количеству режимов; если у вас есть доступ к книге, вы можете использовать этот подход.

    Эфрон, Б. и Тибширани, Р. (1993) . Введение в Бутстрап .
    Чепмен и Холл, Нью-Йорк, Лондон.

-

В CV есть вопрос, в котором говорится об определении (т.е. оценке, а не тестировании) количества режимов, в которых включается поиск @ whuber. Стоит прочитать ответы там. Один из ответов (мой, как это бывает) содержит ссылку на поиск в Google, в котором Дэвид Донохо приводит этот документ о создании односторонних КИ для ряда режимов, которые, конечно, можно использовать в качестве теста (например, , если односторонний интервал не включает унимодальный случай, вы можете отклонить унимодальность). Насколько я знаю, это неодин из тестов, который упоминает Википедия. Я не думаю, что есть реализация R для этого интервала, но (несмотря на то, что Донохо имеет тенденцию использовать довольно сложные инструменты в своем обсуждении этого), на самом деле это довольно простая идея для реализации. Эта идея напрямую связана с понятием использования оценки плотности ядра.

Glen_b - Восстановить Монику
источник
Это ценная работа.
rolando2