Нужна помощь в определении распределения по его гистограмме

13

У меня есть выборка населения зарегистрированных максимумов амплитуды сигнала. Население составляет около 15 миллионов образцов. Я составил гистограмму населения, но не могу угадать распределение с такой гистограммой.

EDIT1: файл с необработанными значениями образца находится здесь: необработанные данные

Может ли кто-нибудь помочь оценить распределение по следующей гистограмме: введите описание изображения здесь

mbaitoff
источник
1
это не так важно, но при использовании гистограмм обычно помогает иметь относительную частоту вместо абсолютной частоты на оси Y.
Посеф
то есть обеспечить 120000/15000000 = 0,008 вместо 120000 по вертикальной оси?
mbaitoff
@mbaitoff: Ваши комментарии к ответу schenectady показывают, что вы менее заинтересованы в том, чтобы узнать название дистрибутива, но узнать, ПОЧЕМУ значения распределяются таким образом. Это верно ?
Штеффен
1
м
2
Реальный интерес к этим данным заключается в дюжине или более всплесках: объем данных достаточно велик, чтобы они были реальными , в том смысле, что они свидетельствуют о реальных локальных режимах. Похоже, здесь имеется богатый набор данных с большим количеством информации, которую можно было бы упустить, если бы простая параметрическая формула использовалась для суммирования их распределения.
whuber

Ответы:

23

Используйте fitdistrplus:

Вот ссылка CRAN на fitdistrplus.

Вот старая ссылка виньетки для fitdistrplus.

Если ссылка виньетки не работает, выполните поиск «Использование библиотеки fitdistrplus, чтобы указать распределение из данных».

Виньетка хорошо объясняет, как использовать пакет. Вы можете посмотреть, как различные дистрибутивы подходят за короткий промежуток времени. Это также производит Диаграмму Каллена / Фрея.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

введите описание изображения здесь

введите описание изображения здесь

bill_080
источник
(+1): раньше не знал этот пакет.
Штеффен
1
(+1 (не знал, что это называется диаграммой Каллена / Фрея. Я должен был придумать это сам в одной точке.
Glen_b
второе изображение с plotdistcomamnd? Как я могу получить диаграмму Каллена / Фрея?
Хуанпабло
1
@juanpablo - попробуй descdist(). Я обновил вышеупомянутый пост, чтобы включить некоторый код и ссылку на старую виньетку. Я не мог заставить вышеупомянутую ссылку виньетки работать. Итак, гугл следующее: «Использование библиотеки fitdistrplus для указания распределения по данным». Это файл .pdf.
bill_080
3
@juanpablo - утверждение f1g <- fitdist(x1, "gamma")соответствует гамма-распределению исходным данным x1и сохраняет его в f1g. Верхний левый график plot(f1g)показывает гистограмму для исходных данных в x1виде столбцов, а график зависимости плотности гамма-излучения от f1gсплошной линии. График плотности (сплошная линия) рисуется на гистограмме как показатель того, насколько хорошо «подгонка» представляет данные.
bill_080
6

Население составляет около 15 миллионов образцов.

Тогда вы, скорее всего, сможете отклонить любое конкретное распространение простой закрытой формы.

Даже этого крошечного выпуклости слева от графика, вероятно, будет достаточно, чтобы заставить нас сказать «явно не такой-то и такой-то».

С другой стороны, он, вероятно, довольно хорошо аппроксимируется рядом распространенных дистрибутивов; очевидными кандидатами являются такие вещи, как логнормальное и гамма, но есть множество других. Если вы посмотрите на журнал переменной x, вы, вероятно, сможете решить, будет ли нормальный логарифм нормальным (после регистрации журналов гистограмма должна выглядеть симметрично).

Если журнал отклонен влево, подумайте, в порядке ли Гамма, если он наклонен вправо, подумайте, в порядке ли обратная гамма или (еще более асимметричная) обратная гауссова. Но это упражнение - скорее поиск дистрибутива, достаточно близкого для жизни; ни одно из этих предложений на самом деле не имеет всех функций, которые там присутствуют.

Если у вас есть какая-либо теория в поддержку выбора, отбросьте всю эту дискуссию и используйте ее.

Glen_b - Восстановить Монику
источник
Вау, что за интуиция в этом вопросе; красивый! :)
onurcanbektas
1

Я не уверен, почему вы хотите классифицировать выборку для конкретного распределения с таким большим размером выборки; экономно, сравнивая его с другим образцом, ища физическую интерпретацию параметров?

Большинство статистических пакетов (R, SAS, Minitab) позволяют отображать данные на графике, который дает прямую линию, если данные поступают из определенного распределения. Я видел графики, которые дают прямую линию, если данные нормальные (логарифмически нормальные - после логарифмического преобразования), Вейбулл и хи-квадрат сразу приходят ко мне. Этот метод позволит вам увидеть выбросы и даст вам возможность указать причины, по которым точки данных являются выбросами. В R нормальный вероятностный график называется qqnorm.

Скенектади.Особенности
источник
Хорошая идея предложить qqplot. Тем не менее, я думаю, что ваше объяснение техники немного расплывчато / трудно для понимания. Можете ли вы предоставить примерный R-код? Это значительно повысит ценность ответа.
Штеффен
Я ожидаю, что кто-то столкнулся с картиной, подобной моей, и исследовал базовое распределение, потому что значения имеют физическую основу.
mbaitoff
Я изучаю физическое происхождение распределения образца - как оно распространяется и почему.
mbaitoff