Как я могу проверить, являются ли мои данные, например, зарплата непрерывным экспоненциальным распределением в R?
Вот гистограмма моего образца:
, Любая помощь будет оценена!
r
distributions
goodness-of-fit
exponential
stjudent
источник
источник
fitdistr
в R. Она корректирует функции плотности вероятности (pdfs) на основе метода оценки максимального правдоподобия (MLE). Также ищите в этом сайте такие термины, как pdf, fitdistr, mle и подобные вопросы. Имейте в виду, что такие вопросы почти требуют воспроизводимого примера, чтобы собрать хорошие ответы. Кроме того, это помогает, если вопрос не только о программировании (что может привести к тому, что он будет отложен как не по теме).Ответы:
Я бы сделал это, сначала оценив единственный параметр распределения,
rate
используяfitdistr
. Это не скажет вам, подходит ли дистрибутив или нет, поэтому вы должны затем использовать тест на соответствие . Для этого вы можете использоватьks.test
:Исходя из моего личного опыта (хотя я никогда нигде не находил его официально, пожалуйста, подтвердите или исправьте меня), он
ks.test
будет работать, только если вы сначала предоставите оценку параметра. Вы не можете позволить ему оценивать параметры автоматически, как, напримерgoodfit
, это делает. Вот почему вам нужна эта двухшаговая процедура сfitdistr
.Для получения дополнительной информации следуйте отличное руководство по Ricci Установочный Распределения с R .
источник
Хотя я обычно рекомендую проверять экспоненциальность с использованием диагностических графиков (таких как графики QQ), я буду обсуждать тесты, поскольку люди часто хотят их:
Как предполагает Томас, критерий Колмогорова-Смирнова не подходит для проверки экспоненциальности с неопределенным параметром.
Однако, если вы отрегулируете таблицы для оценки параметров, вы получите тест Лиллифорса для экспоненциального распределения.
Lilliefors, H. (1969), «О тесте Колмогорова – Смирнова для экспоненциального распределения со средним неизвестным», журнал Американской статистической ассоциации , Vol. 64 С. 387–389.
Использование этого теста обсуждается в Практической непараметрической статистике Коновера .
Тем не менее, в D'Agostino & Stephens ' Goodness of Fit Techniques , они обсуждают аналогичную модификацию теста Андерсона-Дарлинга (несколько странно, если я правильно помню, но я думаю, что вся необходимая информация о том, как подойти к нему для экспоненциального случая, можно найти в книге), и это почти наверняка будет иметь больше силы против интересных альтернатив.
Точно так же можно оценить что-то вроде теста Шапиро-Франсии (похожего на Шапиро-Вилка, но более простого), основав тест на где - это корреляция между статистикой порядка и показательными показателями ( ожидаемая экспоненциальная статистика заказов). Это соответствует проверке корреляции на графике QQ.rn(1−r2) r
Наконец, можно воспользоваться подходом плавного тестирования , как в книге Rayner & Best ( Smooth Tests of Goodness of Fit , 1990 - хотя я считаю, что есть более свежий, с добавлением Thas и « in R » к названию). Экспоненциальный случай также охватывается:
JCW Rayner и DJ Best (1990), «Плавные тесты на пригодность: обзор», International Statistical Review , Vol. 58, № 1 (апрель, 1990), с. 9-17
Косма Шализи также обсуждает плавные тесты в одной главе своих лекционных заметок Бакалавриата «Расширенный анализ данных» или см. Гл. 15 своей книги « Расширенный анализ данных с элементарной точки зрения» .
В некоторых случаях вам может понадобиться смоделировать распределение тестовой статистики; для других доступны таблицы (но в некоторых из этих случаев может быть проще симулировать в любом случае или даже точнее симулировать себя, как в случае теста Лиллифорса, из-за ограниченного размера симуляции в оригинале).
Из всех этих я бы предпочел сделать тот, который экспоненциально эквивалентен Шапиро-Франции (то есть я бы проверил корреляцию на графике QQ [или если бы я делал таблицы, возможно, использовал бы , который отвергнет те же случаи] - он должен быть достаточно мощным, чтобы быть конкурентоспособным с лучшими тестами, но очень прост в выполнении и иметь приятное соответствие визуальному виду графика QQ (можно даже при желании добавьте корреляцию и значение p к графику.n(1−r2)
источник
Вы можете использовать qq-plot , который является графическим методом для сравнения двух распределений вероятностей путем построения их квантилей друг относительно друга.
В R нет специальной функции qq-plot для экспоненциального распределения (по крайней мере, среди базовых функций). Тем не менее, вы можете использовать это:
При интерпретации ваших результатов: если два сравниваемых распределения схожи, точки на графике qq будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике qq будут приблизительно лежать на линии, но не обязательно на линии y = x.
источник
qexp
от SSC есть консервированная реализация.