Я работаю над заданием по планированию производственных мощностей и прочитал несколько книг. Это конкретно о дистрибутивах. Я использую R.
- Каков рекомендуемый подход для определения моего распределения данных? Существуют ли статистические методы для его идентификации?
У меня есть эта схема.
Какие методы моделирования доступны с использованием R? Здесь я хочу генерировать данные для определенного распределения, как экспоненциальный. Является ли r-java правильным подходом, если я хочу интегрировать его с Java?
Есть ли способ предсказать, какое распределение будет иметь эффект (загрузка ЦП и т. Д.), Когда я передам данные для определенного распределения? Каковы различные эффекты отправки определенных распределений данных?
Пожалуйста, рассматривайте их как вопросы начинающих. Существуют ли книги или материалы, посвященные этим типам симуляции?
Ноты
Диаграмма с конца статьи http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .
Совершенство техники подгонки, с которой я столкнулся
Оценка пригодности
- Хи-квадрат
- Колмогорова-Смирнова,
- Плотность статистики Андерсона-Дарлинга, графики cdf, PP и QQ
Я не уверен, какой должна быть интерпретация или дальнейшие шаги, если я обнаружу, что мое распределение нормальное или экспоненциальное и т. Д. Что это позволяет мне делать? Прогноз? Надеюсь, этот вопрос понятен.
Экспоненциальные задержки будут вызывать колебания в очереди в соответствии с моей книгой «Планирование мощностей» Нила Гюнтера. Так что я знаю, что один момент.
источник
Ответы:
Я отвечу на ваш вопрос об имитации с R, потому что это единственный, с которым я знаком. R имеет много встроенных дистрибутивов, которые вы можете смоделировать. Логика именования заключается в том, что имитировать дистрибутив
dis
с именем name будетrdis
.Ниже приведены те, которые я использую чаще всего
Вы можете найти некоторые дополнения в Fitting распределения с R .
Дополнение: спасибо @jthetzel за предоставленную ссылку с полным списком дистрибутивов и пакетов, к которым они принадлежат.
Но подождите, это еще не все: ОК, после комментария @ whuber я постараюсь рассмотреть другие вопросы. Что касается пункта 1, я никогда не придерживаюсь принципа «добро в форме». Вместо этого я всегда думаю о происхождении сигнала, например, о том, что вызывает это явление, есть ли какие-то естественные симметрии в том, что его производит и т. Д. Вам нужно несколько глав книги, чтобы охватить его, поэтому я просто приведу два примера.
Если данные считаются и верхний предел отсутствует, я пробую Пуассона. Переменные Пуассона можно интерпретировать как количество последовательных независимых в течение временного окна, что является очень общей структурой. Я подгоняю распределение и вижу (часто визуально), хорошо ли описана дисперсия. Довольно часто дисперсия выборки намного выше, и в этом случае я использую отрицательный бином. Отрицательный бином может быть истолкован как смесь Пуассона с различными переменными, которая является даже более общей, так что это обычно очень хорошо подходит для выборки.
Если я думаю, что данные симметричны относительно среднего значения, то есть, что отклонения одинаково вероятны как положительные, так и отрицательные, я стараюсь соответствовать гауссову. Затем я проверяю (опять же визуально), много ли выбросов, то есть точек данных очень далеко от среднего значения. Если есть, я использую т студента вместо этого. Распределение Стьюдента можно интерпретировать как смесь гауссовских значений с различными дисперсиями, что опять-таки является очень общим.
В тех примерах, когда я говорю визуально, я имею в виду, что я использую график QQ
Пункт 3 также заслуживает нескольких глав книги. Последствия использования дистрибутива вместо другого безграничны. Поэтому вместо того, чтобы пройти через все это, я продолжу два примера выше.
В ранние годы я не знал, что «Отрицательный бином» может иметь осмысленную интерпретацию, поэтому я все время использовал Пуассона (потому что мне нравится иметь возможность интерпретировать параметры в человеческих терминах). Очень часто, когда вы используете Пуассона, вы подходите к среднему значению, но вы недооцениваете дисперсию. Это означает, что вы не можете воспроизвести экстремальные значения для вашей выборки, и вы будете рассматривать такие значения как выбросы (точки данных, которые не имеют такое же распределение, как другие точки), в то время как на самом деле это не так.
Опять же, в ранние годы я не знал, что у ученика также есть осмысленная интерпретация, и я все время буду использовать гауссовский язык. Похожая вещь произошла. Я бы хорошо подошел к среднему значению и к дисперсии, но я бы все равно не уловил выбросы, поскольку предполагается, что почти все точки данных находятся в пределах 3 стандартных отклонений от среднего значения. Произошло то же самое, я пришел к выводу, что некоторые моменты были «экстраординарными», хотя на самом деле это не так.
источник
dnorm
,pnorm
,qnorm
, иrnorm
являются плотность, кумулятивная функция распределения (CDF), обратное ВПР и функции генератора случайных величин для нормального распределения соответственно. См. Представление задачи распределения вероятностей для полного списка доступных распределений.