Имитация распределений

9

Я работаю над заданием по планированию производственных мощностей и прочитал несколько книг. Это конкретно о дистрибутивах. Я использую R.

  1. Каков рекомендуемый подход для определения моего распределения данных? Существуют ли статистические методы для его идентификации?

У меня есть эта схема.

ВЕРОЯТНОСТНЫЕ ПОДХОДЫ: СЦЕНАРИЙНЫЙ АНАЛИЗ, РЕШЕНИЯ И МОДЕЛИРОВАНИЕ

  1. Какие методы моделирования доступны с использованием R? Здесь я хочу генерировать данные для определенного распределения, как экспоненциальный. Является ли r-java правильным подходом, если я хочу интегрировать его с Java?

  2. Есть ли способ предсказать, какое распределение будет иметь эффект (загрузка ЦП и т. Д.), Когда я передам данные для определенного распределения? Каковы различные эффекты отправки определенных распределений данных?

Пожалуйста, рассматривайте их как вопросы начинающих. Существуют ли книги или материалы, посвященные этим типам симуляции?

Ноты

Диаграмма с конца статьи http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Совершенство техники подгонки, с которой я столкнулся

Оценка пригодности

  1. Хи-квадрат
  2. Колмогорова-Смирнова,
  3. Плотность статистики Андерсона-Дарлинга, графики cdf, PP и QQ

Я не уверен, какой должна быть интерпретация или дальнейшие шаги, если я обнаружу, что мое распределение нормальное или экспоненциальное и т. Д. Что это позволяет мне делать? Прогноз? Надеюсь, этот вопрос понятен.

Экспоненциальные задержки будут вызывать колебания в очереди в соответствии с моей книгой «Планирование мощностей» Нила Гюнтера. Так что я знаю, что один момент.

Мохан Радхакришнан
источник
Если вы считаете, что ваша диаграмма важна, вы должны попытаться улучшить качество изображения ...
Октябрь
Я ценю заботу, которая требуется, чтобы сделать хороший вопрос. По моему мнению, ваш пункт 2. (который должен быть 3, я думаю) нуждается в разъяснении, или вы могли бы даже переместить его в Переполнение стека.
gui11aume
1
Я думаю, что мой последний вопрос принадлежит здесь. Допустим, я идентифицирую свое распределение данных. Могу ли я предсказать, что будущие распределения будут следовать этой вероятности? Я пропускаю часть анализа данных здесь. Я знаю, что на графике с усами в коробках легко показываются квартили, которые я понимаю. Я не понимаю полезности распространения. Пусть есть свойства этого распределения, которые я должен исследовать для предсказания.
Мохан Радхакришнан
@ocram Если качество плохое, увеличьте страницу в браузере: подробности есть. Кстати, эти изображения должны быть из какой-то документации Crystal Ball .
whuber
@whuber: Действительно, я даже не пытался! Извините за комментарий.
Октябрь

Ответы:

7

Я отвечу на ваш вопрос об имитации с R, потому что это единственный, с которым я знаком. R имеет много встроенных дистрибутивов, которые вы можете смоделировать. Логика именования заключается в том, что имитировать дистрибутив disс именем name будет rdis.

Ниже приведены те, которые я использую чаще всего

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Вы можете найти некоторые дополнения в Fitting распределения с R .

Дополнение: спасибо @jthetzel за предоставленную ссылку с полным списком дистрибутивов и пакетов, к которым они принадлежат.

Но подождите, это еще не все: ОК, после комментария @ whuber я постараюсь рассмотреть другие вопросы. Что касается пункта 1, я никогда не придерживаюсь принципа «добро в форме». Вместо этого я всегда думаю о происхождении сигнала, например, о том, что вызывает это явление, есть ли какие-то естественные симметрии в том, что его производит и т. Д. Вам нужно несколько глав книги, чтобы охватить его, поэтому я просто приведу два примера.

  1. Если данные считаются и верхний предел отсутствует, я пробую Пуассона. Переменные Пуассона можно интерпретировать как количество последовательных независимых в течение временного окна, что является очень общей структурой. Я подгоняю распределение и вижу (часто визуально), хорошо ли описана дисперсия. Довольно часто дисперсия выборки намного выше, и в этом случае я использую отрицательный бином. Отрицательный бином может быть истолкован как смесь Пуассона с различными переменными, которая является даже более общей, так что это обычно очень хорошо подходит для выборки.

  2. Если я думаю, что данные симметричны относительно среднего значения, то есть, что отклонения одинаково вероятны как положительные, так и отрицательные, я стараюсь соответствовать гауссову. Затем я проверяю (опять же визуально), много ли выбросов, то есть точек данных очень далеко от среднего значения. Если есть, я использую т студента вместо этого. Распределение Стьюдента можно интерпретировать как смесь гауссовских значений с различными дисперсиями, что опять-таки является очень общим.

В тех примерах, когда я говорю визуально, я имею в виду, что я использую график QQ

Пункт 3 также заслуживает нескольких глав книги. Последствия использования дистрибутива вместо другого безграничны. Поэтому вместо того, чтобы пройти через все это, я продолжу два примера выше.

  1. В ранние годы я не знал, что «Отрицательный бином» может иметь осмысленную интерпретацию, поэтому я все время использовал Пуассона (потому что мне нравится иметь возможность интерпретировать параметры в человеческих терминах). Очень часто, когда вы используете Пуассона, вы подходите к среднему значению, но вы недооцениваете дисперсию. Это означает, что вы не можете воспроизвести экстремальные значения для вашей выборки, и вы будете рассматривать такие значения как выбросы (точки данных, которые не имеют такое же распределение, как другие точки), в то время как на самом деле это не так.

  2. Опять же, в ранние годы я не знал, что у ученика также есть осмысленная интерпретация, и я все время буду использовать гауссовский язык. Похожая вещь произошла. Я бы хорошо подошел к среднему значению и к дисперсии, но я бы все равно не уловил выбросы, поскольку предполагается, что почти все точки данных находятся в пределах 3 стандартных отклонений от среднего значения. Произошло то же самое, я пришел к выводу, что некоторые моменты были «экстраординарными», хотя на самом деле это не так.

gui11aume
источник
2
Примечание , чтобы добавить к ответу gui11aume в: Существует «д, р, д, г» синтаксис для функций распределения , связанных в R. Например, dnorm, pnorm, qnorm, и rnormявляются плотность, кумулятивная функция распределения (CDF), обратное ВПР и функции генератора случайных величин для нормального распределения соответственно. См. Представление задачи распределения вероятностей для полного списка доступных распределений.
Джетцель
Да, большое спасибо (+1). Я долго искал такой список. Я положил его в ответ, чтобы он был более заметным.
gui11aume
1
Я даже не могу сказать вам, что такое треть этих дистрибутивов. Так много всего, чтобы узнать ... +1, но давайте не будем забывать остальную часть вопроса, который является фундаментальным (но, возможно, немного более широким): какие эффекты имеет выбор распределения в симуляции? Как можно сделать такой выбор?
whuber
@whuber Я добавил влияние экспоненциального распределения задержек на колебания в очереди. См. книги по СР или очередям.
Мохан Радхакришнан
Я прочитал распределение Фиттинга с помощью R, а также однажды использовал график QQ. Оценка максимального правдоподобия начинается с математического выражения, известного как функция правдоподобия выборочных данных. Проще говоря, вероятность набора данных - это вероятность получения этого конкретного набора данных с учетом выбранной вероятностной модели. Означает ли это, что есть способ рассчитать, что распределение может произойти снова? Сколько измерений требуется, чтобы доказать это?
Мохан Радхакришнан