Я замечаю в статистике / методах машинного обучения, распределение часто аппроксимируется гауссианом, а затем этот гауссиан используется для выборки. Они начинают с вычисления первых двух моментов распределения и используют их для оценки и . Затем они могут выбрать из этого гауссиана.
Мне кажется, чем больше моментов я вычисляю, тем лучше я должен быть в состоянии приблизиться к распределению, которое я хочу отобрать.
Что если я вычислю 3 момента ... как я могу использовать их для выборки из распределения? И можно ли это продлить до N моментов?
probability
sampling
moments
curious_dan
источник
источник
Ответы:
Три момента не определяют форму распределения; если вы выберете распределение-семью с тремя параметрами, которые относятся к первым трем моментам совокупности, вы можете выполнить сопоставление моментов («метод моментов»), чтобы оценить три параметра, а затем сгенерировать значения из такого распределения. Есть много таких распределений.
Иногда даже наличия всех моментов недостаточно для определения распределения. Если функция, генерирующая момент, существует (в окрестности 0), то она однозначно идентифицирует распределение (в принципе, вы можете сделать обратное преобразование Лапласа, чтобы получить его).
[Если некоторые моменты не являются конечными, это означает, что mgf не существует, но есть также случаи, когда все моменты конечны, но mgf все еще не существует в окрестности 0.]
Учитывая, что есть выбор распределений, можно попытаться рассмотреть максимальное энтропийное решение с ограничением на первые три момента, но нет распределения на действительной прямой, которое его достигает (поскольку результирующая кубика в показателе степени будет неограниченной).
Как процесс будет работать для конкретного выбора распределения
Мы можем сделать это, потому что, выбрав распределение с соответствующей асимметрией, мы можем затем вернуть желаемое среднее значение и дисперсию путем масштабирования и сдвига.
Давайте рассмотрим пример. Вчера я создал большой набор данных (который все еще находится в моем сеансе R), распределение которого я не пытался вычислить функциональной формой (это большой набор значений журнала выборочной дисперсии Коши при n = 10). У нас есть первые три исходных момента 1,519, 3,559 и 11,479 соответственно, или, соответственно, среднее 1,518, стандартное отклонение * 1,136 и асимметрия 1,429 (так что это значения выборки из большой выборки).
Формально метод моментов будет пытаться сопоставить необработанные моменты, но вычисление будет проще, если мы начнем с асимметрии (превращение решения трех уравнений с тремя неизвестными в решение по одному параметру за раз, что значительно упрощает задачу).
* Я собираюсь убрать различие между использованием n-знаменателя на дисперсии - как это будет соответствовать формальному методу моментов - и n-1 знаменателем и просто использовать выборочные вычисления.
Но мы могли бы так же легко выбрать распределение со смещенной гаммой или со сдвигом-Вейбулла (или со сдвигом F или любым другим числом вариантов выбора) и пройти по существу тот же процесс. Каждый из них будет другим.
[Для образца, с которым я имел дело, смещенная гамма, вероятно, была бы значительно лучшим выбором, чем смещенная логнормальная, поскольку распределение логарифмов значений оставалось асимметричным, а распределение их корня куба было очень близко к симметричному; это согласуется с тем, что вы увидите с (несмещенными) значениями гамма-плотности, но смещенная влево плотность бревен не может быть достигнута при любом смещенном бревне.]
Можно даже взять диаграмму перекоса-эксцесса на графике Пирсона и нарисовать линию при желаемой асимметрии, и таким образом получить двухточечное распределение, последовательность бета-распределений, гамма-распределение, последовательность бета-простых распределений, обратное гамма-распределение и последовательность распределений Пирсона типа IV с одинаковой асимметрией.
Больше моментов
Моменты не очень хорошо фиксируют распределения, поэтому, даже если вы укажете много моментов, все равно будет много различных распределений (особенно в отношении их экстремального поведения), которые будут соответствовать им.
Вы, конечно, можете выбрать некоторое семейство дистрибутивов по крайней мере с четырьмя параметрами и попытаться сопоставить более трех моментов; например, приведенные выше распределения Пирсона позволяют нам сопоставить первые четыре момента, и есть другие варианты распределений, которые позволят подобную степень гибкости.
Можно использовать другие стратегии для выбора распределений, которые могут соответствовать распределительным признакам - распределения смесей, моделирование плотности записи с использованием сплайнов и т. Д.
Однако часто, если кто-то возвращается к первоначальной цели, для которой пытался найти дистрибутив, часто оказывается, что можно сделать что-то лучшее, чем стратегия, описанная здесь.
источник
Таким образом, ответ, как правило, НЕТ, вы не можете сделать это, но иногда вы можете.
Когда ты не можешь
Причины, по которым вы не можете этого сделать, обычно в два раза.
Во-первых, если у вас есть N наблюдений, то самое большее вы можете рассчитать N моментов. А как насчет других моментов? Вы не можете просто установить их на ноль.
Когда ты можешь
Теперь иногда вы можете получить распределение из моментов. Это когда вы делаете предположение о каком-то распределении. Например, вы заявляете, что это нормально. В этом случае все, что вам нужно, это всего лишь два момента, которые обычно можно рассчитать с приличной точностью. Обратите внимание, что нормальное распределение имеет более высокие моменты, например, эксцесс, но они нам не нужны. Если бы вы рассчитали все моменты нормального распределения (не предполагая, что это нормально), а затем попытались восстановить характеристическую функцию для выборки из распределения, это не сработало бы. Однако, когда вы забываете о высших моментах и придерживаетесь первых двух, это работает.
источник