В этой текущей статье в НАУКЕ предлагается следующее:
Предположим, вы случайным образом поделили доход в 500 миллионов на 10 000 человек. Есть только один способ дать всем равные 50 000 акций. Так что, если вы распределяете прибыль случайно, равенство крайне маловероятно. Но есть бесчисленное множество способов дать нескольким людям много денег, а многим - мало или ничего. Фактически, учитывая все способы, которыми вы могли бы разделить доход, большинство из них производят экспоненциальное распределение дохода.
Я сделал это с помощью следующего кода R, который, кажется, подтверждает результат:
library(MASS)
w <- 500000000 #wealth
p <- 10000 #people
d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)
Мой вопрос
Как я могу аналитически доказать, что полученное распределение действительно экспоненциально?
Приложение
Спасибо за ваши ответы и комментарии. Я подумал о проблеме и придумал следующие интуитивные рассуждения. В основном происходит следующее (Осторожно: впереди упрощение): вы как бы идете вдоль суммы и подбрасываете (смещенную) монету. Каждый раз, когда вы получаете, например, головы, вы делите сумму. Вы распределяете полученные разделы. В дискретном случае подбрасывание монеты следует биномиальному распределению, перегородки распределены геометрически. Непрерывными аналогами являются распределение Пуассона и экспоненциальное распределение соответственно! (По той же причине интуитивно становится понятно, почему геометрическое и экспоненциальное распределение обладают свойством без памяти - потому что у монеты тоже нет памяти).
Ответы:
Чтобы упростить задачу, давайте рассмотрим случай, когда допустимые значения доли каждого человека являются дискретными, например, целые числа. Эквивалентно, можно также представить разделение «оси дохода» на равные интервалы и аппроксимацию всех значений, попадающих в данный интервал, по средней точке.
Обозначая общий доход как , разрешенное s-е значение как x s , общее количество людей как N , и, наконец, число людей с долями x s как n s , должны выполняться следующие условия: C 1 ( { N сек } ) ≡ Е сек н ы - N = 0 , и C 2 ( { N сек } ) ≡ Е сек п ыX s xs N xs ns
Обратите внимание, что много разных способов разделения доли могут представлять одно и то же распределение. Например, если бы мы поделили 4 доллара между двумя людьми, 3 доллара для Алисы и 1 доллар для Боба и наоборот дали бы одинаковое распределение. Поскольку деление является случайным, распределение с максимальным количеством соответствующих способов деления доли имеет наилучшие шансы.
Чтобы получить такое распределение, нужно максимизировать соответствии с двумя ограничениями приведены выше. Метод множителей Лагранжа является каноническим подходом к этому. Кроме того, можно выбрать работу сlnWвместо самогоW, так как «ln» является монотонно возрастающей функцией. То есть, ∂перW
источник
Фактически вы можете доказать, что это не экспоненциально, а почти тривиально:
Тем не менее, это не так сложно понять, что для вашего примера с равномерным зазором он должен быть близким к экспоненциальному.
Рассмотрим процесс Пуассона, когда события происходят случайным образом в некотором измерении. Количество событий на единицу интервала имеет распределение Пуассона, а разрыв между событиями экспоненциальный.
Если взять фиксированный интервал, то события в пуассоновском процессе, которые попадают в него, равномерно распределены в интервале. Смотрите здесь .
[Тем не менее, обратите внимание, что, поскольку интервал конечен, вы просто не можете наблюдать большие промежутки, чем длина интервала, и промежутки почти такого размера будут маловероятными (рассмотрим, например, в единичном интервале - если вы видите промежутки 0,04 и 0.01, следующий пробел, который вы видите, не может быть больше 0.95).]
Более конкретно, любой разрыв, который начинается в интервале, размещенном над процессом Пуассона, имеет шанс «подвергнуться цензуре» (эффективнее, сократить короче, чем он был бы в противном случае), запустив конец интервала.
Более длинные промежутки делают это с большей вероятностью, чем более короткие, и чем больше промежутки в интервале, тем меньше должна быть средняя длина промежутка - чем больше короткие промежутки. Эта тенденция к «обрезанию» будет иметь тенденцию влиять на распределение более длинных промежутков, чем коротких (и нет никаких шансов, что какой-либо разрыв, ограниченный интервалом, превысит длину интервала - поэтому распределение размера промежутка должно плавно уменьшаться в ноль при размере всего интервала).
На диаграмме более длинный интервал в конце сокращен, а относительно более короткий интервал в начале также короче. Эти эффекты смещают нас от экспоненциальности.
Вот симуляция распределения зазоров при n = 2:
Не очень экспоненциально.
источник
Давайте предположим, что деньги делятся бесконечно, поэтому мы можем иметь дело с действительными числами, а не с целыми числами.
источник
Сказать «предположим, что вы случайно поделили 500 миллионов доходов на 10 000 человек» недостаточно для ответа на вопрос. Существует много разных случайных процессов, которые можно использовать для выделения фиксированной суммы денег фиксированному числу людей, и каждый из них будет иметь свои особенности для конечного распределения. Вот три генеративных процесса, о которых я мог думать, и распределение богатства, которое каждый создает.
Метод 1, опубликованный OP:
Выберите числа 'p' из [0, w) равномерно случайным образом. Сортируй это. Добавьте «0» вперед. Раздайте суммы в долларах, представленные различиями между последовательными элементами в этом списке.
Способ 2:
Выбирайте числа «p» из [0, w) равномерно случайным образом. Рассмотрим эти «веса», так что «w» на самом деле не имеет значения на данном этапе. Нормализовать вес. Раздайте суммы в долларах, представленные долей 'w', соответствующей каждому весу.
Способ 3:
Начните с 'p' 0s. W раз, добавьте 1 к одному из них, выбранных случайным образом.
источник
Позвольте мне добавить кое-что относительно вашего приложения.
В непрерывном случае, как указано Glen_b и Генри, точный PDF для суммы, которую получает каждый человек,
В дискретном случае, предполагая, что естьM раздача монет, вероятность получения конкретным человеком м монеты
В обоих случаях, как мы пробуемN раз от этого истинного распределения вероятности, будет ошибка, связанная с конечным размером выборки.
Однако выполнение анализа ошибок не кажется простым, поскольку различные выборки в этом случае не являются независимыми. Они должны суммировать до общей суммы, и то, сколько получает первый человек, влияет на распределение вероятностей для второго человека и так далее.
Мой предыдущий ответ не страдает от этой проблемы, но я думаю, что было бы полезно посмотреть, как ее можно решить с помощью этого подхода.
источник
Хороший теоретический анализ, проведенный с помощью ответов, полученных голосованием. Однако, вот мой простой эмпирический взгляд на то, почему распределение экспоненциально.
Когда вы распределяете деньги случайным образом , давайте рассмотрим, как вы делаете это один за другим. Пусть S будет исходной суммой.
Для первого человека вы должны выбрать случайную сумму от 0 до S. Таким образом, в среднем вы выберете S / 2 и останетесь с S / 2.
Для второго человека вы бы выбрали случайным образом от 0 до, в среднем, S / 2. Таким образом, в среднем вы выберете S / 4 и останетесь с S / 4.
Таким образом, вы в основном делите сумму пополам каждый раз (статистически).
Хотя в реальном примере у вас не будет непрерывно уменьшенных вдвое значений, это показывает, почему следует ожидать, что распределение будет экспоненциальным.
источник