Сколько самых больших слагаемых в

Рассмотрим $\sum_{i=1}^N |X_i|$ где $X_1, \ldots, X_N$ - iid и CLT имеет место.
Сколько самых больших терминов составляют половину общей суммы?
Например, 10 + 9 + 8 $\approx$ (10 + 9 + 8 $\dots$ + 1) / 2: 30% терминов достигают примерно половины общего числа.

определять
$\qquad\text{sumbiggest( j}; X_1 \dots X_N ) \equiv \text{sum of the j biggest of } |X_1| \dots |X_N|$
$\qquad\text{halfsum}( N ) \equiv \text{the smallest j such that sumbiggest( j )} \approx \text{sumbiggest}( N ) / 2 .$

Существует ли общий асимптотический результат для полусуммы ( $N, \mu, \sigma$ )?
Простой, интуитивный вывод был бы хорош.

(Немного Монте-Карло предполагает, что иногда halfsum ( $N$ ) $\approx N$ / 4 или около того;
то есть наибольшая 1/4 от $X_i$ составляет в сумме половину от общего.
Я получаю 0,24 $N$ для полнормального, 0,19 $N$ для экспоненциальный, для $N$ = 20, 50, 100.)

central-limit-theorem asymptotics Денис
источник

Не ожидайте CLT-подобного универсального результата. Например, ответ для равномерных (0,1) вариаций будет сильно отличаться от ответа для равномерных (1000,1001) вариаций!

whuber

Да, половина будет, конечно, зависеть от среднего и сд. Но почему ~ N / 5 для экспоненциального?

Денис

Асимптотически, Denis, отсечка для halfsum будет значение

, для которых

, где

является PDF для

; вопрос задает

(

- это cdf для

). В случае с униформой

x

$x$

\int_{0}^{x} t f (t) d t = 1 / 2

$\int_0^x t f(t)dt = 1/2$

f

$f$

| X_{i} |

$|X_i|$

N (1 - F (x))

$N(1-F(x))$

F

$F$

| X_{i} |

$|X_i|$

[0, 1]

$[0,1]$ распространение вы получите ответ @ Дилип; для экспоненты

x \approx 0.186682 N \approx N / 5

$x\approx 0.186682 N \approx N/5$

whuber

Ответы:

Нет, общего асимптотического результата нет. Пусть будет упорядоченным , где является наибольшим. $x_{[1]} \dots x_{[N]}$ $x_i$ $x_{[1]}$

Рассмотрим следующие два примера:

1) . Ясно, что CLT держит. Вам нужно только наблюдение для $P(x=0) = 1$ $M=1$ , $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

2) . Ясно, что CLT держит. Вам нужно наблюдений для $P(x=1) = 1$ $M=\lceil N/2\rceil$ , $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

Для нетривиального примера распределение Бернулли:

3) . Еще раз CLT держит. Вам нужно наблюдений, чтобы удовлетворить ваши условия. Изменяя между 0 и 1, вы можете получить как можно ближе к примеру 1 или примеру 2. $P(x=1) = p,\space P(x=0) = 1-p$ $\lceil pN/2\rceil$ $p$

jbowman
источник

Действительно очевидно, что ответ может быть где угодно между

, но это не подразумевает отсутствие общего результата. Это означает, что мы должны рассмотреть ответы, где доля зависит от некоторых свойств базового распределения, таких как его среднее значение и SD. Вместе с CLT этого достаточно, чтобы предоставить конкретную и количественную информацию о том, как распределены

по сравнению с их суммой, поэтому разумно надеяться на такой результат.

0

$0$

N / 2

$N/2$

x [i]

$x[i]$

whuber

Вот грубый аргумент, дающий немного иную оценку для равномерно распределенных случайных величин. Предположим, что - непрерывные случайные величины, равномерно распределенные на . Тогда имеет среднее значение . Предположим, что по удивительному и совершенно невероятному совпадению сумма точно равна . Поэтому мы хотим оценить, сколько из самых больших значений составляет до или более. Теперь гистограмма из образцов ( $X_i$ $[0,1]$ $\sum_i X_i$ $N/2$ $N/2$ $X$ $N/4$ $N$ $N$ очень большой), взятый из равномерного распределения , приблизительно плоский от до , и поэтому для любых , , есть выборок, распределенных примерно равномерно между к , Эти образцы имеют среднее значение и сумму, равную $U[0,1]$ $0$ $1$ $x$ $0 < x < 1$ $(1-x)N$ $x$ $1$ $(1+x)/2$ . Сумма превышает для $(1-x)N(1+x)/2) = (1-x^2)N/2$ $N/4$ . Итак, сумма $x \leq 1/\sqrt{2}$ самых больших выборок превышает . $(1-1/\sqrt{2})N \approx 0.3N$ $N/4$

$\sum_i X_i = Y$ $Y$ $x$ $(1-x^2)N/2 = Y/2$ $Y$ $N/2$ $N/12$ $Y$ $x = \sqrt{1-(Y/N)}$ $Y$ $Y=0$ $Y=N$

Дилип Сарватэ
источник

(0, 1)

$(0,1)$

1

$1$

(0, \infty)

$(0,\infty)$

Y_{1}, Y_{2}, \dots, Y_{n + 1}

$Y_1, Y_2, \ldots, Y_{n+1}$

Y_{max} = α

$Y_{\max} = \alpha$

Y_{(1)}, Y_{(2)}, \dots, Y_{(n)}

$Y_{(1)}, Y_{(2)}, \ldots, Y_{(n)}$ равномерно распределены в . См., Например, этот вопрос и ответ на сопутствующем сайте math.SE. (продолжение)

(0, α)

$(0, \alpha)$

Дилип Сарватэ

В любом случае, мой аргумент не использует расстояния между упорядоченными выборками из равномерного распределения.

Дилип Сарватэ

Вы правы, я вас неправильно понял. В качестве побочного вопроса, не являются ли части между равномерно-случайными точками экспоненциально распределенными, после масштабирования - обратными значениями ваших q + a? [Правило сломанной палки из демонстрационного проекта Вольфрама] ( showrations.wolfram.com/BrokenStickRule ), конечно, выглядит экспоненциально, должно быть легкое? Доказательство.

Денис

Пожалуйста, задайте свой вопрос в качестве отдельного вопроса.

Дилип Сарватэ

Начал, потом увидел вероятность-распределения-фрагментов-длин , вы могли бы прокомментировать там.

Денис

Давайте предположим, что X имеет только положительные значения, чтобы избавиться от абсолютного значения.

Без точного доказательства, я думаю, вы должны решить для к

$(1-F_{X}(k))E(X|X>=k)= \frac{1}{2} E(X)$ где F - кумулятивная функция распределения для X

и тогда ответ дается, беря самые высокие значения. $n(1-F_X(k))$

Моя логика заключается в том, что асимтотически сумма всех значений выше k должна быть примерно равна

$n(1-F_{X}(k))E(X|X>=k)$

и асимтотически половина общей суммы составляет около

$\frac{1}{2}nE(X)$ .

Численное моделирование показывает, что результат справедлив для равномерного случая (равномерного в ), где и я получаю . Я не уверен, что результат всегда выполняется или его можно упростить, но я думаю, что он действительно зависит от функции распределения F. $[0,1]$ $F(k)=k$ $k=\sqrt(\frac{1}{2})$

Erik
источник