Плотность нормального распределения при увеличении размеров

15

Вопрос, который я хочу задать, заключается в следующем: как изменяется доля выборок в пределах 1 SD от среднего значения нормального распределения с увеличением числа вариаций?

(Почти) всем известно, что при одномерном нормальном распределении 68% выборок можно найти в пределах 1 стандартного отклонения от среднего. Как насчет 2, 3, 4, ... размеров? Я знаю, что становится меньше ... но на сколько (точно)? Было бы удобно иметь таблицу с цифрами для 1, 2, 3 ... 10 измерений, а также 1, 2, 3 ... 10 SD. Кто-нибудь может указать на такую ​​таблицу?

Немного больше контекста - у меня есть датчик, который предоставляет данные до 128 каналов. Каждый канал подвержен (независимому) электрическому шуму. Когда я ощущаю калибровочный объект, я могу усреднить достаточное количество измерений и получить среднее значение по 128 каналам вместе со 128 отдельными стандартными отклонениями.

НО ... когда речь идет об отдельных мгновенных показаниях, данные реагируют не так сильно, как 128 отдельных показаний, а как одно считывание (до) 128-мерной векторной величины. Конечно, это лучший способ обработать несколько критических чтений, которые мы берем (обычно 4-6 из 128).

Я хочу понять, что такое «нормальная» вариация и что является «выбросом» в этом векторном пространстве. Я уверен, что видел таблицу, подобную той, которую я описал, которая применима к такой ситуации - кто-нибудь может указать на одну из них?

omatai
источник
Пожалуйста - могу ли я иметь только эмпирические ответы - я не понимаю большинство математических обозначений.
Оматай

Ответы:

19

Давайте возьмем : каждый является нормальным а независимы - я думаю, это то, что вы имеете в виду с более высокими измерениями.X i N ( 0 , 1 ) X iИксзнак равно(Икс1,...,Иксd)~N(0,я)ИксяN(0,1)Икся

Вы сказали бы, что находится в пределах 1 sd от среднего, когда (расстояние между X и его средним значением меньше 1). Теперь так что это происходит с вероятностью где . Вы можете найти это в хороших квадратных столах ци ...| | X | | < 1 | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ) P ( ξ < 1 ) ξ χ 2 ( d )Икс||Икс||<1||Икс||2знак равноИкс12++Иксd2~χ2(d)п(ξ<1)ξ~χ2(d)

Вот несколько значений:

dп(ξ<1)10,6820,3930,2040,09050,03760,01470,005280,001890,00056100,00017

И за 2 сд:

dп(ξ<4)10,9520.8630,7440,5950,4560,3270,2280,1490,089100,053

Вы можете получить эти значения в R с помощью таких команд, как pchisq(1,df=1:10), pchisq(4,df=1:10)и т. Д.

Постскриптум Как отметил кардинал в комментариях, можно оценить асимптотическое поведение этих вероятностей. CDF переменной имеет вид где - неполная функция , а классика .χ2(d) γ(s,y)=y0ts-1e-tdt

Fd(Икс)знак равноп(d/2,Икс/2)знак равноγ(d/2,Икс/2)Γ(d/2)
γ(s,Y)знак равно0YTs-1е-TdTγΓ(s)знак равно0Ts-1е-TdT

Когда является целым числом, повторное интегрирование по частям показывает, что Что является хвостом CDF распределения Пуассона.P ( s , y ) = e - y k = s y ks

п(s,Y)знак равное-YΣКзнак равноsYКК!,

Теперь в этой сумме преобладает ее первый член (большое спасибо кардиналу): для больших . Мы можем применить это, когда чётно: для больших четный , предпоследняя эквивалентность по формуле Стирлинга. Из этой формулы мы видим, что асимптотическое затухание очень быстро с ростом .sdP(ξ<x)=P(d/2,x/2)1п(s,Y)~Yss!е-Ysdдд

п(ξ<Икс)знак равноп(d/2,Икс/2)~1(d/2)!(Икс2)d/2е-Икс/2~1πdе12(d-Икс)(Иксd)d2~1πе-12Иксd-12d,
dd
Элвис
источник
Добро пожаловать на наш сайт, Элвис! Хороший ответ. (+1)
whuber
1
(+1) Хороший ответ. Вот несколько предложений для вашего рассмотрения: ( 1 ) для ясности может помочь четко указать, что , ( 2 ) кратко дать интуитивный аргумент в пользу выбора, который вы сделали для значения «одно стандартное отклонение» в этом контексте и почему это даже четко определено в первую очередь, и ( 3 ) добавить утверждение относительно роста этой величины как функции от . (ОП запрашивает только «эмпирические» ответы, но другие читатели могут оценить небольшое математическое дополнение.)дξd
Кардинал
Спасибо за ваши Коментарии. Я не думал, что этот ответ получит много внимания! Это правда, что это хорошая форма проклятия размерности ... @cardinal относительно (3) Я не знаю никакого асимптотического эквивалента неполной гамма-функции, когда первые параметры уходят в бесконечность, а вторые фиксируются, это это не легко! Грубое торжество может быть сделано, я могу написать это позже.
Элвис
2
Что касается ( 3 ), чтобы избежать вычислений, вы можете использовать следующий аргумент: пусть будет четным и таким, что . Обратите внимание, что является случайной величиной . Итак, . Но тогда - это время до го возобновления пуассоновского процесса со скоростью 1/2. Итак,, В хвосте Пуассона доминирует главный член, поэтому как (опять же:ddзнак равно2КZязнак равноИкс2я-12+Икс2я2ЕИксп(1/2)| |Икс| |2знак равноΣязнак равно1КZя| |Икс| |2Кп(| |Икс| |2<1)знак равноп(N1/2(0,1)К)знак равное-1/2ΣИксзнак равноК2-Икс/Икс!п(| |Икс| |2<1)~е-1/22-К/Γ(К+1)dКзнак равноd/2 ).
кардинал
1
Отчасти из вышеприведенного комментария является то, что мы получаем точный ответ для всех даже . Кроме того, используя приближение Стирлинга, получаем, что . dп(| |Икс| |2<1)~е-1/22-К/Γ(К+1)~е(d-1)/2d-(d+1)/2/π
кардинал