Вопрос, который я хочу задать, заключается в следующем: как изменяется доля выборок в пределах 1 SD от среднего значения нормального распределения с увеличением числа вариаций?
(Почти) всем известно, что при одномерном нормальном распределении 68% выборок можно найти в пределах 1 стандартного отклонения от среднего. Как насчет 2, 3, 4, ... размеров? Я знаю, что становится меньше ... но на сколько (точно)? Было бы удобно иметь таблицу с цифрами для 1, 2, 3 ... 10 измерений, а также 1, 2, 3 ... 10 SD. Кто-нибудь может указать на такую таблицу?
Немного больше контекста - у меня есть датчик, который предоставляет данные до 128 каналов. Каждый канал подвержен (независимому) электрическому шуму. Когда я ощущаю калибровочный объект, я могу усреднить достаточное количество измерений и получить среднее значение по 128 каналам вместе со 128 отдельными стандартными отклонениями.
НО ... когда речь идет об отдельных мгновенных показаниях, данные реагируют не так сильно, как 128 отдельных показаний, а как одно считывание (до) 128-мерной векторной величины. Конечно, это лучший способ обработать несколько критических чтений, которые мы берем (обычно 4-6 из 128).
Я хочу понять, что такое «нормальная» вариация и что является «выбросом» в этом векторном пространстве. Я уверен, что видел таблицу, подобную той, которую я описал, которая применима к такой ситуации - кто-нибудь может указать на одну из них?
Ответы:
Давайте возьмем : каждый является нормальным а независимы - я думаю, это то, что вы имеете в виду с более высокими измерениями.X i N ( 0 , 1 ) X iИкс= ( X1, ... , Xd) ∼ N( 0 , я) Икся N( 0 , 1 ) Икся
Вы сказали бы, что находится в пределах 1 sd от среднего, когда (расстояние между X и его средним значением меньше 1). Теперь так что это происходит с вероятностью где . Вы можете найти это в хороших квадратных столах ци ...| | X | | < 1 | | X | | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d ) P ( ξ < 1 ) ξ ∼ χ 2 ( d )Икс | | Икс| | <1 | | Икс| |2= Х21+ ⋯ + X2d∼ χ2( д) п( ξ< 1 ) ξ∼ χ2( д)
Вот несколько значений:
И за 2 сд:
Вы можете получить эти значения в R с помощью таких команд, как
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
и т. Д.Постскриптум Как отметил кардинал в комментариях, можно оценить асимптотическое поведение этих вероятностей. CDF переменной имеет вид где - неполная функция , а классика .χ2( д) γ(s,y)=∫y0ts-1e-tdt
Когда является целым числом, повторное интегрирование по частям показывает, что Что является хвостом CDF распределения Пуассона.P ( s , y ) = e - y ∞ ∑ k = s y ks
Теперь в этой сумме преобладает ее первый член (большое спасибо кардиналу): для больших . Мы можем применить это, когда чётно: для больших четный , предпоследняя эквивалентность по формуле Стирлинга. Из этой формулы мы видим, что асимптотическое затухание очень быстро с ростом .sdP(ξ<x)=P(d/2,x/2)∼1п( с , у) ∼ уsс !е- у s d дд
источник