Гауссовские данные, распределенные в одном измерении, требуют двух параметров для его характеристики (среднее значение, дисперсия), и, по слухам, около 30 случайно выбранных выборок обычно достаточно для оценки этих параметров с достаточно высокой достоверностью. Но что происходит, когда число измерений увеличивается?
В двух измерениях (например, рост, вес) требуется 5 параметров для определения эллипса «наилучшего соответствия». В трех измерениях это увеличивается до 9 параметров для описания эллипсоида, а в 4-х измерениях требуется 14 параметров. Мне интересно знать, увеличивается ли число образцов, необходимых для оценки этих параметров, с сопоставимой скоростью, с более медленной скоростью или (пожалуйста, нет!) С более высокой скоростью. Еще лучше, если бы было широко распространенное эмпирическое правило, которое предполагает, сколько выборок требуется для характеристики распределения Гаусса в данном количестве измерений, это было бы полезно знать.
Чтобы быть более точным, предположим, что мы хотим определить симметричную «наиболее подходящую» границу с центром в средней точке, внутри которой мы можем быть уверены, что 95% всех образцов упадут. Я хочу знать, сколько выборок может потребоваться, чтобы найти параметры для аппроксимации этой границы (интервал в 1-D, эллипс в 2-D и т. Д.) С достаточно высокой (> 95%) достоверностью, и как это число изменяется по мере того, как количество измерений увеличивается.
Ответы:
Объем данных, необходимых для оценки параметров многомерного нормального распределения с точностью до заданной точности с заданной достоверностью, не зависит от измерения, при прочих равных условиях. Поэтому вы можете применять любое эмпирическое правило для двух измерений к задачам более высокого измерения без каких-либо изменений.
Зачем это? Есть только три вида параметров: среднее, дисперсии и ковариации. Ошибка оценки в среднем зависит только от дисперсии и количества данных, . Таким образом, когда имеет многомерное нормальное распределение, а имеют дисперсии , тогда оценки зависят только от и . Отсюда, для достижения достаточной точности при оценке всех , нам нужно только учитывать объем данных , необходимых для , имеющего самый большой из( X 1 , X 2 , … , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in (X1,X2,…,Xd) Xi σ2i E[Xi] σi n E[Xi] Xi σi , Поэтому, когда мы рассматриваем последовательность задач оценки для увеличивающихся измерений , все, что нам нужно учитывать, это то, насколько увеличится наибольшее значение . Когда эти параметры ограничены выше, мы заключаем, что объем необходимых данных не зависит от измерения.d σi
Аналогичные соображения применимы к оценке дисперсий и ковариаций : если определенного количества данных достаточно для оценки одной ковариации (или коэффициента корреляции) с требуемой точностью, то - при условии, что базовое нормальное распределение имеет аналогичные значения параметров - того же объема данных будет достаточно для оценки любой ковариации или коэффициента корреляции. σ i jσ2i σij
Чтобы проиллюстрировать и обеспечить эмпирическую поддержку этого аргумента, давайте изучим некоторые симуляции. Следующее создает параметры для мультинормального распределения заданных измерений, рисует множество независимых идентично распределенных наборов векторов из этого распределения, оценивает параметры для каждого такого образца и суммирует результаты этих оценок параметров в терминах (1) их средних значений: - чтобы продемонстрировать, что они несмещены (и код работает правильно), и (2) их стандартные отклонения, которые количественно определяют точность оценок. (Не путайте эти стандартные отклонения, которые количественно определяют степень вариации среди оценок, полученных за несколько раз итерации симуляции со стандартными отклонениями, используемыми для определения основного мультинормального распределения!дd Изменения , при условии, что при изменении мы не вносим больших отклонений в само базовое мультинормальное распределение.d
Размеры дисперсий базового распределения контролируются в этом моделировании, делая наибольшее собственное значение ковариационной матрицы равным . Это сохраняет плотность вероятности «облаком» в пределах границ при увеличении размера, независимо от того, какой может быть форма этого облака. Моделирование других моделей поведения системы при увеличении размера может быть создано просто путем изменения способа генерации собственных значений; один пример (с использованием гамма-распределения) показан закомментированным в приведенном ниже коде.1
R
То, что мы ищем, это чтобы убедиться, что стандартные отклонения оценок параметров не меняются заметно при изменении размера . Поэтому я показываю результаты для двух крайностей, и , используя одинаковое количество данных ( ) в обоих случаях. Следует отметить, что число параметров, оцениваемых при , равном , намного превышает количество векторов ( ) и даже превышает отдельные числа ( ) во всем наборе данных.d = 2 d = 60 30 d = 60 1890 30 30 * 60 = 1800d d=2 d=60 30 d=60 1890 30 30∗60=1800
Начнем с двух измерений: . Существует пять параметров: две дисперсии (со стандартными отклонениями и в этом моделировании), ковариация (SD = ) и два средних (SD = и ). При различных имитациях (которые можно получить путем изменения начального значения случайного начального числа) они будут немного отличаться, но они будут постоянно иметь сопоставимый размер, когда размер выборки равен . Например, в следующем моделировании значения SD составляют , , , и0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18d=2 0.097 0.182 0.126 0.11 0.15 n=30 0.014 0.263 0.043 0.04 0.18 соответственно: все они изменились, но имеют сравнимые порядки.
(Эти утверждения могут быть поддержаны теоретически, но суть здесь в том, чтобы предоставить чисто эмпирическую демонстрацию.)
Теперь мы переходим к , сохраняя размер выборки при . В частности, это означает, что каждый образец состоит из векторов, каждый из которых имеет компонентов. Вместо того чтобы перечислять все стандартные отклонения , давайте просто посмотрим на их изображения с использованием гистограмм, чтобы изобразить их диапазоны.n = 30 30 60 1890d=60 n=30 30 60 1890
Диаграммы рассеяния в верхнем ряду сравнивают фактические параметрыσ μ 104
sigma
( ) и ( ) со средними оценками, сделанными в течение итераций в этом моделировании. Серые контрольные линии обозначают место идеального равенства: оценки явно работают так, как задумано, и являются непредвзятыми.μ 10 4mu
Гистограммы отображаются в нижнем ряду, отдельно для всех записей в ковариационной матрице (слева) и для средних (справа). SD отдельных вариаций имеют тенденцию находиться между и то время как SD ковариаций между отдельными компонентами имеют тенденцию находиться между и : точно в диапазоне, достигнутом, когда . Аналогично, SD средних оценок имеют тенденцию находиться между и , что сравнимо с тем, что наблюдалось при . Конечно , нет никаких признаков того, что СД уже увеличился , как0,12 0,04 0,080.08 0.12 0.04 0.08 d=2 0.08 0.13 d=2 d поднялся с до .2 60
Код следует.
источник
В некоторых кратких числовых значениях приводятся следующие распределения ошибок для подбора 30 выборок, созданных из стандартного нормального распределения, а затем подгонки к одномерному гауссову.
Квартили указаны. Предполагается, что этот уровень вариации желателен в многомерном случае.
У меня нет времени, чтобы побить MatLab, чтобы получить общий результат, поэтому я поделюсь своим «правилом большого пальца». 30 предоставляется как эмпирическое правило, или эвристика, поэтому предполагается, что эвристика не является неприемлемой.
Моя эвристика заключается в использовании треугольника Паскаля, умноженного на одномерный регистр.
Если я использую 2-мерные данные, тогда я перехожу ко 2-й строке и суммирую ее, чтобы получить 2-кратное число выборок или 60 выборок. Для 3d-данных я перехожу к 3-му ряду и суммирую его, чтобы получить 4х количество образцов или 120 образцов. Для данных 5d я перехожу к 5-й строке и суммирую ее, чтобы получить 16-кратное количество выборок или 480 выборок.
Удачи.
РЕДАКТИРОВАТЬ:
Это было интуитивно понятно, но все нужно защищать в математике. Я не могу просто сделать скачок от формулировки полиномиальных форм от Finite Elements с опытом, чтобы получить примерную оценку.
Уравнение для суммы строки треугольника Паскаля равно .kth 2k
Моя идея для подхода здесь состоит в том, чтобы приравнять AIC более многомерного распределения с большим количеством выборок к уменьшенному размерному распределению с меньшим количеством образцов.
Информационный критерий Акаике (AIC) определяется как где - остаточная сумма квадратов, - количество выборок, а - количество параметров для модели. ,AIC=nlog(RSSn)+2∗k RSS n k
Для каждого измерения, которое мы исключаем, это означает, что среднее значение теряет строку, а ковариация - как строку, так и столбец. Мы можем заявить это как
из
Предполагая, что ошибка для каждой точки выборки является постоянной, связывает остаточную сумму квадратов с количеством выборок, а член в логарифме остается постоянным. Разница в количестве отсчетов становится постоянной масштабирования.
итак имеем:
Решение для увеличения образцов с размерностью дает:
Так что же такое функция масштабирования? Предположим, что для двумерного многомерного гауссова число требуемых выборок составляет 15 на параметр. Есть 2 средних и 4 элемента ковариации, следовательно, 6 параметров или 90 выборок. Разница составляет 60 отсчетов, значение .A−1=5
В этот момент я бы сказал, что эвристика начинается немного низко, но заканчивается примерно в 2 раза числом требуемых выборок. Его лучший выбор, по моему личному мнению, составляет около 4 измерений или около того.
РЕДАКТИРОВАТЬ:
Итак, я прочитал ответ @whuber, и мне это нравится. Это эмпирически, и в этом случае это авторитетно. Я проголосовал за его ответ.
Далее я пытаюсь обсудить и надеюсь, что смогу использовать более ~ 300 символов, и я надеюсь, что смогу вставлять картинки. Поэтому я обсуждаю в рамках ответа. Я надеюсь, что это нормально.
На данный момент я не уверен, что использование AIC для этого или как использовались размер выборки и размеры параметров, было неверным.
Следующие шаги:
Комментарии и предложения приветствуются.
источник