Я пытаюсь построить доказательство для проблемы, над которой я работаю, и одно из допущений, которые я делаю, состоит в том, что множество точек, из которых я беру выборку, плотно по всему пространству. Практически я использую выборку из латинского гиперкуба, чтобы получить свои баллы во всем пространстве выборки. Что я хотел бы знать, так это если образцы гиперкубов на латинице плотны по всему пространству, если вы позволите своему размеру выборки стремиться к ? Если это так, цитата на этот факт будет принята с благодарностью.
sampling
asymptotics
latin-square
latin-hypercube
Къетил б Халворсен
источник
источник
Ответы:
Краткий ответ: да, вероятностным путем. Можно показать, что при любом расстоянии , любом конечном подмножестве пространства выборки и любом предписанном «допуске» для подходящих больших размеров выборки мы можем быть убедитесь, что вероятность того, что выборочная точка находится на расстоянии от составляет для всех .{ x 1 , … , x m } δ > 0 ϵ x i > 1 - δ i = 1 , … , mϵ>0 {x1,…,xm} δ>0 ϵ xi >1−δ i=1,…,m
Длинный ответ: я не знаю ни о какой прямо связанной цитате (но см. Ниже). Большая часть литературы по Латинской выборке гиперкубов (LHS) относится к ее свойствам уменьшения дисперсии. Другой вопрос: что значит сказать, что размер выборки имеет тенденцию к ? Для простой случайной выборки IID выборка размера может быть получена из выборки размера путем добавления дополнительной независимой выборки. Что касается LHS, я не думаю, что вы можете сделать это, так как количество образцов указано заранее как часть процедуры. Получается, что вы должны взять последовательность независимых выборок LHS размера .п п - 1 1 , 2 , 3 , . , ,∞ n n−1 1,2,3,...
Также должен быть какой-то способ интерпретации «плотного» предела, поскольку размер выборки стремится к . Плотность, по-видимому, не поддерживается детерминистически для LHS, например, в двух измерениях вы можете выбрать последовательность выборок LHS размером , чтобы они все придерживались диагонали . Так что какое-то вероятностное определение кажется необходимым. Пусть для каждого , быть образцом размера генерируется в соответствии с некоторым стохастическим механизмом. Предположим, что для разных эти выборки независимы. Тогда для определения асимптотической плотности нам может потребоваться, чтобы для каждого и для каждого∞ 1,2,3,... [0,1)2 n Xn=(Xn1,Xn2,...,Xnn) n n ϵ>0 x в выборочном пространстве (предполагается, что ), мы имеем ( как ).[0,1)d P(min1≤k≤n∥Xnk−x∥≥ϵ)→0 n→∞
Если выборка получается путем взятия независимых выборок из распределения («случайная выборка IID»), то где - объем мерного шара радиуса . Так что, конечно, случайная выборка IID асимптотически плотна.Xn n U([0,1)d)
Теперь рассмотрим случай, когда образцы получены LHS. Теорема 10.1 в этих заметках гласит, что все члены выборки распределены как . Тем не менее, перестановки, используемые в определении LHS (хотя и независимые для разных измерений), вызывают некоторую зависимость между членами выборки ( ), поэтому менее очевидно, что свойство асимптотической плотности выполняется.Xn Xn U([0,1)d) Xnk,k≤n
Исправьте и . Определите . Мы хотим показать, что . Для этого мы можем использовать предложение 10.3 в этих заметках , которое является своего рода центральной теоремой о пределе для выборки из латинского гиперкуба. Определите как если находится в шаре радиуса вокруг , в противном случае . Тогда предложение 10.3 говорит нам, что где иϵ>0 x∈[0,1)d Pn=P(min1≤k≤n∥Xnk−x∥≥ϵ) Pn→0 f:[0,1]d→R f(z)=1 z ϵ x f(z)=0 Yn:=n−−√(μ^LHS−μ)→dN(0,Σ) μ=∫[0,1]df(z)dz μ^LHS=1n∑ni=1f(Xni) .
Возьмите . В конце концов, для достаточно большого у нас будет . Таким образом, в конечном итоге у нас будет . Поэтому , где - стандартный нормальный cdf. Поскольку был произвольным, отсюда следует, что как требуется.L>0 n −n−−√μ<−L Pn=P(Yn=−n−−√μ)≤P(Yn<−L) lim supPn≤lim supP(Yn<−L)=Φ(−LΣ√) Φ L Pn→0
Это доказывает асимптотическую плотность (как определено выше) как для случайной выборки iid, так и для LHS. Неформально это означает, что с учетом любого и любого в пространстве выборки вероятность того, что выборка окажется в пределах от может быть сделана настолько близкой к 1, насколько вы пожелаете, выбрав достаточно большой размер выборки. Понятие асимптотической плотности легко расширить, чтобы применить к конечным подмножествам выборочного пространства - применяя то, что мы уже знаем, к каждой точке конечного подмножества. Более формально это означает, что мы можем показать: для любого и любого конечного подмножества выборочного пространства,ϵ x ϵ x ϵ>0 {x1,...,xm} min1≤j≤mP(min1≤k≤n∥Xnk−xj∥<ϵ)→1 (как ).n→∞
источник
Я не уверен, что это именно то, что вы хотите, но здесь идет.
Вы, LHS, выбираете точек , скажем, из . Мы будем неформально утверждать, что для любого ожидаемое число пустых (гипер) кубоидов размера в каждом измерении стремится к нулю при .n [0,1)d ϵ>0 ϵ n→∞
Пусть так что если мы разделим равномерно на крошечных кубоидов - скажем , микрокубоидов - шириной то каждый кубоид ширины содержит хотя бы один микрокубоид Так что, если мы можем показать, что ожидаемое количество несобираемых микрокубоидов равно нулю, в пределе от , то мы закончили. (Обратите внимание, что наши микрокубоиды расположены на регулярной сетке, но -cuboids могут быть в любом положении.)m=⌈2/ϵ⌉ [0,1)d md 1/m ϵ n→∞ ϵ
Вероятность полного пропуска данного микрокубоида с первой точкой выборки составляет , независимо от , поскольку первый набор координат выборки (первая точка выборки) может быть выбран произвольно. Учитывая, что первые несколько точек выборки пропустили этот микрокубоид, последующим точкам выборки будет труднее пропустить (в среднем), поэтому вероятность пропуска всех точек меньше .1−m−d n d n (1−m−d)n
В есть микрокубоидов , поэтому ожидаемое число, которое пропущено, ограничено сверху - потому что ожидания добавляют - что ноль в пределе при .md [0,1)d md(1−m−d)n n→∞
Обновления ...
(1) Вот рисунок, показывающий, как для данного можно выбрать достаточно большого размера, чтобы в сетке "микрокубоидов" (квадратов на этой 2-мерной иллюстрации) гарантированно был хотя бы один микрокубоид в пределах любой регион размером с . Я показал две "случайно" выбранные области и закрасил фиолетовыми два микрокубоида, которые они содержат.ϵ m m×m ϵ×ϵ ϵ×ϵ
(2) Рассмотрим любой конкретный микрокубоид. Он имеет объем , часть всего пространства. Таким образом, первый образец LHS, который является единственным, выбранным совершенно свободно, будет пропускать его с вероятностью . Единственный важный факт - это фиксированное значение (мы позволим , но оставим постоянным), которое меньше .(1/m)d m−d 1−m−d n→∞ m 1
(3) Теперь подумайте о количестве точек выборки . На рисунке я проиллюстрировал . LHS работает в тонкой сетке из этих сверхмаленьких «нанокубоидов» размера (если хотите), а не больших "Микрокубоиды" размером , но на самом деле это не важно в доказательстве. Доказательству нужно лишь слегка помахать рукой, что в среднем постепенно становится сложнее пропустить заданный микрокубоид, когда вы сбрасываете больше очков. Таким образом , это была вероятность для первых LHS точки отсутствует, но меньше , чем для всех из них недостающую: Это нуль в пределеn>m n=6m n−1×n−1 m−1×m−1 1−m−d (1−m−d)n n n→∞ .
(4) Все эти эпсилоны хороши для доказательства, но не хороши для вашей интуиции. Итак, вот пара изображений, иллюстрирующих и точек выборки, с выделением наибольшей пустой прямоугольной области. (Сетка - это сетка выборки LHS - «нанокубоиды», упомянутые ранее.) Должно быть «очевидно» (в некотором смутном интуитивном смысле), что наибольшая пустая область будет уменьшаться до сколь угодно малого размера, так как число точек выборки .n=10 n=50 n→∞
источник