Я работаю над книгой Хэсти по ESL, и мне тяжело с вопросом 2.3. Вопрос в следующем:
Мы рассматриваем оценку ближайшего соседа в начале координат, и среднее расстояние от начала координат до ближайшей точки данных задается этим уравнением. Я понятия не имею, с чего начать, пытаясь вывести это.
Я знаю, что большинство точек данных находятся ближе к границе выборочного пространства, чем к любой другой точке данных (проклятие размерности), но у меня возникают проблемы с переводом этого в смысл линейной алгебры / вероятности.
Спасибо!
Ответы:
Пусть - расстояние от начала координат, и пусть - объем единичной гиперсферы в измерениях. Тогда объем, содержащийся в гиперсфере радиуса равенV 0 [ p ] p rr V0[p] p r
Если мы примем обозначим долю объема, содержащегося в этой гиперсфере, и определим , тоR = r pP=V[r]/V0[p] R=rp
Если точки данных равномерно распределены в пределах единичного шара, то для приведенная выше формула представляет собой интегральную функцию распределения (CDF) для . Это эквивалентно равномерной плотности вероятности для на единичном интервале, т.е. . Итак, как намекнул Марк Стоун в комментариях, мы можем свести мерный случай к эквивалентной одномерной задаче.R R p [ R ] = P ′ [ R ] = 1 p0≤R≤1 R R p[R]=P′[R]=1 p
Теперь, если мы имеем единственную точку , то по определению CDF имеем и , Если является наименьшим значением из точек, и все точки независимы, то CDF для определяется как (это стандартный результат одномерной теории экстремальных значений ).R Pr[R≤ρ]=P[ρ] Pr[R≥ρ]=1−P[ρ] Rmin n
По определению медианы имеем который мы можем переписать как что эквивалентно желаемому результату.
РЕДАКТИРОВАТЬ: Попытка ответа в стиле " ELI5 ", в трех частях.
Для одномерного случая с одной точкой расстояние равномерно распределено по , поэтому медиана будет .[0,1] 12
В 1D распределение для минимума по точкам является первым случаем степени.n n
В измерениях расстояние не распределено равномерно, а .p r rp
источник