Может кто-нибудь объяснить, как мне 5 лет, об этой проблеме из Книги ESL Хасти?

9

Я работаю над книгой Хэсти по ESL, и мне тяжело с вопросом 2.3. Вопрос в следующем:

введите описание изображения здесь

Мы рассматриваем оценку ближайшего соседа в начале координат, и среднее расстояние от начала координат до ближайшей точки данных задается этим уравнением. Я понятия не имею, с чего начать, пытаясь вывести это.

Я знаю, что большинство точек данных находятся ближе к границе выборочного пространства, чем к любой другой точке данных (проклятие размерности), но у меня возникают проблемы с переводом этого в смысл линейной алгебры / вероятности.

Спасибо!

Gary
источник
4
Что означает «ELI5» в названии? Если вы хотите вывести это уравнение, вам нужно начать с вероятностной модели для точек на шаре: что это за модель? (Пожалуйста, не требуйте, чтобы ваши читатели обращались к книге или другому сайту, чтобы понять ваш вопрос.)
whuber
3
@whuber Я согласен - Сокращения - ужасная схема хеширования.
Sycorax говорит восстановить Монику
14
Тебе пять лет. Благодарю вас за желание понять ESL, но вам придется подождать, пока вам не исполнится шесть лет. Это книга для больших мальчиков и девочек.
Ник Кокс
4
Пятилетний ребенок может начать с рассмотрения одномерного случая (p = 1). И как только это в руке, возьмите это оттуда.
Марк Л. Стоун
3
Если мы собираемся изложить ELI5, как насчет ESL?
mdewey

Ответы:

15

Пусть - расстояние от начала координат, и пусть - объем единичной гиперсферы в измерениях. Тогда объем, содержащийся в гиперсфере радиуса равенV 0 [ p ] p rrV0[p]pr

V[r]=V0[p]rp

Если мы примем обозначим долю объема, содержащегося в этой гиперсфере, и определим , тоR = r pP=V[r]/V0[p]R=rp

P[R]=R

Если точки данных равномерно распределены в пределах единичного шара, то для приведенная выше формула представляет собой интегральную функцию распределения (CDF) для . Это эквивалентно равномерной плотности вероятности для на единичном интервале, т.е. . Итак, как намекнул Марк Стоун в комментариях, мы можем свести мерный случай к эквивалентной одномерной задаче.R R p [ R ] = P [ R ] = 1 p0R1RRp[R]=P[R]=1p

Теперь, если мы имеем единственную точку , то по определению CDF имеем и , Если является наименьшим значением из точек, и все точки независимы, то CDF для определяется как (это стандартный результат одномерной теории экстремальных значений ).RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

По определению медианы имеем который мы можем переписать как что эквивалентно желаемому результату.

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

РЕДАКТИРОВАТЬ: Попытка ответа в стиле " ELI5 ", в трех частях.

  1. Для одномерного случая с одной точкой расстояние равномерно распределено по , поэтому медиана будет .[0,1]12

  2. В 1D распределение для минимума по точкам является первым случаем степени.nn

  3. В измерениях расстояние не распределено равномерно, а .prrp

GeoMatt22
источник
1
Ха-ха, я дал комментарий, что 5-летний может начать с рассмотрения случая p = 1. Я подумал добавить комментарий, что 4-летний может не только начать с случая p = 1, но и n = 1. Но я решил, что 5-летний ребенок это поймет.
Марк Л. Стоун
1
Обратите внимание, что когда я ответил на вопрос, это было после того, как @fcop уточнить его следующим образом: «Рассмотрим N точек данных, равномерно распределенных в единичном p-мерном шаре с центром в начале координат. Покажите, что среднее расстояние от начала координат до ближайшая точка данных задается ... ". Таким образом, единичный шар относительно нормы в мерном пространстве. После этого вопрос был возвращен к оригиналу, который отличается и не очень понятен. (См. L2p
Цепочку