Есть ли общепринятое определение медианы образца на плоскости или более упорядоченных пространств?

33

Если так, то? Если нет, то почему?

Для выборки на линии медиана минимизирует общее абсолютное отклонение. Казалось бы, естественно расширить определение до R2 и т. Д., Но я никогда не видел его. Но потом я уже давно на левом поле.

phv3773
источник

Ответы:

19

Я не уверен, что существует одно общепринятое определение для многомерной медианы. Я знаком с медианной точкой Оджи , которая минимизирует сумму объемов симплексов, образованных в подмножествах точек. (См. Ссылку для технического определения.)

Обновление: сайт, на который ссылаются для определения Oja выше, также имеет хороший документ, охватывающий ряд определений многомерной медианы:

АРС
источник
1
Хорошая ссылка: спасибо. Он охватывает все упомянутое здесь.
whuber
Этот же веб-сайт также содержит обзор в формате html: cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
Aditya,
15

Как сказал @Ars , нет принятого определения (и это хороший момент). Существуют общие альтернативы семейств способов обобщения квантилей на , я думаю, наиболее значительными из них являются:Rd

  • Обобщение квантильного процесса. Пусть - эмпирическая мера (= доля наблюдений в A ). Затем, с A хорошо выбранным подмножеством борелевских множеств в R d и λ действительной оценочной мерой, вы можете определить эмпирическую квантильную функцию:Pn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    Предположим, вы можете найти один который дает вам минимум. Тогда множество (или элемент множества) 1 / 2 - ε1 / 2 + ε дает медиану , когда ε сделана достаточно мала. Определение медианы восстанавливается при использовании A = ( ] - , x ] x R ) и λ ( ] - , x ] ) = x . ArsAtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xЯ думаю, что ответ попадает в эту структуру ... расположение в полупространстве Тьюки можно получить, используя и λ ( Н х ) = х х R ,R d ).A(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • вариационное определение и M-оценка . Идея здесь заключается в том, что квантиль Q α случайной величины Y в R может быть определен посредством вариационного равенства.αQαYR

    • Наиболее распространенным определением является использование функции квантильной регрессии (также известной как потеря пинбола, угадайте, почему?) Q α = a r g inf x R E [ ρ α ( Y - x ) ] . Случай α = 1 / +2 дает р 1 / 2 ( у ) = | у | и вы можете обобщить это на более высокий размер, используя l 1ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1расстояния, как сделано в @Srikant Ответ . Это теоретическая медиана, но дает вам эмпирическую медиану, если вы замените ожидание эмпирическим ожиданием (среднее).

    • Но Колшинский предлагает использовать преобразование Лежандра-Феншеля: так как где f ( s ) = 1Qα=Argsups(sαf(s))дляеваR. Он приводит много глубоких причин для этого (см. Статью;)). Обобщая это на более высокие размеры требуют работа с векторнымальфаи заменаsальфанасек,альфано вы можете взятьα=(1/+2,...,1/+2).f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • Частичное упорядочение Вы можете обобщить определение квантилей в как только вы сможете создать частичное упорядочение (с классами эквивалентности).Rd

Очевидно, что между различными формулировками существуют мосты. Они не все очевидны ...

Робин Жирар
источник
Хороший ответ, Робин!
АРС
12

Существуют различные способы обобщения понятия медианы для более высоких измерений. Еще не упоминалось, но было предложено давно, это построить выпуклую оболочку, очистить ее и выполнять итерацию так долго, как вы можете: то, что осталось в последнем корпусе, - это набор точек, которые все являются кандидатами на " медианы «.

«Удары головой» - еще одна более поздняя попытка (ок. 1980 г.) построить надежный центр для 2D-облака точек. (Ссылка на документацию и программное обеспечение, доступное в Национальном институте рака США.)

Основная причина, по которой существует несколько различных обобщений и нет единственного очевидного решения, состоит в том, что R1 можно упорядочить, а R2, R3, ... не может быть.

Whuber
источник
Любая мера, которая совпадает с обычной медианой при ограничении R1, является обобщением кандидата. Их должно быть много.
phv3773
phv:> можно попросить обобщение для сохранения (в более высоких измерениях) некоторых интересных свойств медианы. Это серьезно ограничивает количество кандидатов (см. Комментарии после ответа Шриканта ниже)
user603
@Whuber:> тогда понятие порядка может быть обобщено на R ^ n для унимодальных распределений (см. Мой ответ ниже).
user603 20.09.10
@kwak: не могли бы вы уточнить немного? Обычное математическое определение упорядочения пространства не зависит от любого вида распределения вероятностей, поэтому вы должны неявно иметь в виду некоторые дополнительные предположения.
whuber
1
@Whuber:> Вы заявляете: «R1 можно заказать, но R2, R3, ... не может быть». R2, .., R3 можно упорядочить разными способами, отображая из Rn в R. Одним из таких способов является глубина Тьюки. Он имеет много важных свойств (устойчивость к некоторой степени, непараметрический, инвариантность, ...), но они справедливы только для случая унимодальных распределений. Дайте мне знать, если вы хотите больше деталей.
user603 21.09.10
6

Медиана полупространства Тьюки может быть расширена до> 2 измерений с помощью DEEPLOC, алгоритма Стрейфа и Руссее; смотрите здесь для деталей.

Алгоритм используется для эффективного приближения точки наибольшей глубины; Наивные методы, которые пытаются определить это точно, обычно идут вразрез с (вычислительной версией) «проклятием размерности», где время выполнения, необходимое для вычисления статистики, растет экспоненциально с числом измерений пространства.

Гэри Кэмпбелл
источник
0

R2

XY

mxmy

f(x,y)

R2mxmy

E(|(x,y)(mx,my)|

Проблема в том, что нам нужно определение того, что мы подразумеваем под:

|(x,y)(mx,my)|

Вышеуказанное является в некотором смысле метрикой расстояния, и возможны несколько возможных определений кандидатов.

Евклидов Метрика

|(x,y)(mx,my)|=(xmx)2+(ymy)2

Вычисление медианы по евклидовой метрике потребует вычисления ожиданий вышеупомянутого в отношении плотности суставов. е(Икс,год),

Такси Метрика

|(Икс,год)-(мИкс,мгод)|знак равно|Икс-мИкс|+|год-мгод|

Вычисление медианы в случае метрики такси включает вычисление медианы Икс а также Y отдельно, так как метрика отделима в Икс а также год,


источник
Срикант:> Нет. Определение должно иметь две важные особенности одномерной медианы. а) Инвариантный к монотонному преобразованию данных, б) устойчивый к загрязнению выбросами. Ни одно из предложенных вами расширений не имеет их. Глубина Тьюки обладает этими качествами.
user603 20.09.10
@kwak То, что вы говорите, имеет смысл.
@Srikant:> Проверьте статью R & S, процитированную Гэри Кэмпбеллом выше;). Best,
user603
@kwak Подумав еще немного, у метрики такси есть те функции, о которых вы упомянули, поскольку в основном она сводится к одномерным медианам. нет?
2
@Srikant:> нет неправильного ответа на вопросы phv, потому что нет и «хороших ответов»; эта область исследований все еще находится в стадии разработки. Я просто хотел указать, почему это все еще открытая проблема.
user603 20.09.10