Выбор значения k для анализа обнаружения локального фактора выброса (LOF)

9

У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу несколько разные результаты, используя разные k, но я не уверен, есть ли характеристики моего набора данных, которые должны подтолкнуть меня к одному значению по сравнению с другими , Спасибо!

Генри Д
источник

Ответы:

11

Публикация этого здесь для тех, кто сталкивается с моим вопросом в будущем - в оригинальной статье, описывающей алгоритм локального коэффициента выбросов, "LOF: определение локальных выбросов на основе плотности" (Breunig et al), рекомендуется метод выбора значения k , Напомним, что алгоритм LOF сравнивает плотность каждой точки с плотностью ее ближайших соседей. Авторы статьи рекомендуют выбирать минимальное и максимальное и для каждой точки брать максимальное значение LOF для каждого в этом диапазоне. Они предлагают несколько рекомендаций по выбору границ.kkkk

Для минимального значения значения LOF флуктуируют по точкам равномерного распределения для , причем точки равномерного распределения иногда отображаются как выбросы, поэтому они рекомендуют минимум . Во-вторых, минимальное значение служит минимальным размером для того, что можно считать «кластером», так что точки могут быть выбросами относительно этого кластера. Если , и у вас есть группа из точек и точка , каждая точка в группе будет включать в своих ближайших соседях, а будет включать эти точки, что приведет к тому, что у них будут очень похожие LOF. Так что если вы хотите рассмотреть точку рядом с группойk<10min(k)=10kk=1512pppNточки как выброс, а не часть этой группы, ваше к значению должно быть по крайней мере .N

Для максимального значения применяется аналогичный критерий в том смысле, что это должно быть максимальное количество объектов, которые вы хотите считать выбросами, если они объединены в кластеры. Группа из объектов, изолированных от основного набора, может быть либо кластером, либо выбросами; для они будут первыми; для они будут вторыми.NNk<Nk>N

Надеюсь, это поможет любому с подобной проблемой. Полный текст статьи здесь , и обсуждение max / min k-значений начинается на странице 7 и продолжается на странице 9. (Они обозначают значение как MinPts .)k

Генри Д
источник
Просто хочу понять одну вещь. Допустим, для любого набора данных я выбираю k = 20 и генерирую LOF для каждой точки, а затем показываю все точки в порядке убывания его LOF. Теперь, когда я анализирую данные, я могу выбрать диапазон, до которого я думаю, что данные являются выбросом (согласно знанию предметной области). Как вы думаете, это помогает ?? Я просто я, как и сейчас, мне не нужно беспокоиться о значении k, и я использую свои знания предметной области для анализа выбросов согласно ранжированию LOF. Спасибо,
Свапнил Бхуре