Кто-нибудь может сообщить о своем опыте с адаптивной оценкой плотности ядра?
(Существует много синонимов: адаптивный | переменная | переменная-ширина, KDE | гистограмма | интерполятор ...)
Переменная оценка плотности ядра
говорит: «мы меняем ширину ядра в разных областях выборочного пространства. Есть два метода ...» на самом деле, больше: соседи в пределах некоторого радиуса, ближайшие соседи KNN (обычно K фиксированные), деревья Kd, multigrid ...
Конечно, ни один метод не может сделать все, но адаптивные методы выглядят привлекательно.
Посмотрите, например, красивую картинку адаптивной 2d сетки в
методе конечных элементов .
Я хотел бы услышать, что сработало / что не сработало для реальных данных, особенно> = 100k разбросанных точек данных в 2d или 3d.
Добавлено 2 ноября: вот график «комковатой» плотности (кусочно x ^ 2 * y ^ 2), оценки ближайшего соседа и гауссова KDE с коэффициентом Скотта. Хотя один (1) пример ничего не доказывает, он показывает, что NN может достаточно хорошо вписаться в острые холмы (и, используя деревья KD, быстр в 2d, 3d ...)
источник
Ответы:
Статья * Д.Г. Террелл; Д.В. Скотт (1992). "Оценка переменной плотности ядра". Annals of Statistics 20: 1236–1265. * Цитируемый в конце статьи в Википедии, вы сами цитируете ясно, что, если пространство наблюдений не очень редкое, метод переменного ядра не рекомендуется на основе глобальной среднеквадратичной ошибки (обе локальные и глобальные) для гауссовских распределенных случайных величин: (посредством теоретических рассуждений) они приводят цифры ( - размер выборки) и (посредством результатов начальной загрузки) (n p ≥ 4 pn ≤ 450 N p ≥ 4 п число измерений) как настройки, в которых метод переменного ядра становится конкурентоспособным с фиксированной шириной (судя по вашему вопросу, вы не в этих настройках).
Интуиция за этими результатами заключается в том, что если вы не находитесь в очень разреженных настройках, то локальная плотность просто не изменяется настолько, чтобы усиление смещения превышало потерю эффективности (и, следовательно, AMISE ядра переменной ширины увеличивается относительно AMISE фиксированной ширины). Кроме того, учитывая большой размер выборки (и небольшие размеры), ядро с фиксированной шириной будет уже очень локальным, уменьшая любые потенциальные выгоды с точки зрения смещения.
источник
Бумага
Максим В. Шаповалов, Роланд Л. Данбрак-младший. Библиотека сглаженных спин-зависимых ротамеров для белков, полученных из оценок и регрессий адаптивной плотности ядра, структура, том 19, выпуск 6, 8 июня 2011 г., страницы 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.
использует адаптивную оценку плотности ядра, чтобы сделать их оценку плотности гладкой в областях, где данные редки.
источник
Loess / lowess - это, по сути, переменный метод KDE, ширина ядра которого устанавливается с помощью подхода ближайшего соседа. Я обнаружил, что он работает довольно хорошо, безусловно, намного лучше, чем любая модель с фиксированной шириной, когда плотность точек данных заметно меняется.
С KDE и многомерными данными следует помнить о проклятии размерности. При прочих равных условиях в пределах заданного радиуса гораздо меньше точек при p ~ 10, чем при p ~ 2. Это может не быть проблемой для вас, если у вас есть только трехмерные данные, но об этом следует помнить.
источник