Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов.
Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны из одного и того же распределения (Могу предположить, что распределения нормальные). Например, если X и Y коррелированы в A, но не в B, распределение будет другим.
Интуитивно понятно, что я получу ковариационную матрицу A, а затем посмотрим, какова вероятность того, что каждая точка в B вписывается туда, и наоборот (возможно, используя что-то вроде расстояния Махаланобиса).
Но это немного "ad-hoc", и, вероятно, есть более строгий способ описать это (конечно, на практике у меня более двух наборов данных с более чем двумя переменными - я пытаюсь определить, какой из моих наборов данных являются выбросами).
Благодарность!
Ответы:
Существует также расхождение Кульбака-Лейблера , которое связано с расстоянием Хеллингера, о котором вы упоминали выше.
источник
Хм, расстояние Бхаттачарья, кажется, то, что я ищу, хотя расстояние Хеллингера тоже работает.
источник
эвристический
Статистика непараметрических тестов
Информационно-теоретические расхождения
Измерения расстояния от земли
источник
Наиболее полный обзор представлен в разделе «Статистический вывод на основе показателей дивергенции » Леандро Пардо, Университет Комплутенсе, Чепмен Холл, 2006.
источник
Еще несколько показателей "Статистическая разница"
источник