Сравнение двух гистограмм с использованием расстояния хи-квадрат

18

Я хочу сравнить два изображения лиц. Я рассчитал их LBP-гистограммы. Итак, теперь мне нужно сравнить эти две гистограммы и получить что-то, что скажет, насколько эти гистограммы равны (0 - 100%).

Существует много способов решения этой задачи, но авторы метода LBP подчеркивают (Face Face with Local Binary Patterns: Application to Face Recognition. 2004), что расстояние хи-квадрат лучше, чем пересечение гистограммы и статистика логарифмического правдоподобия.

Авторы также показывают формулу расстояния хи-квадрат:

i=1n(xiyi)2(xi+yi)

Где - количество бинов, x_i - значение первого бина, y_i - значение второго бина.x i y inxiyi

В некоторых исследованиях (например, семейство расстояний гистограммы квадратичного Ци) я видел, что формула расстояния хи-квадрат:

12i=1n(xiyi)2(xi+yi)

И там http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm я вижу, что формула расстояния хи-квадрат:

i=1n(xiyi)2yi

Я застрял с этим. У меня есть несколько вопросов:

  1. Какое выражение я должен использовать?
  2. Как я должен интерпретировать результат различия? Я знаю, что разность, равная 0, означает, что обе гистограммы равны, но как я могу знать, когда обе гистограммы совершенно разные? Нужно ли использовать для этого стол хи-квадрат? Или мне нужно использовать порог? В основном я хочу отобразить разницу в процентах.
  3. Почему эти три выражения разные?
Антон Головин
источник
Является ли yi значением того же бина, что и xi, но в распределении компаратора, а не вторым бином?
ReneBt

Ответы:

7

@Silverfish попросил расширить ответ от PolatAlemdar, который не был дан, поэтому я постараюсь раскрыть его здесь.

Почему название числовое расстояние? Числовой тест для таблиц сопряженности основан на поэтому идея состоит в том, чтобы сохранить эту форму и использовать ее как мера расстояния. Это дает третью формулу OP, где интерпретируется как наблюдение, а как ожидание, что объясняет комментарий Полата Алемдара «Он используется в дискретных распределениях вероятностей», как, например, при проверке на соответствие. Эта третья форма не является функцией расстояния, так как она асимметрична по переменным и . Для сравнения гистограммы нам понадобится функция расстояния, которая симметрична по и xiyixyxy1

χ2=cells(OiEi)2Ei
xiyixyxyи две первые формы дают это. Разница между ними заключается только в постоянном множителе , что неважно, если только вы последовательно выбираете одну форму (хотя версия с дополнительным множителем лучше, если вы хотите сравнить с асимметричной формой). Обратите внимание на сходство в этих формулах с евклидовым расстоянием в квадрате, которое не является совпадением, а квадратное расстояние является своего рода взвешенным евклидовым расстоянием. По этой причине формулы в ОП обычно ставятся под корневым знаком для получения расстояний . В следующем мы следуем этому. 11212

Числовое расстояние также используется в анализе соответствия. Чтобы увидеть связь с используемой там формой, пусть будут ячейками таблицы сопряженности с строками и колонками. Обозначим итоговые значения строки а итоговые значения столбца - . Числовое расстояние между строками определяется как Для случая только с двумя строками (две гистограммы) они восстанавливают первую формулу OP (по модулю корневого знака). R C x + j = i x i j x i + = j x i j l , k χxijRCИкс+Jзнак равноΣяИксяJИкся+знак равноΣJИксяJL,К

χ2(L,К)знак равноΣJ1Икс+J(ИксLJИксL+-ИксКJИксК+)2
EDIT

Отвечая на вопрос в комментариях ниже: Книга с длительным обсуждением расстояния в квадрате - «АНАЛИЗ КОРРЕСПОНДЕНЦИИ В ПРАКТИКЕ (Второе издание)» Майкла Гринакра (Chapman & Hall). Это хорошо зарекомендовавшее себя название, исходя из его сходства с числовым значением, которое используется в таблицах сопряженности. Какой дистрибутив у него есть? Я никогда не изучал это, но, вероятно, (при некоторых условиях ...) это будет иметь некоторое распределение по квадратам, примерно. Доказательства должны быть аналогичны тому, что делается с таблицами сопряженности, большинство литературы по анализу соответствия не входит в теорию распределения. Статья, имеющая некоторую, может быть, соответствующую такую ​​теорию, http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Также см/stats//search?q=%22chisquare+distance%22 для некоторых других соответствующих сообщений на этом сайте.

Къетил б Халворсен
источник
Могу я спросить, почему ваше последнее уравнение называется числовым расстоянием? Это распространяется как таковое? Можете ли вы дать деривацию или ссылку на нее? Я не могу найти один.
LeastSquaresWonderer
1
Смотрите мои правки выше.
kjetil b halvorsen
3

Я нашел эту ссылку весьма полезной: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

Я не совсем уверен, почему, но OpenCV использует третью формулу, которую вы перечислили для сравнения гистограммы хи-квадрат.

С точки зрения смысла, я не уверен, что какой-либо алгоритм измерения даст вам ограниченный диапазон, например, от 0% до 100%. Другими словами, вы можете точно сказать, что два изображения одинаковы: значение корреляции 1,0 или значение хи-квадрат 0,0; но трудно установить ограничение на разницу между двумя изображениями: представьте, что вы сравниваете полностью белое изображение с полностью черным, числовое значение будет либо бесконечностью, либо, может быть, не числом.

Рассел
источник
2

На самом деле вы можете использовать все, что вы считаете правильным для вашего случая. Последний отличается. Он используется в дискретных распределениях вероятностей, так как последнее будет симметричным, если вы поменяете местами и .уИксY

Два других используются при расчете сходства гистограмм.

PolatAlemdar
источник
1
Возможно, вы захотите немного расширить этот ответ, чтобы объяснить, как два других можно использовать для вычисления сходства гистограмм. Обратите внимание, что вы можете добавить математический набор в Latex к своему ответу, используя знаки доллара: например, $x$производит . Икс
Серебряная рыба
2
Вам нужно объяснить, в каком смысле третье симметрично по и как оно выглядит не так. уИксY
Mdewey
0

По требованию OP значение в процентах (для уравнения 1):

пзнак равноχ*S*100N

Где: - это процент разницы (0..100). - результат уравнения 1. - количество бинов в гистограмме. - максимально возможное значение в корзине.пχNS

Дополнено в соответствии с просьбой:

Вычисляя это уравнение, можно получить процентное отличие от полной гистограммы. Вычисляя это для обеих гистограмм и затем вычитая одну из другой, можно получить разницу в процентах.

Карлос Барселлос
источник
2
Мне трудно понять, как это ответ на любой из вопросов. Можете ли вы уточнить?
Лаконичный
Это даст (в процентах, по запросу), насколько одна гистограмма отличается от полной гистограммы. Если вы вычислите это уравнение по обеим гистограммам, мы узнаем разницу между ними, поскольку это используется для триангуляции.
Карлос Барселлос