Я хочу сравнить два изображения лиц. Я рассчитал их LBP-гистограммы. Итак, теперь мне нужно сравнить эти две гистограммы и получить что-то, что скажет, насколько эти гистограммы равны (0 - 100%).
Существует много способов решения этой задачи, но авторы метода LBP подчеркивают (Face Face with Local Binary Patterns: Application to Face Recognition. 2004), что расстояние хи-квадрат лучше, чем пересечение гистограммы и статистика логарифмического правдоподобия.
Авторы также показывают формулу расстояния хи-квадрат:
Где - количество бинов, x_i - значение первого бина, y_i - значение второго бина.x i y i
В некоторых исследованиях (например, семейство расстояний гистограммы квадратичного Ци) я видел, что формула расстояния хи-квадрат:
И там http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm я вижу, что формула расстояния хи-квадрат:
Я застрял с этим. У меня есть несколько вопросов:
- Какое выражение я должен использовать?
- Как я должен интерпретировать результат различия? Я знаю, что разность, равная 0, означает, что обе гистограммы равны, но как я могу знать, когда обе гистограммы совершенно разные? Нужно ли использовать для этого стол хи-квадрат? Или мне нужно использовать порог? В основном я хочу отобразить разницу в процентах.
- Почему эти три выражения разные?
источник
Ответы:
@Silverfish попросил расширить ответ от PolatAlemdar, который не был дан, поэтому я постараюсь раскрыть его здесь.
Почему название числовое расстояние? Числовой тест для таблиц сопряженности основан на поэтому идея состоит в том, чтобы сохранить эту форму и использовать ее как мера расстояния. Это дает третью формулу OP, где интерпретируется как наблюдение, а как ожидание, что объясняет комментарий Полата Алемдара «Он используется в дискретных распределениях вероятностей», как, например, при проверке на соответствие. Эта третья форма не является функцией расстояния, так как она асимметрична по переменным и . Для сравнения гистограммы нам понадобится функция расстояния, которая симметрична по и xiyixyxy1
Числовое расстояние также используется в анализе соответствия. Чтобы увидеть связь с используемой там формой, пусть будут ячейками таблицы сопряженности с строками и колонками. Обозначим итоговые значения строки а итоговые значения столбца - . Числовое расстояние между строками определяется как Для случая только с двумя строками (две гистограммы) они восстанавливают первую формулу OP (по модулю корневого знака). R C x + j = ∑ i x i j x i + = ∑ j x i j l , k χИкся ж р С Икс+ j= ∑яИкся ж Икся += ∑JИкся ж л , к
Отвечая на вопрос в комментариях ниже: Книга с длительным обсуждением расстояния в квадрате - «АНАЛИЗ КОРРЕСПОНДЕНЦИИ В ПРАКТИКЕ (Второе издание)» Майкла Гринакра (Chapman & Hall). Это хорошо зарекомендовавшее себя название, исходя из его сходства с числовым значением, которое используется в таблицах сопряженности. Какой дистрибутив у него есть? Я никогда не изучал это, но, вероятно, (при некоторых условиях ...) это будет иметь некоторое распределение по квадратам, примерно. Доказательства должны быть аналогичны тому, что делается с таблицами сопряженности, большинство литературы по анализу соответствия не входит в теорию распределения. Статья, имеющая некоторую, может быть, соответствующую такую теорию, http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Также см/stats//search?q=%22chisquare+distance%22 для некоторых других соответствующих сообщений на этом сайте.
источник
Я нашел эту ссылку весьма полезной: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html
Я не совсем уверен, почему, но OpenCV использует третью формулу, которую вы перечислили для сравнения гистограммы хи-квадрат.
С точки зрения смысла, я не уверен, что какой-либо алгоритм измерения даст вам ограниченный диапазон, например, от 0% до 100%. Другими словами, вы можете точно сказать, что два изображения одинаковы: значение корреляции 1,0 или значение хи-квадрат 0,0; но трудно установить ограничение на разницу между двумя изображениями: представьте, что вы сравниваете полностью белое изображение с полностью черным, числовое значение будет либо бесконечностью, либо, может быть, не числом.
источник
На самом деле вы можете использовать все, что вы считаете правильным для вашего случая. Последний отличается. Он используется в дискретных распределениях вероятностей, так как последнее будет симметричным, если вы поменяете местами и .уИкс Y
Два других используются при расчете сходства гистограмм.
источник
$x$
производит .По требованию OP значение в процентах (для уравнения 1):
Где: - это процент разницы (0..100). - результат уравнения 1. - количество бинов в гистограмме. - максимально возможное значение в корзине.п χ N S
Дополнено в соответствии с просьбой:
Вычисляя это уравнение, можно получить процентное отличие от полной гистограммы. Вычисляя это для обеих гистограмм и затем вычитая одну из другой, можно получить разницу в процентах.
источник