Как оценить сходство двух гистограмм?

33

Учитывая две гистограммы, как мы оцениваем, похожи они или нет?

Достаточно ли просто посмотреть на две гистограммы? Простое сопоставление один к одному имеет проблему, заключающуюся в том, что если гистограмма немного отличается и немного смещается, то мы не получим желаемый результат.

Какие-либо предложения?

histogram image-processing Мью 3,4
источник

2

Что значит «похожий»? Например, критерий хи-квадрат и критерий KS проверяют, близки ли две гистограммы к одинаковым. Но «похожий» может означать «иметь одинаковую форму», игнорируя любые различия местоположения и / или масштаба. Не могли бы вы уточнить свои намерения?

whuber

8

Недавняя статья, которую стоит прочитать:

Цао, Ю. Петцольд, Л. Ограничения точности и измерения ошибок при стохастическом моделировании химически реагирующих систем, 2006.

Хотя в этой статье основное внимание уделяется сравнению алгоритмов стохастического моделирования, по сути, основная идея состоит в том, как сравнить две гистограммы.

Вы можете получить доступ к PDF с веб-страницы автора.

csgillespie
источник

Привет, это хорошая статья, спасибо за ссылку в формате PDF .. Я обязательно перейду к этой статье ..

Mew 3.4

12

Вместо предоставления ссылки было бы хорошо, если бы вы суммировали основные моменты статьи. Ссылки умирают, поэтому в будущем ваш ответ может стать бесполезным для тех, кто не подписался на этот журнал (а подавляющее большинство людей не являются подписчиками).

Тим

28

Есть много мер расстояния между двумя гистограммами. Вы можете прочитать хорошую классификацию этих мер в:

К. Мешги и С. Исии, «Расширение гистограммы цветов с помощью сетки для повышения точности отслеживания», в Proc. MVA'15, Токио, Япония, май 2015 г.

Для вашего удобства здесь перечислены самые популярные дистанционные функции:

$L_0$ 　или расстояние Хеллингера

$D_{L0} = \sum\limits_{i} h_1(i) \neq h_2(i)$

$L_1$ , Манхэттен или Городской квартал

$D_{L1} = \sum_{i}\lvert h_1(i) - h_2(i) \rvert$

$L=2$ или евклидово расстояние

$D_{L2} = \sqrt{\sum_{i}\left( h_1(i) - h_2(i) \right) ^2 }$

L или Чыбышевское расстояние $_{\infty}$

$D_{L\infty} = max_{i}\lvert h_1(i) - h_2(i) \rvert$

L или Дробное расстояние (часть семейства расстояний Минковского) $_p$

$D_{Lp} = \left(\sum\limits_{i}\lvert h_1(i) - h_2(i) \rvert ^p \right)^{1/p}$ и $0<p<1$

Пересечение гистограммы

$D_{\cap} = 1 - \frac{\sum_{i} \left(min(h_1(i),h_2(i) \right)}{min\left(\vert h_1(i)\vert,\vert h_2(i) \vert \right)}$

Косинус Расстояние

$D_{CO} = 1 - \sum_i h_1(i)h2_(i)$

Канберра Расстояние

$D_{CB} = \sum_i \frac{\lvert h_1(i)-h_2(i) \rvert}{min\left( \lvert h_1(i)\rvert,\lvert h_2(i)\rvert \right)}$

Коэффициент корреляции Пирсона

$D_{CR} = \frac{\sum_i \left(h_1(i)- \frac{1}{n} \right)\left(h_2(i)- \frac{1}{n} \right)}{\sqrt{\sum_i \left(h_1(i)- \frac{1}{n} \right)^2\sum_i \left(h_2(i)- \frac{1}{n} \right)^2}}$

Колмогоров-Смирнов Дивергенция

$D_{KS} = max_{i}\lvert h_1(i) - h_2(i) \rvert$

Соответствие расстояния

$D_{MA} = \sum\limits_{i}\lvert h_1(i) - h_2(i) \rvert$

Крамер-фон Мизес Расстояние

$D_{CM} = \sum\limits_{i}\left( h_1(i) - h_2(i) \right)^2$

$\chi^2$ Статистика

$D_{\chi^2} = \sum_i \frac{\left(h_1(i) - h_2(i)\right)^2}{h_1(i) + h_2(i)}$

Бхаттачарья Расстояние

$D_{BH} = \sqrt{1-\sum_i \sqrt{h_1(i)h_2(i)}}$ и хеллингер

Аккорд в квадрате

$D_{SC} = \sum_i\left(\sqrt{h_1(i)}-\sqrt{h_2(i)}\right)^2$

Расхождение Кульбака-Либлера

$D_{KL} = \sum_i h_1(i)log\frac{h_1(i)}{m(i)}$

Джеффери Дивергенция

$D_{JD} = \sum_i \left(h_1(i)log\frac{h_1(i)}{m(i)}+h_2(i)log\frac{h_2(i)}{m(i)}\right)$

Расстояние от Earth Mover (это первый элемент расстояний транспортировки, который встраивает информацию о биннинге в расстояние, для получения дополнительной информации, пожалуйста, обратитесь к вышеупомянутой статье или записи в Википедии . $A$

$D_{EM} = \frac{min_{f_{ij}}\sum_{i,j}f_{ij}A_{ij}}{sum_{i,j}f_{ij}}$ $\sum_j f_{ij} \leq h_1(i) , \sum_j f_{ij} \leq h_2(j) , \sum_{i,j} f_{ij} = min\left( \sum_i h_1(i) \sum_j h_2(j) \right)$ и представляет поток от до $f_{ij}$ $i$ $j$

Квадратичное расстояние

$D_{QU} = \sqrt{\sum_{i,j} A_{ij}\left(h_1(i) - h_2(j)\right)^2}$

Квадратичное расстояние Чи

$D_{QC} = \sqrt{\sum_{i,j} A_{ij}\left(\frac{h_1(i) - h_2(i)}{\left(\sum_c A_{ci}\left(h_1(c)+h_2(c)\right)\right)^m}\right)\left(\frac{h_1(j) - h_2(j)}{\left(\sum_c A_{cj}\left(h_1(c)+h_2(c)\right)\right)^m}\right)}$ и $\frac{0}{0} \equiv 0$

Реализация Matlab некоторых из этих расстояний доступна в моем репозитории GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance. Также вы можете искать таких парней, как Йосси Рубнер, Офир Пеле, Марко Кутури и Хайбин Лин, для больше современных расстояний.

Обновление: альтернативное объяснение расстояний появляется здесь и там в литературе, поэтому я приведу их здесь для полноты картины.

Канберра расстояние (другая версия)

$D_{CB}=\sum_i \frac{|h_1(i)-h_2(i)|}{|h_1(i)|+|h_2(i)|}$

Различие Брея-Кертиса, расстояние Соренсена (поскольку сумма гистограмм равна единице, она равна ) $D_{L0}$

$D_{BC} = 1 - \frac{2 \sum_i h_1(i) = h_2(i)}{\sum_i h_1(i) + \sum_i h_2(i)}$

Джекард Дистанция (т.е. пересечение над объединением, другая версия)

$D_{IOU} = 1 - \frac{\sum_i min(h_1(i),h_2(i))}{\sum_i max(h_1(i),h_2(i))}$

Курош Мешги
источник

Добро пожаловать на наш сайт! Спасибо за этот вклад.

whuber

Вот ссылка бумаги: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf

Невиш

Спасибо, список замечательный, хотя он не позволяет создать оператор сравнения для гистограммы, например, сказать этоhist1 < hist2

Ольга Павлюк

22

Стандартный ответ на этот вопрос - тест хи-квадрат . Тест KS предназначен для незакрепленных данных, а не для данных. (Если у вас есть непрочитанные данные, то обязательно используйте тест в стиле KS, но если у вас есть только гистограмма, тест KS не подходит.)

Дэвид Райт
источник

Вы правы в том, что тест KS не подходит для гистограмм, если его понимать как тест на гипотезу о распределении базовых данных, но я не вижу причин, почему статистика KS не будет работать как мера сходства любых двух гистограмм.

whuber

Было бы полезно объяснить, почему критерий Колмогорова-Смирнова не подходит для бин-данных.

naught101

Это может быть не так полезно при обработке изображений, как при статистической оценке соответствия. Часто при обработке изображений гистограмма данных используется в качестве дескриптора для области изображения, и цель состоит в том, чтобы расстояние между гистограммами отражало расстояние между пятнами изображения. Мало или, возможно, вообще ничего, может быть известно об общей статистике населения данных базового изображения, используемых для получения гистограммы. Например, базовая статистика населения при использовании гистограмм ориентированных градиентов будет значительно отличаться в зависимости от фактического содержания изображений.

Ely

1

Stochtastic ответил на вопрос naught101: stats.stackexchange.com/a/108523/37373

Ляпис

10

Вы ищете тест Колмогорова-Смирнова . Не забудьте разделить высоты столбцов на сумму всех наблюдений каждой гистограммы.

Обратите внимание, что KS-тест также сообщает о разнице, если, например, средства распределений смещены относительно друг друга. Если перевод гистограммы вдоль оси x не имеет смысла в вашем приложении, вы можете сначала вычесть среднее значение из каждой гистограммы.

Jonas
источник

1

Вычитание среднего значения изменяет нулевое распределение статистики KS. @David Wright выдвигает обоснованное возражение против применения теста KS к гистограммам в любом случае.

whuber

7

Как указывает ответ Дэвида, критерий хи-квадрат необходим для связанных данных, поскольку тест KS предполагает непрерывное распределение. Относительно того, почему тест KS неуместен (комментарий naught101), в литературе по прикладной статистике обсуждался этот вопрос, который стоит поднять здесь.

Забавный обмен начался с утверждения ( García-Berthou and Alcaraz, 2004 ) о том, что треть работ Nature содержит статистические ошибки. Тем не менее, последующий документ ( Jeng, 2006 , « Ошибка в статистических тестах ошибок в статистических тестах » - возможно, мой самый любимый заголовок статьи) показал, что Гарсия-Берту и Алькарас (2005) использовали тесты KS на дискретных данных, приводя к их сообщениям неточные р-значения в их мета-исследовании. В статье Jeng (2006) подробно обсуждается этот вопрос, даже показано, что можно изменить тест KS для работы с дискретными данными. В этом конкретном случае различие сводится к разнице между равномерным распределением последней цифры на [0,9],

п (Икс) знак равно \frac{1}{9}, (0 \leq Икс \leq 9)

$P(x) = \frac{1}{9},\ (0 \leq x \leq 9)$ (в неправильном тесте KS) и гребенчатое распределение дельта-функций, (в правильной, измененной форме) , В результате первоначальной ошибки Garcia-Berthou и Alcaraz (2004) неправильно отклонили нулевое значение, в то время как критерий хи-квадрат и модифицированный тест KS - нет. В любом случае, критерий хи-квадрат является стандартным выбором в этом сценарии, даже если KS можно изменить для работы здесь.

п (Икс) знак равно \frac{1}{10} Σ_{J знак равно 0}^{9} δ (Икс - J)

$P(x) = \frac{1}{10}\sum_{j=0}^9 \delta(x-j)$

Stochtastic
источник

-1

Вы можете вычислить взаимную корреляцию (свертку) между обеими гистограммами. Это будет учитывать небольшие затруднения.

Хуан Мануэль Тонелло
источник

1

Это автоматически помечается как низкое качество, возможно потому, что оно очень короткое. В настоящее время это скорее комментарий, чем ответ по нашим стандартам. Вы можете расширить это? Мы также можем превратить это в комментарий.

gung - Восстановить Монику

Поскольку гистограммы являются довольно нестабильным представлением данных , а также потому, что они не представляют вероятности, используя только высоту (они используют площадь ), можно разумно поставить под сомнение применимость, общность или полезность этого подхода, если не предоставлено более конкретное руководство.

whuber

Как оценить сходство двух гистограмм?

Ответы: