Учитывая две гистограммы, как мы оцениваем, похожи они или нет?
Достаточно ли просто посмотреть на две гистограммы? Простое сопоставление один к одному имеет проблему, заключающуюся в том, что если гистограмма немного отличается и немного смещается, то мы не получим желаемый результат.
Какие-либо предложения?
histogram
image-processing
Мью 3,4
источник
источник
Ответы:
Недавняя статья, которую стоит прочитать:
Цао, Ю. Петцольд, Л. Ограничения точности и измерения ошибок при стохастическом моделировании химически реагирующих систем, 2006.
Хотя в этой статье основное внимание уделяется сравнению алгоритмов стохастического моделирования, по сути, основная идея состоит в том, как сравнить две гистограммы.
Вы можете получить доступ к PDF с веб-страницы автора.
источник
Есть много мер расстояния между двумя гистограммами. Вы можете прочитать хорошую классификацию этих мер в:
Для вашего удобства здесь перечислены самые популярные дистанционные функции:
Реализация Matlab некоторых из этих расстояний доступна в моем репозитории GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance. Также вы можете искать таких парней, как Йосси Рубнер, Офир Пеле, Марко Кутури и Хайбин Лин, для больше современных расстояний.
Обновление: альтернативное объяснение расстояний появляется здесь и там в литературе, поэтому я приведу их здесь для полноты картины.
источник
hist1 < hist2
Стандартный ответ на этот вопрос - тест хи-квадрат . Тест KS предназначен для незакрепленных данных, а не для данных. (Если у вас есть непрочитанные данные, то обязательно используйте тест в стиле KS, но если у вас есть только гистограмма, тест KS не подходит.)
источник
Вы ищете тест Колмогорова-Смирнова . Не забудьте разделить высоты столбцов на сумму всех наблюдений каждой гистограммы.
Обратите внимание, что KS-тест также сообщает о разнице, если, например, средства распределений смещены относительно друг друга. Если перевод гистограммы вдоль оси x не имеет смысла в вашем приложении, вы можете сначала вычесть среднее значение из каждой гистограммы.
источник
Как указывает ответ Дэвида, критерий хи-квадрат необходим для связанных данных, поскольку тест KS предполагает непрерывное распределение. Относительно того, почему тест KS неуместен (комментарий naught101), в литературе по прикладной статистике обсуждался этот вопрос, который стоит поднять здесь.
Забавный обмен начался с утверждения ( García-Berthou and Alcaraz, 2004 ) о том, что треть работ Nature содержит статистические ошибки. Тем не менее, последующий документ ( Jeng, 2006 , « Ошибка в статистических тестах ошибок в статистических тестах » - возможно, мой самый любимый заголовок статьи) показал, что Гарсия-Берту и Алькарас (2005) использовали тесты KS на дискретных данных, приводя к их сообщениям неточные р-значения в их мета-исследовании. В статье Jeng (2006) подробно обсуждается этот вопрос, даже показано, что можно изменить тест KS для работы с дискретными данными. В этом конкретном случае различие сводится к разнице между равномерным распределением последней цифры на [0,9],
источник
Вы можете вычислить взаимную корреляцию (свертку) между обеими гистограммами. Это будет учитывать небольшие затруднения.
источник