Количественная оценка сходства между двумя наборами данных

12

Резюме : Попытка найти лучший метод суммирует сходство между двумя выровненными наборами данных, используя одно значение.

Детали :

Мой вопрос лучше всего объяснить диаграммой. На графиках ниже показаны два разных набора данных, каждый со значениями, помеченными nfи nr. Точки вдоль оси x представляют, где были выполнены измерения, а значения на оси y являются результирующим измеренным значением.

Для каждого графика я хочу, чтобы одно число суммировало сходство nfи nrзначения в каждой точке измерения. В этом примере визуально очевидно, что результаты на первых графиках менее похожи, чем на втором графике. Но у меня есть много других данных, где разница менее очевидна, поэтому было бы полезно количественно оценить ее.

Я думал, что могут быть стандартные методы, которые обычно используются. Поиск статистического сходства дал много разных результатов, но я не уверен, что лучше выбрать, или то, что я готов, применимо к моей проблеме. Поэтому я подумал, что этот вопрос стоит задать здесь, если есть простой ответ.

введите описание изображения здесь

Габриэль Южный
источник
1
Возможно, вы захотите взглянуть на этот документ, в котором перечислено множество мер. ( users.uom.gr/~kouiruki/sung.pdf ) Если ссылка не работает, ее называют «Комплексное исследование по мерам расстояния / подобия между функциями плотности вероятности», автор Sung-Hyuk Cha, Международный журнал математических моделей и методов. в прикладной науке, которая рассматривает множество мер сходства.
arie64
Динамическая деформация времени используется для измерения сходства между двумя временными рядами. Эта техника может сделать задачу здесь. Проверьте эту ссылку: en.wikipedia.org/wiki/Dynamic_time_warping
Аман Ананд

Ответы:

6

Площадь между 2 кривыми может дать вам разницу. Следовательно, сумма (nr-nf) (сумма всех разностей) будет приближением площади между двумя кривыми. Если вы хотите сделать его относительным, можно использовать sum (nr-nf) / sum (nf). Это даст вам одно значение, указывающее сходство между 2 кривыми для каждого графика.

Изменить: вышеуказанный метод суммы разностей будет полезен, даже если это отдельные точки или наблюдения, а не связанные линии или кривые, но в этом случае среднее значение различий также может быть индикатором и может быть лучше, так как он будет учитывать количество наблюдений.

rnso
источник
1
Я попробую это и посмотрю, как это работает. Я все еще надеюсь, что смогу связать это с более формализованной техникой. Я читал о Евклидовом расстоянии, и похоже, что он очень похож на технику здесь. Также в качестве дополнительной заметки, хотя мой график имеет соединительные линии, я забочусь только об отдельных точках. Я на самом деле не сравниваю кривые, просто измеренные значения. Я не знаю, было ли это ясно в моем вопросе.
Габриэль Южный
Это должно работать, даже если точки не связаны.
rnso
1

Вам нужно больше определить, что вы подразумеваете под «сходством». Значение имеет значение? Или только форма?

Если имеет значение только форма, вам нужно нормализовать оба временных ряда по их максимальному значению (чтобы они оба были от 0 до 1).

Если вы ищете линейную корреляцию, простая корреляция Пирсона будет работать нормально - которая по существу измеряет ковариацию.

Например, существуют другие методы, которые могут соответствовать линии или полиному временному ряду (по существу, сглаживая его), а затем сравнивать гладкие полиномы.

Если вы ищете периодическое сходство (т. Е. Временной ряд имеет определенный синусоидальный компонент или сезонность), рассмотрите возможность использования декомпозиции временного ряда на тренд, и сначала составляйте сезоны. Или используя что-то вроде FFT для сравнения данных в частотной области.

Это все, что я знаю, без определения того, что должно быть «похожим». Надеюсь, это поможет.

user151975
источник
0

Вы можете использовать (nr-nf) для каждой точки измерения, чем меньше число (абсолютное значение), тем больше значение сходно. Не совсем научный подход, пожалуйста, прости меня, у меня нет никакой формальной подготовки в этом деле. Если вы просто ищете числовое представление визуала, это должно быть сделано.

Майк Г
источник
1
Спасибо за ваше предложение. Я тоже об этом думал, но проблема в том, что он будет взвешен по абсолютной разнице, а не по относительной разнице. В примере, который я включил, более похожие наборы данных также имели меньшие абсолютные значения, но если бы ситуация была обратной, вы могли бы получить неверную интерпретацию, используя эту технику. Мне нужно обобщить относительное сходство / различие, а не абсолютную разницу.
Габриэль Южный
Будет (nr-nf) / nf работать? Это сделало бы вас родственником. Мне действительно интересно увидеть реальный ответ, так как я сам имею дело с такой же ситуацией.
Майк Дж
Если они все в сопоставимом масштабе, то тот факт, что ваши схожие обычно ниже, касается не относительных значений, а интерпретации сходства. Если значения на втором графике находятся в диапазоне 101-104, изменит ли это интерпретацию их сходства? Если это так, вам нужно это объяснить. Нужно больше подробностей о том, что именно является переменной y.
Джон
@ Джон, это хороший момент. Я думаю, мне нужно подумать об этом больше. Значения y являются значениями ускорения для эталонного теста, и я пытаюсь сравнить сходство между различными конфигурациями. Так что я думаю, что предложение в этом ответе могло бы сработать, я мог бы попробовать его, просто чтобы посмотреть, как выглядят цифры. Я все еще предпочел бы использовать статистический метод, который является более формально принятым (если есть один для моей проблемы).
Габриэль Южный