Резюме : Попытка найти лучший метод суммирует сходство между двумя выровненными наборами данных, используя одно значение.
Детали :
Мой вопрос лучше всего объяснить диаграммой. На графиках ниже показаны два разных набора данных, каждый со значениями, помеченными nf
и nr
. Точки вдоль оси x представляют, где были выполнены измерения, а значения на оси y являются результирующим измеренным значением.
Для каждого графика я хочу, чтобы одно число суммировало сходство nf
и nr
значения в каждой точке измерения. В этом примере визуально очевидно, что результаты на первых графиках менее похожи, чем на втором графике. Но у меня есть много других данных, где разница менее очевидна, поэтому было бы полезно количественно оценить ее.
Я думал, что могут быть стандартные методы, которые обычно используются. Поиск статистического сходства дал много разных результатов, но я не уверен, что лучше выбрать, или то, что я готов, применимо к моей проблеме. Поэтому я подумал, что этот вопрос стоит задать здесь, если есть простой ответ.
источник
Ответы:
Площадь между 2 кривыми может дать вам разницу. Следовательно, сумма (nr-nf) (сумма всех разностей) будет приближением площади между двумя кривыми. Если вы хотите сделать его относительным, можно использовать sum (nr-nf) / sum (nf). Это даст вам одно значение, указывающее сходство между 2 кривыми для каждого графика.
Изменить: вышеуказанный метод суммы разностей будет полезен, даже если это отдельные точки или наблюдения, а не связанные линии или кривые, но в этом случае среднее значение различий также может быть индикатором и может быть лучше, так как он будет учитывать количество наблюдений.
источник
Вам нужно больше определить, что вы подразумеваете под «сходством». Значение имеет значение? Или только форма?
Если имеет значение только форма, вам нужно нормализовать оба временных ряда по их максимальному значению (чтобы они оба были от 0 до 1).
Если вы ищете линейную корреляцию, простая корреляция Пирсона будет работать нормально - которая по существу измеряет ковариацию.
Например, существуют другие методы, которые могут соответствовать линии или полиному временному ряду (по существу, сглаживая его), а затем сравнивать гладкие полиномы.
Если вы ищете периодическое сходство (т. Е. Временной ряд имеет определенный синусоидальный компонент или сезонность), рассмотрите возможность использования декомпозиции временного ряда на тренд, и сначала составляйте сезоны. Или используя что-то вроде FFT для сравнения данных в частотной области.
Это все, что я знаю, без определения того, что должно быть «похожим». Надеюсь, это поможет.
источник
Вы можете использовать (nr-nf) для каждой точки измерения, чем меньше число (абсолютное значение), тем больше значение сходно. Не совсем научный подход, пожалуйста, прости меня, у меня нет никакой формальной подготовки в этом деле. Если вы просто ищете числовое представление визуала, это должно быть сделано.
источник