Я тренирую искусственную нейронную сеть (обратное распространение, прямая связь) с ненормальными распределенными данными. Наряду с среднеквадратичной ошибкой в литературе часто предлагается коэффициент корреляции Пирсона для оценки качества обученной сети. Но разумен ли коэффициент корреляции Пирсона, если данные обучения обычно не распространяются? Разве не разумнее использовать меру корреляции на основе рангов, например, Spearman rho?
correlation
neural-networks
spearman-rho
юлианский
источник
источник
Ответы:
Коэффициент корреляции Пирсона измеряет линейную связь. Основываясь на эмпирических вторых центральных моментах, на него влияют экстремальные ценности. Следовательно:
Свидетельство нелинейности в диаграмме рассеяния фактических значений против предсказанных предполагает использование альтернативы, такой как коэффициент ранговой корреляции (Спирмена);
Если отношение выглядит монотонным в среднем (как в верхнем ряду иллюстрации), коэффициент корреляции ранга будет эффективным;
В противном случае отношение является криволинейным (как в некоторых примерах из нижнего ряда иллюстрации, таких как крайний левый или средний U-образный), и, вероятно, любая мера корреляции будет неадекватным описанием; использование коэффициента ранговой корреляции не исправит это.
Наличие отдаленных данных в диаграмме рассеяния указывает на то, что коэффициент корреляции Пирсона может завышать силу линейной зависимости. Это может быть или не быть правильным; используйте его с должной осторожностью. Коэффициент ранговой корреляции может быть или не быть лучше, в зависимости от того, насколько достоверны отдаленные значения.
(Изображение скопировано из статьи в Википедии о коэффициенте корреляции Пирсона и момента продукта .)
источник