Использовать коэффициент корреляции Пирсона в качестве цели оптимизации в машинном обучении

12

В машинном обучении (для проблем регрессии) я часто вижу среднеквадратическую ошибку (MSE) или среднюю абсолютную ошибку (MAE), используемую в качестве функции ошибки для минимизации (плюс термин регуляризации). Мне интересно, есть ли ситуации, когда использование коэффициента корреляции было бы более уместным? если такая ситуация существует, то:

  1. В каких ситуациях коэффициент корреляции является лучшим показателем по сравнению с MSE / MAE?
  2. В этих ситуациях MSE / MAE - все еще хорошая функция стоимости прокси для использования?
  3. Возможно ли максимальное увеличение коэффициента корреляции? Это стабильная целевая функция для использования?

Я не смог найти случаев, когда коэффициент корреляции использовался непосредственно в качестве целевой функции при оптимизации. Я был бы признателен, если бы люди могли указать мне информацию в этой области.

Ага
источник

Ответы:

7

Максимизация корреляции полезна, когда на выходе очень шумно. Другими словами, связь между входами и выходами очень слабая. В таком случае минимизация MSE будет стремиться сделать вывод близким к нулю, так что ошибка предикации будет такой же, как дисперсия результата обучения.

Непосредственное использование корреляции в качестве целевой функции возможно для подхода градиентного спуска (просто измените его на минимизацию минус корреляции). Однако я не знаю, как оптимизировать его с помощью подхода SGD, потому что функция стоимости и градиент включают выходные данные всех обучающих выборок.

Другой способ максимизировать корреляцию - минимизировать MSE, ограничивая выходную дисперсию такой же, как обучающую выходную дисперсию. Тем не менее, ограничение также распространяется на все выходные данные, поэтому, по моему мнению, нет возможности воспользоваться оптимизатором SGD.

РЕДАКТИРОВАТЬ: В случае, если верхний слой нейронной сети является линейным выходным слоем, мы можем минимизировать MSE, а затем отрегулировать веса и смещения в линейном слое, чтобы максимизировать корреляцию. Корректировка может быть выполнена аналогично CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Бо Тянь
источник
1

Мы используем корреляцию Пирсона в наших исследованиях, и она работает хорошо. В нашем случае это довольно стабильно. Поскольку это мера, инвариантная к переводу и масштабированию, она полезна, только если вы хотите предсказать форму, а не точные значения. Следовательно, это полезно, если вы не знаете, находится ли ваша цель в области решения вашей модели, и вас интересует только форма. Напротив, MSE уменьшает усредненное расстояние между прогнозом и целями, поэтому оно старается максимально уместить данные. Это, вероятно, причина, почему MSE более широко используется, потому что вы обычно заинтересованы в прогнозировании точных значений. Если вы минимизируете MSE, тогда корреляция увеличится.

HCRuiz
источник