проблема
В регрессии обычно вычисляют среднеквадратическую ошибку (MSE) для выборки:
Сейчас я работаю над проблемой регрессии, цель которой состоит в том, чтобы предсказать цену, которую клиенты готовы заплатить за продукт, учитывая ряд числовых характеристик. Если прогнозируемая цена слишком высока, ни один покупатель не будет покупать продукт, но денежные потери будут низкими, потому что цена может быть просто уменьшена. Конечно, оно не должно быть слишком высоким, так как тогда продукт нельзя будет покупать долго. С другой стороны, если прогнозируемая цена слишком низкая, продукт будет куплен быстро, без возможности корректировки цены.
Другими словами, алгоритм обучения должен прогнозировать немного более высокие цены, которые можно уменьшить при необходимости, а не недооценивать истинную цену, что приведет к немедленной денежной потере.
Вопрос
Как бы вы разработали метрику ошибки, включающую эту асимметрию стоимости?
Возможное решение
Способ определения асимметричной функции потерь состоит в том, чтобы просто умножить на вес:
источник
Ответы:
Как уже упоминалось в комментариях выше, квантильная регрессия использует асимметричную функцию потерь (линейную, но с разными наклонами для положительных и отрицательных ошибок). Квадратичный (квадратичный убыток) аналог квантильной регрессии - это неспецифическая регрессия.
Вы можете Google квантиль регрессии для ссылок. Для уточнения регрессии см. Пакет ожидаемых R и ссылки в справочном руководстве.
источник
Этот вид неравного взвешивания часто делается в задачах классификации с двумя классами. Правило Байеса можно изменить, используя функцию потерь, которая взвешивает потери выше для одной ошибки, чем для другой. Это приведет к правилу, которое приводит к неравной частоте ошибок.
В регрессии, безусловно, было бы возможно построить весовую функцию, такую как взвешенная сумма квадратов, которая придаст некоторый вес отрицательным ошибкам и более высокий вес положительным. Это было бы аналогично взвешенному наименьшему квадрату, но немного по-другому, потому что взвешенный наименьший квадрат предназначен для задач, в которых дисперсия ошибки не является постоянной в пространстве возможных значений переменных предиктора. В этом случае веса выше для точек, где известно, что дисперсия ошибки мала, и выше, когда известно, что дисперсия ошибки велика. Это, конечно, приведет к значениям для параметров регрессии, которые отличаются от того, что даст вам OLS.
источник