Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии.
Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных.
Например, я мог бы использовать доход компаний в качестве входных данных. Мне интересно, могу ли я использовать вместо этого процентиль дохода компании.
Другим примером может служить категориальный отраслевой классификатор (NAICS) - если бы я посмотрел на срединные расходы по коду NAICS, а затем назначил каждый код NAICS для «процентили NAICS», это была бы допустимая пояснительная переменная, которую я мог бы использовать?
Просто интересно, есть ли какие-либо проблемы, о которых нужно знать при использовании процентилей? Это в некотором смысле эквивалентно типу масштабирования объектов?
источник
Ответы:
Если ваша модель влечет за собой какую-то конкуренцию в доходах фирмы, вы можете использовать процентиль. Лог-процентиль кажется более значимым, квантили не будут линейными по значению, или я так себе представляю.
В этой истории вы включаете ln (%) фирм с доходами под наблюдением фирмы. Дело в том, что при высоких доходах репутация лучше, чем у компаний с низким доходом, и это отношение «иметь больше, чем конкуренция» имеет значение, а не сам уровень дохода. Я мог видеть это как важную часть фирменного признания и брендинга.
источник