Использование процентилей в качестве предикторов - хорошая идея?

9

Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии.

Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных.

Например, я мог бы использовать доход компаний в качестве входных данных. Мне интересно, могу ли я использовать вместо этого процентиль дохода компании.

Другим примером может служить категориальный отраслевой классификатор (NAICS) - если бы я посмотрел на срединные расходы по коду NAICS, а затем назначил каждый код NAICS для «процентили NAICS», это была бы допустимая пояснительная переменная, которую я мог бы использовать?

Просто интересно, есть ли какие-либо проблемы, о которых нужно знать при использовании процентилей? Это в некотором смысле эквивалентно типу масштабирования объектов?

andrewm4894
источник
2
Если у вас есть исходные данные, почему вы хотите использовать процентили? Может быть, это не очень хорошая идея, потому что процентили являются только порядковыми, а не метрическими показателями. Но я не уверен в предвзятости / эффективности.
hplieninger
9
XX
1
если вы можете разумно сгруппировать свою отраслевую переменную в группы, например 4, использовать фиктивное кодирование (или любую другую подходящую схему кодирования), и все готово. Вот так я бы это сделал.
hplieninger
3
Я не могу придумать причину, по которой процентиль будет линейно связан с зависимой переменной. Если вы можете подумать об одном, то это может быть хорошо (и, пожалуйста, обновите ваш вопрос с указанием причины)
Питер Флом
1
Если вы хотите использовать код NAICS в качестве прокси для расходов компании, то вы можете сделать это, используя средние затраты в коде NAICS - не нужно использовать процентили.
Scortchi - Восстановить Монику

Ответы:

1

Если ваша модель влечет за собой какую-то конкуренцию в доходах фирмы, вы можете использовать процентиль. Лог-процентиль кажется более значимым, квантили не будут линейными по значению, или я так себе представляю.

В этой истории вы включаете ln (%) фирм с доходами под наблюдением фирмы. Дело в том, что при высоких доходах репутация лучше, чем у компаний с низким доходом, и это отношение «иметь больше, чем конкуренция» имеет значение, а не сам уровень дохода. Я мог видеть это как важную часть фирменного признания и брендинга.

RegressForward
источник