Мой вопрос заключается в том, нужно ли нам стандартизировать набор данных, чтобы убедиться, что все переменные имеют одинаковую шкалу, между [0,1], до подбора логистической регрессии. Формула:
В моем наборе данных есть 2 переменные, они описывают одно и то же для двух каналов, но громкость отличается. Скажем, это количество посещений покупателя в двух магазинах, а вот, покупает ли покупатель. Потому что клиент может посетить оба магазина или два раза первый магазин, один раз второй магазин, прежде чем совершить покупку. но общее количество посещений клиентов в первом магазине в 10 раз больше, чем во втором. Когда я подхожу эту логистическую регрессию, без стандартизации coef(store1)=37, coef(store2)=13
; если я стандартизирую данные, тогда coef(store1)=133, coef(store2)=11
. Что-то вроде этого. Какой подход имеет больше смысла?
Что если я подгоняю модель дерева решений? Я знаю, что модели древовидной структуры не нуждаются в стандартизации, так как сама модель будет как-то ее корректировать. Но проверяю всех вас.
источник
C
. Так что вам нужно выбратьC
после стандартизации данных.Ответы:
Стандартизация не требуется для логистической регрессии. Основная цель стандартизации функций состоит в том, чтобы помочь сближению техники, используемой для оптимизации. Например, если вы используете Ньютона-Рафсона для максимизации вероятности, стандартизация функций ускоряет конвергенцию. В противном случае вы можете запустить свою логистическую регрессию без какой-либо стандартизации обработки функций.
источник
@ Аймен прав, вам не нужно нормализовать свои данные для логистической регрессии. (Для получения более общей информации, это может помочь прочитать эту ветку CV: когда вы должны центрировать свои данные и когда вы должны стандартизировать?; Вы также можете заметить, что ваше преобразование чаще называют «нормализацией», см. Как проверить распределение нормализовано? ) Позвольте мне обратиться к некоторым другим пунктам в вопросе.
store1
store2
источник
Если вы используете логистическую регрессию с LASSO или гребневую регрессию (как Weka Logistic делает класс ), вам следует это сделать. Как указывают Хасти, Тибширани и Фридман (стр. 82 PDF-файла или стр. 63 книги):
Также эта тема делает.
источник