Машинное обучение (ML) активно использует методы линейной и логистической регрессии. Он также опирается на особенность инженерных методов ( feature transform
, kernel
, и т.д.).
Почему нет ничего о variable transformation
(например power transformation
) , упомянутые в ML? (Например, я никогда не слышал о получении root или log к объектам, они обычно просто используют полиномы или RBF.) Аналогично, почему эксперты ML не заботятся о преобразованиях объектов для зависимой переменной? (Например, я никогда не слышал о том, чтобы взять преобразование журнала у; они просто не преобразовывают у.)
Редактирование: Может быть, вопрос не совсем точно, мой вопрос на самом деле: «Является ли преобразование мощности в переменные не важными в ОД?»
regression
machine-learning
data-transformation
Вэйчинг Лин
источник
источник
Ответы:
Книга Кун и Джонсона « Прикладное прогнозирующее моделирование » - это высоко ценимая практическая книга по машинному обучению с большим разделом по преобразованию переменных, включая Бокс-Кокса. Авторы утверждают, что многие алгоритмы машинного обучения работают лучше, если функции имеют симметричное и унимодальное распределения. Преобразование таких функций является важной частью «разработки функций».
источник
Ну, с моей точки зрения, довольно часто меня интересует прогнозирующее распределение переменной ответа, а не просто условное среднее, и в этом случае лучше использовать вероятность, которая более правильно представляет целевое распределение. Например, я предпочитаю использовать линейные модели с ядрами, а не (скажем) поддержку векторной регрессии, потому что я могу использовать вероятность Пуассона, если захочу. Поскольку многие люди, обучающиеся машинному обучению, являются байесовцами, я подозреваю, что использование другой вероятности будет казаться более изящным, чем преобразования (выбор подходящей вероятности обычно является первым шагом).
источник
Вот мои последующие мысли.
Я думаю, это потому, что ML в основном имеет дело с классификацией, и классификация не нуждается в преобразовании y (y является категоричным). ML обычно имеет дело с большими независимыми переменными (например, тысячи в НЛП), и логистическая регрессия не требует нормальности; Я думаю, именно поэтому они не используют преобразование мощности Бокса-Кокса из-за соображений скорости. (примечание: я не знаком с преобразованием власти.)
источник