Чувствительна ли машина опорных векторов к корреляции между атрибутами?

11

Я хотел бы обучить SVM для классификации дел (ИСТИНА / ЛОЖЬ) на основе 20 атрибутов. Я знаю, что некоторые из этих атрибутов тесно взаимосвязаны. Поэтому мой вопрос: чувствителен ли SVM к корреляции или избыточности между функциями? Любая ссылка?

user7064
источник
Я думаю, что нет, так как генерация разделения на основе одной переменной сделает другие коррелированные переменные слабыми в отношении дальнейшего разделения. Однако может быть некоторая нестабильность относительно того, какая переменная выбрана.
мандата
Вы говорите о линейном SVM, или ядре RBF, или ...?
Дугал
Хм, я не знаю ... зависит ли ответ от этого?
user7064
Да, конечно. Вы можете создать ядро, чтобы явно иметь дело с корреляциями, если хотите.
Дугал
1
@ Дугал: Если существуют методы устранения эффекта корреляции, не означает ли это, что стандартный SVM чувствителен к корреляции?
CFH

Ответы:

12

Линейное ядро: здесь эффект похож на мультиколлинеарность в линейной регрессии. Ваша обученная модель может быть не особенно устойчивой к небольшим изменениям в тренировочном наборе, потому что разные векторы веса будут иметь схожие результаты. Прогнозы обучающего набора, тем не менее, будут достаточно стабильными, и поэтому они будут проверять прогнозы, если они исходят из одного и того же распределения.

Ядро RBF: Ядро RBF смотрит только на расстояния между точками данных. Таким образом, представьте, что у вас действительно есть 11 атрибутов, но один из них повторяется 10 раз (довольно экстремальный случай). Тогда этот повторяющийся атрибут будет вносить вклад в расстояние в 10 раз больше, чем любой другой атрибут, и эта функция, вероятно, окажет гораздо большее влияние на изученную модель.

Один простой способ обесценить корреляции с ядром RBF - использовать расстояние Махаланобиса: , где - это оценка выборочной ковариационной матрицы. Эквивалентно, отобразите все ваши векторы на а затем используйте обычное ядро ​​RBF, где таково, что , например, разложение Холецкого .d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1

Дугал
источник
Это очень интересный ответ; Я хотел бы прочитать больше о том, как смягчить такие проблемы. Вы можете добавить ссылку или две?
Sycorax сообщает, что восстановит Монику
Я не знаю ничего хорошего, но я немного осмотрюсь, возможно, сегодня вечером.
Дугал
Потрясающие! Напишите мне, если вам удастся найти классную статью. Я рад, что мой (+1) может поставить вас за 3к. (-:
Sycorax говорит восстановить Monica
1
Обратная матрица ковариации в расстоянии Махаланобиса является ключевым. Если вы можете оценить его достоверно, это может быть учтено.
Владислав Довгальец