Я хотел бы обучить SVM для классификации дел (ИСТИНА / ЛОЖЬ) на основе 20 атрибутов. Я знаю, что некоторые из этих атрибутов тесно взаимосвязаны. Поэтому мой вопрос: чувствителен ли SVM к корреляции или избыточности между функциями? Любая ссылка?
svm
multicollinearity
kernel-trick
user7064
источник
источник
Ответы:
Линейное ядро: здесь эффект похож на мультиколлинеарность в линейной регрессии. Ваша обученная модель может быть не особенно устойчивой к небольшим изменениям в тренировочном наборе, потому что разные векторы веса будут иметь схожие результаты. Прогнозы обучающего набора, тем не менее, будут достаточно стабильными, и поэтому они будут проверять прогнозы, если они исходят из одного и того же распределения.
Ядро RBF: Ядро RBF смотрит только на расстояния между точками данных. Таким образом, представьте, что у вас действительно есть 11 атрибутов, но один из них повторяется 10 раз (довольно экстремальный случай). Тогда этот повторяющийся атрибут будет вносить вклад в расстояние в 10 раз больше, чем любой другой атрибут, и эта функция, вероятно, окажет гораздо большее влияние на изученную модель.
Один простой способ обесценить корреляции с ядром RBF - использовать расстояние Махаланобиса: , где - это оценка выборочной ковариационной матрицы. Эквивалентно, отобразите все ваши векторы на а затем используйте обычное ядро RBF, где таково, что , например, разложение Холецкого .d( х , у) = ( х - у)TS- 1( х - у)---------------√ S Икс СИкс С S- 1= CTС S- 1
источник