Должен ли поиск по сетке SVM показывать высокоточный регион с низкой точностью?

12

У меня есть 12 положительных тренировочных наборов (раковые клетки, обработанные лекарствами с каждым из 12 различных механизмов действия). Для каждого из этих положительных обучающих наборов я хотел бы обучить машину опорных векторов, чтобы отличить ее от отрицательного набора равного размера, выбранного из эксперимента. Каждый набор имеет от 1000 до 6000 ячеек, и в каждой ячейке имеется 476 признаков (изображений), каждая из которых линейно масштабируется до [0, 1].

Я использую LIBSVM и ядро ​​Gaussian RGB. Используя пятикратную перекрестную проверку, я выполнил поиск по сетке для log₂ C ∈ [-5, 15] и log₂ ɣ ∈ [-15, 3]. Результаты приведены ниже:

Результаты поиска по сетке

Я был разочарован тем, что нет единого набора параметров, которые дают высокую точность для всех 12 задач классификации. Я также был удивлен, что сетки обычно не показывают область высокой точности, окруженную более низкой точностью. Означает ли это, что мне нужно расширить пространство параметров поиска, или поиск по сетке указывает на то, что что-то не так?

Вебьорн Лёса
источник
2
Re разочарование: Вы бы не ожидать , каждая проблема имеет те же параметры, так почему бы вы ожидать , что проблемы в значение хороших акций для гиперпараметров (журнал гамма- и C)?
конъюнктур
@Conjugate Prior: обучающие наборы являются подмножествами одного и того же эксперимента, а отрицательные обучающие наборы взяты из одной популяции, поэтому я надеялся, что одинаковая ширина ядра RBF effective будет эффективной. Поскольку положительные наборы выделяются из одной и той же фоновой (отрицательной) популяции, я надеялся, что идеальный штраф C будет аналогичным. Если это не так, это делает SVM действительно сложным для применения. Например, мягкое усиление кажется гораздо проще в настройке.
Вебьорн Лёса
Ага. Но мне кажется, что, хотя в физическом смысле это один и тот же эксперимент, вы тем не менее атакуете отдельные и разные проблемы в статистическом смысле. Особенно, если отрицательные случаи пересматриваются для каждого лечения.
конъюнктур
1
Кстати, поиск по сетке довольно неэффективен, алгоритм оптимизации Nelder-Mead симплекс очень эффективен, как и методы оптимизации градиентного спуска. Поиск по сетке прост, но немного "грубая сила".
Дикран Marsupial
@ Vebjorn Ljosa (год спустя), сколько разбросаны 5 значений, скажем, в финале (C, гамма)? Все ли 12 графиков одинаково масштабированы, например, 50% ... 100% правильного прогноза? Спасибо
Денис

Ответы:

9

Оптимальные значения гиперпараметров будут разными для разных тактов обучения, вам нужно настраивать их отдельно для каждой задачи.

Причина, по которой вы не получаете ни одного оптимального значения, заключается в том, что как параметр ядра, так и параметр регуляризации контролируют сложность модели. Если C маленький, вы получаете гладкую модель, также если ядро ​​с широким, вы получите гладкую модель (поскольку базовые функции не очень локальны). Это означает, что различные комбинации C и ширины ядра приводят к одинаково сложным моделям с одинаковой производительностью (именно поэтому вы получаете диагональный элемент на многих ваших графиках).

Оптимум также зависит от конкретной выборки тренировочного набора. Можно переопределить ошибку перекрестной проверки, поэтому выбор гиперпараметров путем перекрестной проверки может фактически ухудшить производительность, если вам не повезет. Посмотрите Коули и Тэлбота для некоторого обсуждения этого.

Тот факт, что существует гипер плато значений для гиперпараметров, где вы получаете одинаково хорошие значения, на самом деле является хорошей особенностью машин опорных векторов, так как предполагает, что они не слишком уязвимы для чрезмерного соответствия при выборе модели. Если бы у вас был резкий пик при оптимальных значениях, это было бы плохо, так как этот пик было бы трудно найти с помощью конечного набора данных, который обеспечил бы ненадежное указание того, где этот пик фактически находится.

Дикран Сумчатый
источник
Кстати, я провожу исследование по подгонке при выборе модели с использованием поиска по сетке, что оказалось гораздо более интересным, чем я думал. Даже при небольшом количестве гиперпараметров вы все равно можете переопределить критерий выбора модели, если оптимизируете по сетке, что она слишком хороша!
Дикран Marsupial
Сейчас я подхожу к концу симуляционной работы, надеюсь, я смогу представить статью через месяц или два ...
Дикран Marsupial
Мне было бы интересно прочитать эту статью, если она будет закончена? Я столкнулся с некоторыми странными всплесками и т. Д. В поисковой оптимизации по сетке, которая кажется похожей на то, что вы обсуждали здесь.
BGreene
Вся работа по моделированию теперь завершена, я просто собираю документ в данный момент (в основном просто для того, чтобы убедиться, что он полностью воспроизводим). Я сохранил все таблицы, чтобы можно было провести повторный анализ, чтобы рассмотреть другие вопросы, о которых я не думал в то время.
Дикран Сумчатый