Какой классификатор является более точным для классификации SVM?

10

Я изучаю классификацию SVM и сталкиваюсь с проблемой. Я не уверен, что у этой дилеммы есть терминология для этого.

Предположим, мы хотели бы классифицировать пациентов по SVM, учитывая образцы здоровых людей (обоих полов) и людей с раком печени (обоих полов). Если мы помечаем выборку здоровых людей как класс 1, а людей с раком - класс 2, мы можем обучить двоичную SVM и получить классификатор 1 для прогнозирования любого нового пациента. Теперь представьте себе другой сценарий. Предположим, что мы сначала делим все выборки по полу перед классификацией SVM. Для каждого пола мы по-прежнему помечаем здоровых пациентов и раковых пациентов на 2 класса и обучаем двоичную SVM для получения классификатора 2 и классификатора 3 для женских и мужских выборок соответственно. Вопрос в том, есть ли новая пациентка, какой классификатор 1 или 2 следует использовать для получения более точного прогноза? Вот дилемма для аргументов, которые я имею

(1) Когда количество выборок велико, прогноз должен быть более точным. Исходя из этого аргумента, классификатор 1 кажется хорошим выбором.

(2) Однако, если мы сначала разделим образцы на группы женщин и мужчин, классификатор 2 представляется лучшим выбором, поскольку новый пациент (неизвестный тестовый образец) - женщина.

Есть ли у дилеммы такого рода терминология, или кто-нибудь знает какую-либо дополнительную информацию или как решить проблему, подобную этой? Я даже не уверен, что это законный вопрос, и прошу прощения за наивный вопрос заранее. Спасибо

Касси
источник
4
На это нельзя ответить в общем. Возможно, если бы мы знали, насколько пол влияет на рак и сколько у вас образцов, какую функцию потери вы используете и т. Д. Вероятно, гораздо проще экспериментировать с перекрестной проверкой.
АдрианN
Спасибо. Это имеет смысл. Я думаю, что не должно быть общего правила.
Кэсси
это звучит как общий вопрос ML о том, «как мне использовать ML для решения этой проблемы». стандартного ответа нет. важно / принято / стандарт попробовать разные подходы и посмотреть, какие стратегии приводят к наиболее точным результатам прогнозирования. общий заголовок - это что-то вроде «представления проблемы реального мира в абстрактной среде
ссылках

Ответы:

2

Вы должны взглянуть на выбор функций и алгоритмы, которые автоматизируют этот процесс. Это нормально, если вы новичок в ML и не понимаете весь процесс выбора функций, просто получите правильную интуицию, а затем вы можете использовать библиотеку для автоматизации процесса.

Основная идея наличия алгоритма обучения заключается в том, чтобы он мог находить шаблоны ... самое большее, что вы можете сделать, - это помочь ему , предоставив множество (не избыточных) данных и выполнив хороший шаг предварительной обработки, который обычно включает как выбор функции и нормализация .

Приятно отметить, что при реализации алгоритмов обучения вы не должны пытаться модифицировать свой набор данных, просто «взглянув» на него, если только у вас нет конкретных метрик, свидетельствующих о том, что он нуждается в модификациях, часто это было так, что обучение Алгоритм уделял большое внимание признакам, которые, по-видимому, даже отдаленно не «связаны» с процессом классификации. Всегда пытайтесь сделать шаг выбора функции, прежде чем пытаться модифицировать ваши данные.

Subhayan
источник
1

один общий заголовок для этого типа шага процесса машинного обучения - это предварительная обработка данных, которая, как говорится в википедии, включает «очистку, нормализацию, преобразование, извлечение и выбор признаков и т. д.».

Другой аспект машинного обучения - «создание модели». это включает в себя решения, например, о том, сколько классов будет обнаружено, каковы будут «размер» или «размеры» структуры ML (например, «сколько ядер будет включать SVM» и т. д., примерно аналогично выбору количества нейронов в NN). модель). к сожалению, некоторые ссылки, как правило, пропускают или «замаскируют» этот шаг. но обратите внимание, это общее со статистикой, и некоторые статистические книги будут иметь хорошее описание.

в подходах типа ML принято, что существует сильный итеративный / обратный / эволюционный процесс для определения как эффективной предварительной обработки, так и моделирования. Экспериментатор пробует различные идеи предварительной обработки и моделирования и движется в направлении более успешных. Общее практическое правило гласит: «Чем лучше предсказания, тем более правильно (и, вероятно, также реалистично ) проводится предварительная обработка и моделирование», но также с учетом того, что переоснащение тщательно исключается.

ВЗН
источник