Я изучаю классификацию SVM и сталкиваюсь с проблемой. Я не уверен, что у этой дилеммы есть терминология для этого.
Предположим, мы хотели бы классифицировать пациентов по SVM, учитывая образцы здоровых людей (обоих полов) и людей с раком печени (обоих полов). Если мы помечаем выборку здоровых людей как класс 1, а людей с раком - класс 2, мы можем обучить двоичную SVM и получить классификатор 1 для прогнозирования любого нового пациента. Теперь представьте себе другой сценарий. Предположим, что мы сначала делим все выборки по полу перед классификацией SVM. Для каждого пола мы по-прежнему помечаем здоровых пациентов и раковых пациентов на 2 класса и обучаем двоичную SVM для получения классификатора 2 и классификатора 3 для женских и мужских выборок соответственно. Вопрос в том, есть ли новая пациентка, какой классификатор 1 или 2 следует использовать для получения более точного прогноза? Вот дилемма для аргументов, которые я имею
(1) Когда количество выборок велико, прогноз должен быть более точным. Исходя из этого аргумента, классификатор 1 кажется хорошим выбором.
(2) Однако, если мы сначала разделим образцы на группы женщин и мужчин, классификатор 2 представляется лучшим выбором, поскольку новый пациент (неизвестный тестовый образец) - женщина.
Есть ли у дилеммы такого рода терминология, или кто-нибудь знает какую-либо дополнительную информацию или как решить проблему, подобную этой? Я даже не уверен, что это законный вопрос, и прошу прощения за наивный вопрос заранее. Спасибо
источник
Ответы:
Вы должны взглянуть на выбор функций и алгоритмы, которые автоматизируют этот процесс. Это нормально, если вы новичок в ML и не понимаете весь процесс выбора функций, просто получите правильную интуицию, а затем вы можете использовать библиотеку для автоматизации процесса.
Основная идея наличия алгоритма обучения заключается в том, чтобы он мог находить шаблоны ... самое большее, что вы можете сделать, - это помочь ему , предоставив множество (не избыточных) данных и выполнив хороший шаг предварительной обработки, который обычно включает как выбор функции и нормализация .
Приятно отметить, что при реализации алгоритмов обучения вы не должны пытаться модифицировать свой набор данных, просто «взглянув» на него, если только у вас нет конкретных метрик, свидетельствующих о том, что он нуждается в модификациях, часто это было так, что обучение Алгоритм уделял большое внимание признакам, которые, по-видимому, даже отдаленно не «связаны» с процессом классификации. Всегда пытайтесь сделать шаг выбора функции, прежде чем пытаться модифицировать ваши данные.
источник
один общий заголовок для этого типа шага процесса машинного обучения - это предварительная обработка данных, которая, как говорится в википедии, включает «очистку, нормализацию, преобразование, извлечение и выбор признаков и т. д.».
Другой аспект машинного обучения - «создание модели». это включает в себя решения, например, о том, сколько классов будет обнаружено, каковы будут «размер» или «размеры» структуры ML (например, «сколько ядер будет включать SVM» и т. д., примерно аналогично выбору количества нейронов в NN). модель). к сожалению, некоторые ссылки, как правило, пропускают или «замаскируют» этот шаг. но обратите внимание, это общее со статистикой, и некоторые статистические книги будут иметь хорошее описание.
в подходах типа ML принято, что существует сильный итеративный / обратный / эволюционный процесс для определения как эффективной предварительной обработки, так и моделирования. Экспериментатор пробует различные идеи предварительной обработки и моделирования и движется в направлении более успешных. Общее практическое правило гласит: «Чем лучше предсказания, тем более правильно (и, вероятно, также реалистично ) проводится предварительная обработка и моделирование», но также с учетом того, что переоснащение тщательно исключается.
источник