Выберите алгоритм двоичной классификации

17

У меня есть проблема двоичной классификации:

  • Примерно 1000 образцов в тренировочном наборе
  • 10 атрибутов, включая двоичные, числовые и категориальные

Какой алгоритм является лучшим выбором для этого типа проблемы?

По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения атрибутов, преобразованные в двоичные объекты), поскольку он считается лучшим для относительно чистых и не шумных данных.

IharS
источник

Ответы:

15

Трудно сказать, не зная немного больше о вашем наборе данных и о том, насколько отделим ваш набор данных на основе вашего векторного элемента, но я бы, вероятно, предложил использовать экстремальный случайный лес по сравнению со стандартным случайным лесом из-за вашего относительно небольшого набора выборок.

Экстремальные случайные леса очень похожи на стандартные случайные леса, за исключением того, что вместо оптимизации разбиений на деревьях экстремальные случайные леса производят разбиения случайным образом. Первоначально это может показаться отрицательным, но обычно это означает, что у вас значительно лучше обобщение и скорость, хотя AUC в вашем тренировочном наборе, вероятно, будет немного хуже.

Логистическая регрессия также является довольно солидной ставкой для подобных задач, хотя из-за вашей относительно низкой размерности и небольшого размера выборки я бы беспокоился о переобучении. Возможно, вы захотите проверить, используя K-Nearest Neighbours, так как он часто выполняет очень волю с низкой размерностью, но обычно не очень хорошо обрабатывает категориальные переменные.

Если бы мне пришлось выбирать один из них, не зная больше о проблеме, я бы, конечно, сделал ставку на крайне случайный лес, так как он, скорее всего, даст вам хорошее обобщение на этот тип набора данных, а также лучше обрабатывает сочетание числовых и категориальных данных. чем большинство других методов.

Indico
источник
хорошо, спасибо! Хотя пока не уверен, смогу ли я использовать пакет R «randomForest» ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) для генерации ERF. Возможно нет.
IharS
12

Для низких параметров, довольно ограниченного размера выборки и логистической регрессии двоичного классификатора должно быть достаточно мощным. Вы можете использовать более продвинутый алгоритм, но он, вероятно, излишний.

neone4373
источник
5

Когда категориальные переменные находятся в миксе, я берусь за леса случайных решений, поскольку они обрабатывают категориальные переменные напрямую, без преобразования кодировки 1-из-n. Это теряет меньше информации.

Шон Оуэн
источник
5

Линейный SVM должен быть хорошей отправной точкой. Взгляните на это руководство, чтобы выбрать правильный оценщик.

Stanpol
источник
2

Не рекомендую использовать сложные методы в первую очередь. Сначала используйте более быстрые простые подходы (kNN, NBC и т. Д.), Затем переходите к линейной регрессии, логистической регрессии, LDA, CART (RF), KREG, а затем к наименьшим квадратам SVM, восходящему градиентному SVM, ANN и затем метаэвристике (жадный) эвристическое восхождение на холмы с GA, интеллектом роя, оптимизацией колонии муравьев и т. д.)


источник