Каков наилучший двухклассный классификатор для вашего приложения? [закрыто]

15

Правила:

  • один классификатор за ответ
  • голосовать, если вы согласны
  • уменьшить / удалить дубликаты.
  • оставьте заявку в комментарии
Łukasz Lew
источник

Ответы:

14

Случайный лес

  • легко фиксирует сложную структуру / нелинейные отношения
  • инвариант к шкале переменных
  • нет необходимости создавать фиктивные переменные для категориальных предикторов
  • выбор переменных не так уж и нужен
  • сравнительно трудно надеть
Łukasz Lew
источник
Выбор активных мотивов аптамеров, прогнозирование влажности грунта леса, цифровое распознавание текста, мультиспектральный спутниковый анализ изображений, поиск музыкальной информации, хемометрия ...
13

Логистическая регрессия :

  • быстро и хорошо работать на большинстве наборов данных
  • почти нет параметров для настройки
  • обрабатывает как дискретные / непрерывные функции
  • модель легко интерпретируема
  • (на самом деле не ограничивается бинарными классификациями)
Amro
источник
Возможно, нет параметров для настройки, но нужно по-настоящему работать с непрерывными переменными (преобразования, сплайны и т. Д.), Чтобы вызвать нелинейность.
B_Miner
12

Машина опорных векторов

Лукаш Лью
источник
Существует нет ничего действительно особенного SVM, кроме того , что заставляет пользователя думать о регуляризации. Для большинства практических задач регрессия [ядра] работает так же хорошо.
Дикран Marsupial
2
@dikran Я думаю, что SVM - отличный классификатор, потому что он редок и устойчив к выбросам - это не так для логистической регрессии! и именно поэтому SVM - современный классификатор. Единственная проблема, которая может быть проблемой - сложность времени - но я думаю, что все в порядке.
Suncoolsu
@suncoolsu Если вы хотите разреженности, вы получите больше разреженности от упорядоченной логистической регрессии с LASSO, чем с SVM. Разреженность SVM является побочным продуктом функции потерь, поэтому вы не получите столько, сколько вы получите с алгоритмом, где разрозненность является целью проектирования. Также часто с оптимальным значением гиперпараметра (например, выбранным путем перекрестной проверки) большая часть разреженности SVM исчезает. SVM не более устойчив к выбросам, чем регуляризованная логистическая регрессия - в основном важна регуляризация, а не потеря шарнира.
Дикран Marsupial
@Dikran - моя точка зрения точно - важно какое-то наказание. Вы можете получить это, используя Priors, добавив штраф и т. Д.
suncoolsu
1
@suncoolsu В этом случае SVM не является отличным классификатором, это всего лишь один из многих регуляризованных классификаторов, таких как регрессия гребня, регуляризованная логистическая регрессия, процессы Гаусса. Основным преимуществом SVM является привлекательность теории компьютерного обучения. На практике более важны другие соображения, например, нужен ли вам вероятностный классификатор, где другие функции потерь, вероятно, будут лучше. ИМХО, слишком много внимания уделяется SVM, а не более широкому семейству методов ядра.
Дикран Marsupial
7

Регуляризованный дискриминант для контролируемых задач с зашумленными данными

  1. Вычислительно эффективный
  2. Устойчивый к шуму и выбросам в данных
  3. Классификаторы как линейного дискриминанта (LD), так и квадратичного дискриминанта (QD) можно получить из одной и той же реализации, задав для параметров регуляризации «[lambda, r]» значение «[1 0]» для классификатора LD и «[0 0]» для Классификатор QD - очень полезен для справочных целей.
  4. Модель легко интерпретировать и экспортировать
  5. Хорошо работает для разреженных и «широких» наборов данных, где ковариационные матрицы классов не могут быть четко определены.
  6. Оценка вероятности апостериорного класса может быть оценена для каждой выборки путем применения функции softmax к значениям дискриминанта для каждого класса.

Ссылка на оригинальную статью 1989 года Фридмана и др. Здесь . Также есть очень хорошее объяснение Кунчевой в ее книге « Объединение шаблонных классификаторов ».

Б.Грин
источник
5

Градиентные деревья.

  • По крайней мере, такой же точный, как RF на многих приложениях
  • Включает пропущенные значения плавно
  • Важность Var (как RF, вероятно, смещена в пользу непрерывного и многоуровневого номинала)
  • Частичные графики зависимости
  • GBM против randomForest в R: обрабатывает НАМНОГО больших наборов данных
B_Miner
источник
4

Классификатор гауссовских процессов - он дает вероятностные прогнозы (что полезно, когда ваши относительные рабочие частоты классов отличаются от тех, что указаны в вашем учебном наборе, или эквивалентны вашим ложноположительным / ложноотрицательным затратам, неизвестным или переменным) Это также дает указание на неопределенность в предсказаниях модели из-за неопределенности в «оценке модели» из конечного набора данных. Функция ковариации эквивалентна функции ядра в SVM, поэтому она также может работать непосредственно с не векторными данными (например, строками или графиками и т. Д.). Математическая структура также аккуратна (но не используйте приближение Лапласа). Автоматический выбор модели через максимизацию предельной вероятности.

По сути сочетает в себе хорошие функции логистической регрессии и SVM.

Дикран Сумчатый
источник
Есть ли пакет R, который вы рекомендуете реализовать? Какова ваша предпочтительная реализация для этого метода? Благодарность!
Джульет
Боюсь, что я пользователь MATLAB (я использую пакет GPML gaussianprocess.org/gpml/code/matlab/doc ), поэтому я не могу посоветовать реализацию R, но вы можете найти что-то подходящее здесь gaussianprocess.org/# код . Если у R нет приличного пакета для врачей, кто-то должен написать его!
Дикран Сумчатый
Хорошо спасибо. Позволяет ли эта методология выбрать «важные переменные, такие как значение переменных случайных лесов или исключение рекурсивных признаков с помощью SVM?»
Джульет
Да, вы можете использовать ковариационную функцию «Автоматическое определение релевантности» и выбирать гиперпараметры, максимизируя байесовские доказательства для модели (хотя это может столкнуться с такими же проблемами перебора, которые вы получаете с SVMS, поэтому часто модель работает лучше без выбора функции).
Дикран Сумчатый
4

L1-регуляризованная логистическая регрессия.

  • Это вычислительно быстро.
  • Имеет интуитивно понятную интерпретацию.
  • Он имеет только один легко понятный гиперпараметр, который можно автоматически настроить перекрестной проверкой, что часто является хорошим способом.
  • Его коэффициенты кусочно-линейны, а их отношение к гиперпараметру мгновенно и легко видно на простом графике.
  • Это один из менее сомнительных методов выбора переменных.
  • Также у него есть действительно классное имя.
Миура
источник
+1 Гиперпараметр также может быть интегрирован аналитически, поэтому для многих приложений нет необходимости в перекрестной проверке, см., Например, theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf и bioinformatics .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Дикран Сумчатый
3

Knn

user88
источник
3

Наивный Байес и Случайные Наивные Бухты

user88
источник
2
Можете ли вы дать описание проблемы, когда RNB дал вам хорошие результаты?
Лукаш Лью
Нет ;-) Это было только для того, чтобы оживить бассейн.
1

K-означает кластеризацию для обучения без учителя.

Беркай
источник
Вопрос конкретно просит классификатор.
Прометей