Какой самый лучший из двух классификаторов из коробки? Да, я думаю, это вопрос на миллион долларов, и да, я знаю теорему об отсутствии бесплатного обеда , и я также прочитал предыдущие вопросы:
Тем не менее, мне интересно читать больше на эту тему.
Что является хорошим источником информации, который включает общее сравнение характеристик, преимуществ и характеристик различных классификаторов?
Ответы:
ESL , как уже упоминалось Питером Флом, является отличным предложением (обратите внимание , что моя ссылка на домашнюю страницу автора , где книга может быть получена в виде PDF-файла бесплатно). Позвольте мне добавить пару более конкретных вещей, чтобы искать в книге:
Добавьте в книгу представление « Задачи машинного обучения для R», которое дает некоторое представление о том, что на самом деле могут делать многие пакеты машинного обучения, хотя реального сравнения нет. Для пользователей Python я думаю, что scikit.learn - это хорошее место для поиска. Степень «готового» или «готового» метода во многом определяется тем, насколько хорошо реализация имеет дело с автоматической адаптацией к ситуации с данными по сравнению с предоставлением детальной настройки пользователю. На мой взгляд, mgcv для R является хорошим примером, который делает подгонку достаточно хорошей обобщенной аддитивной модели действительно простой и практически без необходимости пользователя что-либо настраивать вручную.
источник
Ресурсы, перечисленные другими, безусловно, полезны, но я добавлю следующее и добавлю следующее: «лучший» классификатор, вероятно, будет зависеть от контекста и данных. В ходе недавнего исследования различных двоичных классификаторов я обнаружил, что Boosted Regression Tree работает лучше, чем другие методы, к которым у меня был доступ. Ключевым для меня было изучение того, как использовать инструменты интеллектуального анализа данных Orange . У них есть отличная документация для начала изучения этих методов с вашими данными. Например, вот небольшой сценарий Python, который я написал для оценки качества нескольких классификаторов по множественным показателям точности с использованием перекрестной проверки в k-кратном размере.
Когда я запускаю этот код на моих данных, я получаю вывод как
С объектами Orange вы можете сделать гораздо больше, чтобы проанализировать производительность и провести сравнение. Я обнаружил, что этот пакет чрезвычайно полезен при написании небольшого количества кода для фактического применения методов к моим данным с согласованным API и абстракцией проблемы (т. Е. Мне не нужно было использовать шесть разных пакетов от шести разных авторов, каждый со своим собственным подход к разработке API и документации и т. д.).
источник
Книга «Элементы статистического обучения» содержит много информации об этом.
источник
Другие ресурсы, которые я нашел относительно этого (бесплатный PDF доступен):
источник
Согласно этому недавнему исчерпывающему исследованию (оценка 179 классификаторов на 121 наборе данных), лучшими классификаторами являются случайные леса, за которыми следуют машины опорных векторов.
источник