В общем, в проблеме классификации, где цель состоит в том, чтобы точно предсказать членство в классах вне выборки, когда я не должен использовать ансамблевый классификатор?
Этот вопрос тесно связан с тем, почему не всегда использовать ансамблевое обучение? , Этот вопрос спрашивает, почему мы не используем ансамбли все время. Я хочу знать, есть ли случаи, когда ансамбли, как известно, хуже (не просто «не лучше и не трата времени»), чем не ансамблевый эквивалент.
И под «ансамблевым классификатором» я имею в виду такие классификаторы, как AdaBoost и случайные леса, в отличие, например, от расширенной машины опорных векторов.
classification
boosting
ensemble
bagging
shadowtalker
источник
источник
Ответы:
Модель, наиболее близкая к истинному процессу генерирования данных, всегда будет лучшей и превзойдет большинство ансамблевых методов. Поэтому, если данные поступают из линейного процесса, lm () будет намного лучше случайных лесов, например:
источник
Я не рекомендую использовать ансамблевой классификатор, когда ваша модель должна быть интерпретируемой и объяснимой. Иногда вам нужны прогнозы и объяснения прогнозов.
Когда вам нужно убедить людей в том, что в прогнозы стоит верить, очень точная модель может быть очень убедительной, но я изо всех сил пытался убедить людей действовать в соответствии с прогнозами, когда методы слишком сложны для их уровня комфорта.
По моему опыту, большинству людей удобны линейные аддитивные модели, модели, которые они могли бы набрать вручную, и если вы попытаетесь объяснить адаптивное ускорение, гиперплоскости и эффекты взаимодействия 5-го уровня, они будут реагировать так, как будто вы бросаете им черную магию.
С другой стороны, люди могут быть довольны сложностью модели, но все же хотят усвоить некоторое понимание. Ученые, например, могут не считать модель черного ящика прогрессом в человеческих знаниях, даже если модель очень точна.
Анализ важности переменных может помочь с пониманием, но если ансамбль является более точным, чем линейная аддитивная модель, он, вероятно, использует некоторые нелинейные эффекты и эффекты взаимодействия, которые анализ переменной важности не может полностью объяснить.
источник
Я хотел бы добавить к ответу Бранко. Ансамбли могут быть очень конкурентоспособными и обеспечивать очень хорошие результаты. Например, в академических кругах это главное. В промышленности ансамбли могут быть слишком сложными для реализации / поддержки / модификации / переноса. Работа Гофа Хинтона над «Темным знанием» как раз и заключается в следующем: как перенести «знание» большого ансамбля в одну легко перемещаемую модель. Он заявляет, что ансамбли плохие во время тестирования: они сильно избыточны, и время вычислений может вызывать беспокойство.
Его команда получила интересные результаты, предлагаю ознакомиться с его публикациями или хотя бы слайдами. Если у меня хорошая память, это была горячая тема 2013 или 2014 года.
Слайды о Темных Знаниях можно найти здесь: http://www.ttic.edu/dl/dark14.pdf
источник