Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией?
Правильно ли предположить, что логистическая регрессия будет более подходящей для непрерывной переменной, а дерево решений будет более подходящим для непрерывной + категориальной переменной?
Ответы:
Короче говоря : делайте то, что сказал @untitledprogrammer, попробуйте обе модели и проведите перекрестную проверку, чтобы помочь выбрать одну.
Как деревья решений (в зависимости от реализации, например, C4.5), так и логистическая регрессия должны нормально обрабатывать непрерывные и категориальные данные. Для логистической регрессии вам понадобится фиктивная кодировка ваших категориальных переменных .
Как упомянул @untitledprogrammer, сложно априори определить, какая техника будет лучше, просто исходя из типов имеющихся у вас функций, непрерывных или иных. Это действительно зависит от вашей конкретной проблемы и имеющихся у вас данных. (См. Теорему об отсутствии бесплатного обеда )
Однако вы должны иметь в виду, что модель логистической регрессии ищет единственную линейную границу решения в вашем пространстве признаков, тогда как дерево решений по существу разделяет ваше пространство признаков на полупространства, используя ориентированные по оси линейные границы решения. Чистым эффектом является то, что у вас есть нелинейная граница принятия решения, возможно, более одного.
Это хорошо, когда ваши точки данных нелегко разделить одной гиперплоскостью, но, с другой стороны, деревья решений настолько гибки, что могут быть подвержены переобучению. Чтобы бороться с этим, вы можете попробовать обрезку. Логистическая регрессия имеет тенденцию быть менее восприимчивой (но не иммунной!) К переоснащению.
Поэтому вы должны спросить себя:
Конечно, всегда полезно попробовать обе модели и выполнить перекрестную проверку. Это поможет вам выяснить, какой из них с большей вероятностью будет иметь ошибку при обобщении.
источник
Попробуйте использовать деревья регрессии и принятия решений. Сравните эффективность каждого метода, используя 10-кратную перекрестную проверку. Придерживайтесь одного с более высокой эффективностью. Было бы сложно определить, какой метод лучше подходит, просто зная, что ваш набор данных является непрерывным и / или категоричным.
источник
Это действительно зависит от структуры основного распределения ваших данных. Если у вас есть веские основания полагать, что данные приближаются к распределению Бернулли, многочленная логистическая регрессия будет работать хорошо и даст вам интерпретируемые результаты. Однако, если в базовом распределении существуют нелинейные структуры, вы должны серьезно рассмотреть непараметрический метод.
Хотя вы можете использовать дерево решений в качестве своего непараметрического метода, вы также можете рассмотреть возможность создания случайного леса - это, по сути, создает большое количество отдельных деревьев решений из подмножеств данных, а конечная классификация - это агломерированный голос всех деревьев. , Случайный лес помогает получить представление о том, какую долю каждая переменная предикторов вносит в ответ.
Еще один фактор, который нужно иметь в виду, это интерпретируемость. Если вы просто пытаетесь классифицировать данные, то, вероятно, вас не волнуют основные взаимосвязи между переменными объяснения и ответа. Однако, если вас вообще интересует интерпретируемость, полиномиальную логистическую регрессию гораздо проще интерпретировать, параметрические методы в целом, поскольку они делают предположения о базовом распределении, расскажут вам более интуитивно интерпретируемые отношения.
источник
Чтобы использовать дерево решений, вы должны преобразовать непрерывную переменную в категориальную.
Еще одна вещь, логистическая регрессия обычно используется для прогнозирования результата в соответствии с вероятностью.
источник