Дерево решений или логистическая регрессия?

14

Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией?

Правильно ли предположить, что логистическая регрессия будет более подходящей для непрерывной переменной, а дерево решений будет более подходящим для непрерывной + категориальной переменной?

Arun
источник
Можете ли вы добавить больше деталей, таких как количество строк, количество столбцов (а также количество категориальных / непрерывных)?
Нитеш
Привет @ Nitesh, у меня есть 32 входных переменных + 1 целевая переменная. Записи для данных обучения близки к 2,5 лакхам, и, скажем, данные тестирования составляют около 1 лакх. Данные тестирования устарели.
Арун

Ответы:

22

Короче говоря : делайте то, что сказал @untitledprogrammer, попробуйте обе модели и проведите перекрестную проверку, чтобы помочь выбрать одну.

Как деревья решений (в зависимости от реализации, например, C4.5), так и логистическая регрессия должны нормально обрабатывать непрерывные и категориальные данные. Для логистической регрессии вам понадобится фиктивная кодировка ваших категориальных переменных .

Как упомянул @untitledprogrammer, сложно априори определить, какая техника будет лучше, просто исходя из типов имеющихся у вас функций, непрерывных или иных. Это действительно зависит от вашей конкретной проблемы и имеющихся у вас данных. (См. Теорему об отсутствии бесплатного обеда )

Однако вы должны иметь в виду, что модель логистической регрессии ищет единственную линейную границу решения в вашем пространстве признаков, тогда как дерево решений по существу разделяет ваше пространство признаков на полупространства, используя ориентированные по оси линейные границы решения. Чистым эффектом является то, что у вас есть нелинейная граница принятия решения, возможно, более одного.

Это хорошо, когда ваши точки данных нелегко разделить одной гиперплоскостью, но, с другой стороны, деревья решений настолько гибки, что могут быть подвержены переобучению. Чтобы бороться с этим, вы можете попробовать обрезку. Логистическая регрессия имеет тенденцию быть менее восприимчивой (но не иммунной!) К переоснащению.

ИксYИксY

Поэтому вы должны спросить себя:

  • какой тип границы решения имеет больше смысла в вашей конкретной проблеме?
  • как вы хотите сбалансировать отклонения и отклонения?
  • Есть ли взаимодействие между моими функциями?

Конечно, всегда полезно попробовать обе модели и выполнить перекрестную проверку. Это поможет вам выяснить, какой из них с большей вероятностью будет иметь ошибку при обобщении.

Виктор Ма
источник
Точно @Victor.
без названия программист
@Victor Большое спасибо за очень подробное объяснение.
Арун
6

Попробуйте использовать деревья регрессии и принятия решений. Сравните эффективность каждого метода, используя 10-кратную перекрестную проверку. Придерживайтесь одного с более высокой эффективностью. Было бы сложно определить, какой метод лучше подходит, просто зная, что ваш набор данных является непрерывным и / или категоричным.

untitledprogrammer
источник
1

Это действительно зависит от структуры основного распределения ваших данных. Если у вас есть веские основания полагать, что данные приближаются к распределению Бернулли, многочленная логистическая регрессия будет работать хорошо и даст вам интерпретируемые результаты. Однако, если в базовом распределении существуют нелинейные структуры, вы должны серьезно рассмотреть непараметрический метод.

Хотя вы можете использовать дерево решений в качестве своего непараметрического метода, вы также можете рассмотреть возможность создания случайного леса - это, по сути, создает большое количество отдельных деревьев решений из подмножеств данных, а конечная классификация - это агломерированный голос всех деревьев. , Случайный лес помогает получить представление о том, какую долю каждая переменная предикторов вносит в ответ.

Еще один фактор, который нужно иметь в виду, это интерпретируемость. Если вы просто пытаетесь классифицировать данные, то, вероятно, вас не волнуют основные взаимосвязи между переменными объяснения и ответа. Однако, если вас вообще интересует интерпретируемость, полиномиальную логистическую регрессию гораздо проще интерпретировать, параметрические методы в целом, поскольку они делают предположения о базовом распределении, расскажут вам более интуитивно интерпретируемые отношения.

Тереза ​​Бартон
источник
0

Чтобы использовать дерево решений, вы должны преобразовать непрерывную переменную в категориальную.

Еще одна вещь, логистическая регрессия обычно используется для прогнозирования результата в соответствии с вероятностью.

Чонг Чжэн
источник