Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом наборе данных.
Почему это так? Я предполагаю, что это потому, что мои наблюдения к переменному отношению очень высоки. Если это правильно, при каком отношении к переменному отношению разные модели начнут давать разные результаты?
источник
Стоит также посмотреть на ошибки обучения.
в принципе я не согласен с вашим анализом. если бы логистическая регрессия и т. д. давали одинаковые результаты, это означало бы, что «лучшая модель» является очень простой (что все модели могут подходить одинаково хорошо - например, в основном линейные).
Тогда возникает вопрос: почему лучшая модель - простая модель ?: Это может указывать на то, что ваши переменные не очень предсказуемы. Конечно, трудно анализировать, не зная данных.
источник
Как предположил @ seanv507, подобная производительность может быть просто связана с тем, что данные лучше всего разделять линейной моделью. Но в целом утверждение о том, что «отношение наблюдений к переменным настолько велико», неверно. Даже если ваше отношение размера выборки к числу переменных становится бесконечным, вы не должны ожидать, что разные модели будут работать почти одинаково, если только они не обеспечивают одинаковое прогнозирующее смещение.
источник
Я думаю, что это объяснение имеет смысл.
Вероятно, это будет в значительной степени зависеть от ваших конкретных данных (например, даже от того, являются ли ваши девять переменных непрерывными, факторами, обычными или двоичными), а также от любых решений по настройке, которые вы приняли во время подбора вашей модели.
Но вы можете поиграть с отношением наблюдения к переменной - не увеличивая количество переменных, а уменьшая количество наблюдений. Произвольно нарисуйте 100 наблюдений, подберите модели и посмотрите, дают ли разные модели разные результаты. (Я предполагаю, что они будут.) Сделайте это несколько раз с различными выборками, взятыми из вашего общего количества наблюдений. Затем посмотрите на выборки из 1000 наблюдений ... 10000 наблюдений ... и так далее.
источник