Почему несколько типов моделей могут давать почти одинаковые результаты?

10

Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом наборе данных.

Почему это так? Я предполагаю, что это потому, что мои наблюдения к переменному отношению очень высоки. Если это правильно, при каком отношении к переменному отношению разные модели начнут давать разные результаты?

JenSCDC
источник

Ответы:

7

Это означает, что независимо от того, какой метод вы используете, вы можете быть достаточно близки к оптимальному правилу принятия решений (так называемому правилу Байеса ). Основные причины были объяснены в «Элементах статистического обучения» Хасти, Тибширани и Фридмана . Они продемонстрировали, как работают различные методы, сравнивая рис. 2.1, 2.2, 2.3, 5.11 (в моем первом издании - в разделе о многомерных сплайнах), 12.2, 12.3 (машины опорных векторов) и, возможно, некоторые другие. Если вы не читали эту книгу, вы должны бросить все прямо сейчас и прочитать ее. (Я имею в виду, что не стоит терять работу, но стоит пропустить домашнюю работу или две, если вы студент.)

Я не думаю, что наблюдения к переменному отношению - это объяснение. В свете моего обоснования, предложенного выше, это относительно простая форма границы, разделяющей ваши классы в многомерном пространстве, которую смогли идентифицировать все методы, которые вы пробовали.

Stask
источник
Я спрошу своего босса, могу ли я заставить компанию заплатить за это.
JenSCDC
1
ESL «бесплатный» в виде pdf с их домашней страницы ... также стоит скачать ISL (многими из тех же авторов) - более практичный www-bcf.usc.edu/~gareth/ISL
seanv507
4

Стоит также посмотреть на ошибки обучения.

в принципе я не согласен с вашим анализом. если бы логистическая регрессия и т. д. давали одинаковые результаты, это означало бы, что «лучшая модель» является очень простой (что все модели могут подходить одинаково хорошо - например, в основном линейные).

Тогда возникает вопрос: почему лучшая модель - простая модель ?: Это может указывать на то, что ваши переменные не очень предсказуемы. Конечно, трудно анализировать, не зная данных.

seanv507
источник
1

Как предположил @ seanv507, подобная производительность может быть просто связана с тем, что данные лучше всего разделять линейной моделью. Но в целом утверждение о том, что «отношение наблюдений к переменным настолько велико», неверно. Даже если ваше отношение размера выборки к числу переменных становится бесконечным, вы не должны ожидать, что разные модели будут работать почти одинаково, если только они не обеспечивают одинаковое прогнозирующее смещение.

bogatron
источник
Я только отредактировал свой вопрос, чтобы добавить, что зависимая переменная является двоичной. Следовательно, линейная модель не подходит.
JenSCDC
«не следует ожидать, что разные модели будут работать почти одинаково, если только они не обеспечивают одинаковое прогнозирующее смещение». Я использовал MAE и соотношение фактических и прогнозируемых результатов в качестве показателей валидации, и отношения были очень близки.
JenSCDC
1
Энди, я бы включил логистическую регрессию (и линейный SVM) в качестве «линейной» модели. Все они просто разделяют данные на взвешенную сумму входных данных.
seanv507
1
@ seanv507 Точно - граница решения все еще линейна. Тот факт, что бинарная классификация выполняется, не меняет этого.
Богатрон
А как насчет деревьев? Они действительно не кажутся мне линейными.
JenSCDC
0

Я предполагаю, что это потому, что мои наблюдения к переменному отношению очень высоки.

Я думаю, что это объяснение имеет смысл.

Если это правильно, при каком отношении к переменному отношению разные модели начнут давать разные результаты?

Вероятно, это будет в значительной степени зависеть от ваших конкретных данных (например, даже от того, являются ли ваши девять переменных непрерывными, факторами, обычными или двоичными), а также от любых решений по настройке, которые вы приняли во время подбора вашей модели.

Но вы можете поиграть с отношением наблюдения к переменной - не увеличивая количество переменных, а уменьшая количество наблюдений. Произвольно нарисуйте 100 наблюдений, подберите модели и посмотрите, дают ли разные модели разные результаты. (Я предполагаю, что они будут.) Сделайте это несколько раз с различными выборками, взятыми из вашего общего количества наблюдений. Затем посмотрите на выборки из 1000 наблюдений ... 10000 наблюдений ... и так далее.

Стефан Коласса
источник
1
Хм почему это? больше наблюдений, кажется, увеличивает вероятность того, что граница принятия решения является более сложной - то есть определенно не линейной. И эти модели делают разные вещи в сложных случаях, и, как правило, делают то же самое в простых.
Шон Оуэн
@SeanOwen: я думаю, я не понимаю ваш комментарий. К какой части моего ответа относится «почему это»? ОП ничего не сказал об использовании линейных границ принятия решений - в конце концов, он мог бы каким-то образом преобразовать предикторы.
Стефан Коласса
Зачем больше наблюдений заставлять разных классификаторов давать больше похожих решений? моя интуиция противоположна. Да, я не думаю только о линейных границах решения. Чем сложнее оптимальная граница, тем менее вероятно, что все они подойдут к чему-то похожему на эту границу. И граница имеет тенденцию быть более сложной с большим количеством наблюдений.
Шон Оуэн