Я хотел знать, что означает параметр n.minobsinnode в пакете GBM. Я прочитал руководство, но не ясно, что оно делает. Это число должно быть маленьким или большим, чтобы улучшить результаты?
«Этот вопрос вряд ли поможет будущим посетителям». Я будущий посетитель, и я нашел это полезным.
Камбала
1
Я также нашел это полезным.
Оахакамат
Ответы:
25
На каждом этапе алгоритма GBM создается новое дерево решений. Вопрос при выращивании дерева решений - «когда остановиться?». Самое дальнее, что вы можете сделать, это разделить каждый узел, пока в каждом терминальном узле не будет только 1 наблюдения. Это будет соответствовать n.minobsinnode = 1. Альтернативно, разделение узлов может прекратиться, когда определенное количество наблюдений будет в каждом узле. По умолчанию для пакета R GBM установлено значение 10.
Какую ценность лучше использовать? Это зависит от набора данных и от того, проводите ли вы классификацию или регрессию. Поскольку предсказание каждого дерева принимается как среднее значение зависимой переменной от всех входных данных в терминальном узле, значение 1, вероятно, не будет работать так хорошо для регрессии (!), Но может быть подходящим для классификации.
Более высокие значения означают меньшие деревья, поэтому алгоритм работает быстрее и использует меньше памяти, что может быть важным фактором.
Как правило, результаты не очень чувствительны к этому параметру, и, учитывая стохастический характер производительности GBM, на самом деле может быть трудно точно определить, какое значение является «лучшим». Глубина взаимодействия, усадка и количество деревьев будут намного более значительными в целом.
Ответы:
На каждом этапе алгоритма GBM создается новое дерево решений. Вопрос при выращивании дерева решений - «когда остановиться?». Самое дальнее, что вы можете сделать, это разделить каждый узел, пока в каждом терминальном узле не будет только 1 наблюдения. Это будет соответствовать n.minobsinnode = 1. Альтернативно, разделение узлов может прекратиться, когда определенное количество наблюдений будет в каждом узле. По умолчанию для пакета R GBM установлено значение 10.
Какую ценность лучше использовать? Это зависит от набора данных и от того, проводите ли вы классификацию или регрессию. Поскольку предсказание каждого дерева принимается как среднее значение зависимой переменной от всех входных данных в терминальном узле, значение 1, вероятно, не будет работать так хорошо для регрессии (!), Но может быть подходящим для классификации.
Более высокие значения означают меньшие деревья, поэтому алгоритм работает быстрее и использует меньше памяти, что может быть важным фактором.
Как правило, результаты не очень чувствительны к этому параметру, и, учитывая стохастический характер производительности GBM, на самом деле может быть трудно точно определить, какое значение является «лучшим». Глубина взаимодействия, усадка и количество деревьев будут намного более значительными в целом.
источник