Я новичок в машинном обучении. Я применил логистическую регрессию и случайный лес к одному и тому же набору данных. Таким образом, я получаю значение переменной (абсолютный коэффициент для логистической регрессии и значение переменной для случайного леса). Я думаю объединить два, чтобы получить окончательное значение переменной. Кто-нибудь может поделиться своим опытом? Я проверил сумку, бустинг, моделирование ансамблей, но они не то, что мне нужно. Они больше объединяют информацию для одной и той же модели через реплики. То, что я ищу, это объединить результаты нескольких моделей.
machine-learning
logistic
random-forest
user1946504
источник
источник
Ответы:
Вероятно, это зависит от того, для чего вы хотите использовать переменные значения. Будет ли он использоваться в качестве критерия выбора признаков для третьей модели классификации? В этом случае вы можете попытаться вычислить средневзвешенное значение переменных значений (возможно, после нормализации каждого отдельного вектора важности переменной для длины единицы) для различных значений и веса усреднения, а затем получить значение, которое дает лучший перекрестно проверенный результат для окончательного значения. модель.
Что касается объединения результатов модели логистической регрессии и модели случайного леса (без учета переменных значений), следующий пост в блоге очень информативен и демонстрирует, что однократное усреднение результатов представляет собой простой, но очень эффективный метод ансамбля для моделей регрессии.
источник
(Комментируя вышеупомянутый ответ и обратную связь)
Спасибо, что читаете блог!
Функция кросс-энтропийной ошибки имеет небольшой обман, обрезая предсказанные значения до [1e-10, 1-1e-10] как дешевый и простой способ предотвратить ошибки в функциях журнала. В противном случае это стандартная формула.
Для набора данных очень возможно иметь наборы данных, в которых случайный лес намного превосходит журнал. рег. и журнал. рег. ничего не добавляет в ансамбль. Конечно, убедитесь, что вы используете несдерживаемые данные - случайный лес почти всегда будет иметь превосходные результаты на тренировочных данных из-за наличия гораздо более эффективных параметров.
источник