Регуляризация в регрессии (линейная, логистическая ...) является наиболее популярным способом уменьшения избыточного соответствия.
Когда целью является точность прогноза (не объяснение), есть ли хорошие альтернативы регуляризации, особенно подходящие для больших наборов данных (ми / миллиарды наблюдений и миллионы функций)?
regression
regularization
overfitting
Бенуа Санчес
источник
источник
Ответы:
Два важных момента, которые не имеют прямого отношения к вашему вопросу:
Во-первых, даже целью является точность, а не интерпретация, во многих случаях по-прежнему необходима регуляризация, поскольку она обеспечит «высокую точность» в реальном наборе данных испытаний / производства, а не данных, используемых для моделирования.
Во-вторых, если существует миллиард строк и миллионов столбцов, возможно, регуляризация не требуется. Это потому, что данные огромны, и многие вычислительные модели имеют «ограниченную мощность», т. Е. Переоснащение практически невозможно. Вот почему некоторые глубокие нейронные сети имеют миллиарды параметров.
Теперь о вашем вопросе. Как упоминали Бен и Андрей, есть несколько вариантов в качестве альтернативы регуляризации. Я хотел бы добавить больше примеров.
Использовать более простую модель (например, уменьшить количество скрытых единиц в нейронной сети. Использовать ядро полинома более низкого порядка в SVM. Уменьшить количество гауссианов в смеси гауссов. И т. Д.)
Остановитесь рано в оптимизации. (Например, сократить время обучения нейронной сети, уменьшить количество итераций в оптимизации (CG, BFGS и т. Д.)
Среднее по многим моделям (например, случайный лес и т. Д.)
источник
Две альтернативы регуляризации:
Джефф Хинтон (соавтор обратного распространения) однажды рассказал историю инженеров, которые сказали ему (перефразируя): «Джефф, нам не нужно бросать наши глубокие сети, потому что у нас так много данных». И его ответ был: «Ну, тогда вы должны построить еще более глубокие сети, пока вы не переоснастите их, а затем использовать отсев». Помимо хороших советов, вы можете избежать регуляризации даже с глубокими сетями, если данных достаточно.
При фиксированном количестве наблюдений вы также можете выбрать более простую модель. Вам, вероятно, не нужна регуляризация для оценки пересечения, наклона и дисперсии ошибки в простой линейной регрессии.
источник
Некоторые дополнительные возможности, чтобы избежать переоснащения
Уменьшение размерности
Вы можете использовать алгоритм, такой как анализ главных компонентов (PCA), чтобы получить подпространство пространственных объектов меньшего размера. Идея PCA заключается в том, что вариация вашегом Пространство пространственных объектов может быть хорошо аппроксимировано л < < м пространственное подпространство.
Выбор характеристик (также уменьшение размерности)
Вы можете выполнить раунд выбора объектов (например, используя LASSO), чтобы получить пространство пространственных объектов меньшего размера. Что-то вроде выбора функции с использованием LASSO может быть полезно, если какое-то большое, но неизвестное подмножество функций не имеет значения.
Используйте алгоритмы, менее подверженные переобучению, такие как случайный лес. (В зависимости от настроек, количества объектов и т. Д., Они могут быть более дорогими в вычислительном отношении, чем обычные наименьшие квадраты.)
В некоторых других ответах также упоминались преимущества методов и алгоритмов бустинга и пакетирования.
Байесовские методы
Добавление априора к вектору коэффициентов уменьшает переоснащение. Концептуально это связано с регуляризацией: например. регрессия гребня является частным случаем максимальной апостериорной оценки.
источник
Если вы используете модель с решателем, где вы можете определить количество итераций / эпох, вы можете отследить ошибку валидации и применить раннюю остановку: остановите алгоритм, когда ошибка валидации начнет увеличиваться.
источник
Две мысли:
Я придерживаюсь стратегии «использовать более простую модель», предложенной Беном Огореком .
Я работаю с очень редкими линейными классификационными моделями с малыми целочисленными коэффициентами (например, максимум 5 переменных с целочисленными коэффициентами от -5 до 5). Модели хорошо обобщают с точки зрения точности и хитрости показателей производительности (например, калибровки).
Этот метод в этой статье будет масштабироваться до больших размеров выборки для логистической регрессии и может быть расширен для соответствия другим линейным классификаторам с выпуклыми функциями потерь. Он не будет обрабатывать случаи с большим количеством функций (еслин / д достаточно большой, и в этом случае данные отделимы, и проблема классификации становится легкой).
Если вы можете указать дополнительные ограничения для вашей модели (например, ограничения монотонности, дополнительную информацию), то это также может помочь с обобщением путем уменьшения пространства гипотез (см., Например, эту статью ).
Это должно быть сделано с осторожностью (например, вы, вероятно, хотите сравнить свою модель с базовой линией без ограничений и спроектировать свой тренировочный процесс таким образом, чтобы убедиться, что вы не ограничиваетесь в выборе вишен).
источник