Я столкнулся с простым вопросом о сравнении гибких моделей (т.е. сплайнов) с негибкими моделями (например, линейной регрессией) при различных сценариях. Вопрос в том:
В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:
- Количество предикторов чрезвычайно велико, а количество наблюдений n мало?
- Дисперсия погрешности, т.е. , чрезвычайно высока?
Я думаю, что для (1), когда мало, негибкие модели лучше (не уверен). Для (2) я не знаю, какая модель (относительно) лучше.
machine-learning
model
маленький мальчик
источник
источник
Ответы:
В этих двух ситуациях сравнительная гибкая и негибкая модель производительности также зависит от:
Если отношение близко к линейному, и вы не ограничиваете гибкость, то линейная модель должна давать лучшую погрешность теста в обоих случаях, потому что гибкая модель, вероятно, будет соответствовать в обоих случаях.
Вы можете посмотреть на это так:
Однако, если истинное отношение очень нелинейное, трудно сказать, кто победит (оба проиграют :)).
Если вы настраиваете / ограничиваете степень гибкости и делаете это правильно (скажем, путем перекрестной проверки), то гибкая модель должна победить во всех случаях.
источник
Конечно, это зависит от базовых данных, которые вы всегда должны изучать, чтобы выяснить некоторые из его характеристик, прежде чем пытаться соответствовать модели, но то, что я выучил как общие практические правила:
источник
Что касается второй части, я думаю, что более гибкая модель будет пытаться вписаться в модель, и данные обучения содержат высокий уровень шума, поэтому гибкая модель также попытается изучить этот шум и приведет к большему количеству ошибок при тестировании. Я знаю источник этого вопроса, так как я тоже читаю ту же книгу :)
источник
В первой части я бы ожидал, что негибкая модель будет работать лучше при ограниченном количестве наблюдений. Когда n очень мало, обе модели (гибкая или негибкая) не дадут достаточно хорошего прогноза. Тем не менее, гибкая модель, как правило, будет соответствовать данным и будет работать хуже, когда речь идет о новом наборе тестов.
В идеале я бы собрал больше наблюдений для улучшения подгонки, но если это не так, то я бы использовал негибкую модель, пытаясь минимизировать ошибку теста с помощью нового набора тестов.
источник
источник
Для каждой из частей (a) - (d) укажите, является ли i. или ii. правильно, и объясните свой ответ. В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:
Размер выборки n чрезвычайно велик, а количество предикторов p мало?
Количество предикторов p чрезвычайно велико, а количество наблюдений n мало?
Отношения между предикторами и ответом сильно нелинейны?
Дисперсия погрешностей, т.е. σ2 = Var (ε), чрезвычайно высока?
Взято отсюда .
источник