Гибкие и негибкие модели в машинном обучении

10

Я столкнулся с простым вопросом о сравнении гибких моделей (т.е. сплайнов) с негибкими моделями (например, линейной регрессией) при различных сценариях. Вопрос в том:

В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:

Количество предикторов чрезвычайно велико, а количество наблюдений мало? $p$ $n$
Дисперсия погрешности, т.е. , чрезвычайно высока? $σ^2 = \text{Var}(e)$

Я думаю, что для (1), когда мало, негибкие модели лучше (не уверен). Для (2) я не знаю, какая модель (относительно) лучше. $n$

machine-learning model маленький мальчик
источник

Ошибка обобщения далеко не тривиальна. К сожалению, практические правила не очень помогают в этом отношении.

Марк Клазен

8

Похоже, это от Джеймса, Виттена, Хасти, Тибширани, Введение в статистическое обучение

Ноэль Эванс,

1. Гибкий метод будет соответствовать небольшому количеству наблюдений. 2. Гибкие методы соответствуют шуму в терминах ошибок и увеличивают дисперсию.

Занарк

3

В этих двух ситуациях сравнительная гибкая и негибкая модель производительности также зависит от:

истинное отношение y = f (x) близко к линейному или очень нелинейное;
Вы настраиваете / ограничиваете степень гибкости «гибкой» модели при ее подгонке.

Если отношение близко к линейному, и вы не ограничиваете гибкость, то линейная модель должна давать лучшую погрешность теста в обоих случаях, потому что гибкая модель, вероятно, будет соответствовать в обоих случаях.

Вы можете посмотреть на это так:

В обоих случаях данные не содержат достаточно информации об истинном отношении (в первом случае отношение является многомерным, а у вас недостаточно данных, во втором случае оно искажено шумом), но
- линейная модель приносит некоторую внешнюю априорную информацию об истинных отношениях (ограничивает класс подгоночных отношений линейными) и
- эта предварительная информация оказывается правильной (истинное отношение близко к линейному).
В то время как гибкая модель не содержит предварительной информации (она может соответствовать чему угодно), она подходит для шума.

Однако, если истинное отношение очень нелинейное, трудно сказать, кто победит (оба проиграют :)).

Если вы настраиваете / ограничиваете степень гибкости и делаете это правильно (скажем, путем перекрестной проверки), то гибкая модель должна победить во всех случаях.

Kochede
источник

4

Конечно, это зависит от базовых данных, которые вы всегда должны изучать, чтобы выяснить некоторые из его характеристик, прежде чем пытаться соответствовать модели, но то, что я выучил как общие практические правила:

Гибкая модель позволяет в полной мере использовать преимущества большого размера выборки (большое n).
Для нахождения нелинейного эффекта потребуется гибкая модель.
Гибкая модель приведет к тому, что вы поместите слишком много шума в задачу (когда дисперсия условий ошибки высока).

Пол ПМ
источник

1

Что касается второй части, я думаю, что более гибкая модель будет пытаться вписаться в модель, и данные обучения содержат высокий уровень шума, поэтому гибкая модель также попытается изучить этот шум и приведет к большему количеству ошибок при тестировании. Я знаю источник этого вопроса, так как я тоже читаю ту же книгу :)

lovekesh
источник

1

В первой части я бы ожидал, что негибкая модель будет работать лучше при ограниченном количестве наблюдений. Когда n очень мало, обе модели (гибкая или негибкая) не дадут достаточно хорошего прогноза. Тем не менее, гибкая модель, как правило, будет соответствовать данным и будет работать хуже, когда речь идет о новом наборе тестов.

В идеале я бы собрал больше наблюдений для улучшения подгонки, но если это не так, то я бы использовал негибкую модель, пытаясь минимизировать ошибку теста с помощью нового набора тестов.

user40935
источник

0

$f$

Точность $Y$ как прогноза для $Y$ зависит от двух величин, которые мы будем называть приводимой ошибкой и неприводимой ошибкой . В основном, $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

ants.in.my.eyes
источник

Я не понимаю этого.

Майкл Р. Черник,

0

Для каждой из частей (a) - (d) укажите, является ли i. или ii. правильно, и объясните свой ответ. В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:

Размер выборки n чрезвычайно велик, а количество предикторов p мало?

Лучше. Гибкий метод будет соответствовать данным ближе и с большим размером выборки, будет работать лучше, чем негибкий подход.

Количество предикторов p чрезвычайно велико, а количество наблюдений n мало?

Хуже. Гибкий метод будет соответствовать небольшому количеству наблюдений.

Отношения между предикторами и ответом сильно нелинейны?

Лучше. С большей степенью свободы гибкий метод подойдет лучше, чем негибкий.

Дисперсия погрешностей, т.е. σ2 = Var (ε), чрезвычайно высока?

Хуже. Гибкий метод будет соответствовать шуму с точки зрения погрешности и увеличит дисперсию.

Взято отсюда .

Харви
источник

Гибкие и негибкие модели в машинном обучении

Ответы: