У меня нет конкретного примера или задачи. Я просто новичок в использовании b-сплайнов, и я хотел лучше понять эту функцию в контексте регрессии.
Давайте предположим, что мы хотим оценить взаимосвязь между переменной ответа и некоторыми предикторами . Предикторы включают некоторые числовые переменные, а также некоторые категориальные.
Предположим, что после подбора регрессионной модели значима одна из числовых переменных, например, . Логическим шагом после этого является оценка того , требуются ли полиномы более высокого порядка, например: и x_1 ^ 3 , чтобы адекватно объяснить взаимосвязь без переобучения.
Мои вопросы:
В какой момент вы выбираете между b-сплайнами или простым полиномом более высокого порядка. например, в R:
y ~ poly(x1,3) + x2 + x3
против
y ~ bs(x1,3) + x2 + x3
Как вы можете использовать графики, чтобы сообщить свой выбор между этими двумя и что произойдет, если это не совсем понятно из графиков (например: из-за огромного количества точек данных)
Как бы вы оценили условия двустороннего взаимодействия между и, скажем,
Как вышеперечисленные изменения для разных типов моделей
Считаете ли вы, что никогда не используйте многочлены высокого порядка и всегда подбираете b-сплайны и наказываете высокую гибкость?
источник
mgcv
, почему бы не использовать (обобщенные) аддитивные модели. Выбор гладкости автоматический, а логические методы хорошо разработаны.Ответы:
Я бы обычно рассматривал только сплайны, а не полиномы. Полиномы не могут моделировать пороговые значения и часто являются нежелательно глобальными, т. Е. Наблюдения в одном диапазоне предиктора оказывают сильное влияние на то, что модель делает в другом диапазоне ( Magee, 1998, The American Statistician и Frank Harrell's Regression Modelling Strategies ). И, конечно, ограниченные сплайны, которые являются линейными вне экстремальных узлов, лучше для экстраполяции или даже интраполяции при экстремальных значениях предикторов.
Один из случаев, когда вы можете захотеть рассмотреть полиномы, - это когда важно объяснить свою модель нетехнической аудитории. Люди понимают полиномы лучше, чем сплайны. (Отредактируйте: Мэтью Друри указывает, что люди могут думать, что они понимают полиномы лучше, чем сплайны. Я не стану сторонником этого вопроса.)
Графики часто не очень полезны при выборе различных способов борьбы с нелинейностью. Лучше сделать перекрестную проверку. Это также поможет вам оценить взаимодействие или найти хорошее наказание.
Наконец, мой ответ не меняется в зависимости от модели, потому что приведенные выше пункты действительны для любой статистической модели или модели ML.
источник
В разделе 7.4.5 «Элементы статистического обучения» сказано, что сплайны часто дают лучшие результаты, чем полиномиальная регрессия, потому что:
источник