Я работаю над моделью прогнозируемой стоимости, в которой возраст пациента (целое число, измеренное в годах) является одной из переменных предиктора. Сильная нелинейная связь между возрастом и риском пребывания в больнице очевидна:
Я рассматриваю сглаженный сплайн сглаживания регрессии для возраста пациента. Согласно «Элементам статистического обучения» (Hastie et al, 2009, p. 151), оптимальным расположением узлов является один узел на уникальную величину возраста члена.
Учитывая, что я сохраняю возраст как целое число, является ли штрафной сплайн сглаживания эквивалентным выполнению регрессии гребня или лассо с 101 отдельной переменной показателя возраста, по одной на возрастное значение, найденное в наборе данных (минус один для справки)? После этого избегается чрезмерной параметризации, поскольку коэффициенты по каждому возрастному показателю сокращаются до нуля.
Ответы:
Отличный вопрос Я полагаю, что ответ на вопрос, который вы задаете - «это штрафной сглаживающий сплайн, эквивалентный выполнению регрессии гребня или лассо», - да. Есть ряд источников, которые могут предоставить комментарии и перспективы. Одним из мест , с которого вы можете начать, является ссылка на PDF . Как отмечено в примечаниях:
«Подгонка модели сглаживающих сплайнов сводится к выполнению формы регрессии гребня на основе естественных сплайнов».
Если вы ищете что-то общее для чтения, вам, возможно, понравится эта превосходная статья о наказанных регрессиях: мост против лассо . Это может помочь ответить на вопрос о том, является ли штрафованный сглаживающий сплайн точно эквивалентным, хотя он обеспечивает более общую перспективу. Я нахожу это интересным, поскольку они сравнивали различные методы друг с другом, в частности, новую модель мостовой регрессии с LASSO, а также регрессию хребта.
источник
Я не уверен, что вы действительно хотите так много узлов, учитывая сюжет.
Похоже, у вас могут быть небольшие образцы в определенном возрасте; пик на 74 и значения 0 на нижнем и верхнем уровнях не имеют большого смысла.
Учитывая авторитет источника вашего сайта, возможно, вы хотите использовать ограниченные кубические сплайны с гораздо меньшим числом узлов?
источник
Я опаздываю к этому обсуждению, но посмотрите на диаграмму данных ... что кажущаяся резкость в данных за 70 лет не является истинным отражением риска, связанного с возрастом, это симптом редких данных и некоторой случайности.
Вы не хотели бы моделировать это, используя один узел в год, что, несомненно, привело бы к переоснащению шума.
Кроме того, вы найдете совершенно другую модель, если вы посмотрите на женщину против мужчины. Большая часть пика в возрасте 15-30 лет будет акушерством.
источник