Я хотел бы поставить этот вопрос в двух частях. Оба имеют дело с обобщенной линейной моделью, но первый касается выбора модели, а другой - регуляризации.
Справочная информация: Я использую модели GLM (линейная, логистическая, гамма-регрессия) как для прогнозирования, так и для описания. Когда я ссылаюсь на « нормальные вещи, которые каждый делает с регрессией », я в основном имею в виду описание с (i) доверительными интервалами вокруг коэффициентов, (ii) доверительными интервалами вокруг прогнозов и (iii) проверками гипотез относительно линейных комбинаций таких коэффициентов, как « Есть ли разница между лечением А и лечением Б?
Вы законно теряете способность делать эти вещи, используя обычную теорию в соответствии с каждым из следующих? И если да, действительно ли эти вещи хороши только для моделей, используемых для чистого предсказания?
I. Когда GLM был приспособлен посредством некоторого процесса выбора модели (для конкретности скажем, что это пошаговая процедура, основанная на AIC).
II. Когда GLM подходил с помощью метода регуляризации (скажем, используя glmnet в R).
Я чувствую, что для меня ответ технически заключается в том, что вы должны использовать начальную загрузку для « нормальных вещей, которые вы делаете с регрессией », но никто на самом деле этого не соблюдает.
Добавить:
После получения нескольких ответов и прочтения в другом месте, вот мое мнение об этом (для всех остальных, а также для получения исправления).
I.
A) RE: Ошибка Обобщения. Чтобы обобщить частоту появления ошибок для новых данных, когда нет установленного набора, перекрестная проверка может работать, но вам нужно полностью повторить процесс для каждого сгиба - используя вложенные циклы - таким образом, любой выбор функции, настройка параметров и т. Д. Должны быть сделано независимо каждый раз. Эта идея должна быть применима к любым усилиям по моделированию (включая штрафные методы).
B) RE: Проверка гипотез и доверительные интервалы GLM.При использовании выбора модели (выбор характеристик, настройка параметров, выбор переменной) для обобщенной линейной модели и существующего набора удержания допустимо обучать модель на разделе, а затем подгонять модель к оставшимся данным или полному набору данных. и использовать эту модель / данные для выполнения проверки гипотез и т. д. Если не существует установленного набора, можно использовать загрузчик, пока полный процесс повторяется для каждой выборки запуска. Это ограничивает проверки гипотез, которые могут быть выполнены, хотя, возможно, переменная не всегда будет выбрана, например.
C) RE: не несет в себе прогноз на будущие наборы данныхзатем подгоните целенаправленную модель, руководствуясь теорией и несколькими проверками гипотез, и даже подумайте о том, чтобы оставить все переменные в модели (значимые или нет) (по аналогии с Хосмером и Лемешоу). Это классический тип регрессионного моделирования с малым набором переменных, который позволяет использовать КИ и проверку гипотез.
D) RE: наказанная регрессия. Не советую, возможно, сочтите это подходящим только для прогнозирования (или как тип выбора признаков для последующего применения к другому набору данных, как в B выше), поскольку введенное смещение делает неразумными тесты КИ и гипотез - даже с помощью начальной загрузки.
Ответы:
Вы можете проверить статью Дэвида Фридмана, « Замечание по поводу скрининга уравнений регрессии. » (Ungated)
Используя полностью некоррелированные данные в моделировании, он показывает, что, если имеется много предикторов относительно количества наблюдений, то стандартная процедура скрининга даст окончательную регрессию, которая содержит много (более чем случайно) значимых предикторов и очень значимый F статистики. Окончательная модель предполагает, что она эффективна в прогнозировании результата, но этот успех является ложным. Он также иллюстрирует эти результаты, используя асимптотические вычисления. Предлагаемые решения включают скрининг на выборке и оценку модели по полному набору данных и использование как минимум на порядок больше наблюдений, чем предикторов.
источник
Относительно 1) Да, вы потеряете это. См., Например, Стратегии регрессионного моделирования Харрелла, книгу, опубликованную Уайли, или статью, которую я представил Дэвиду Касселлу, под названием «Остановка поэтапно», например, www.nesug.org/proceedings/nesug07/sa/sa07.pdf.
источник