GLM после выбора модели или регуляризации

Я хотел бы поставить этот вопрос в двух частях. Оба имеют дело с обобщенной линейной моделью, но первый касается выбора модели, а другой - регуляризации.

Справочная информация: Я использую модели GLM (линейная, логистическая, гамма-регрессия) как для прогнозирования, так и для описания. Когда я ссылаюсь на « нормальные вещи, которые каждый делает с регрессией », я в основном имею в виду описание с (i) доверительными интервалами вокруг коэффициентов, (ii) доверительными интервалами вокруг прогнозов и (iii) проверками гипотез относительно линейных комбинаций таких коэффициентов, как « Есть ли разница между лечением А и лечением Б?

Вы законно теряете способность делать эти вещи, используя обычную теорию в соответствии с каждым из следующих? И если да, действительно ли эти вещи хороши только для моделей, используемых для чистого предсказания?

I. Когда GLM был приспособлен посредством некоторого процесса выбора модели (для конкретности скажем, что это пошаговая процедура, основанная на AIC).

II. Когда GLM подходил с помощью метода регуляризации (скажем, используя glmnet в R).

Я чувствую, что для меня ответ технически заключается в том, что вы должны использовать начальную загрузку для « нормальных вещей, которые вы делаете с регрессией », но никто на самом деле этого не соблюдает.

Добавить:
После получения нескольких ответов и прочтения в другом месте, вот мое мнение об этом (для всех остальных, а также для получения исправления).

I.
A) RE: Ошибка Обобщения. Чтобы обобщить частоту появления ошибок для новых данных, когда нет установленного набора, перекрестная проверка может работать, но вам нужно полностью повторить процесс для каждого сгиба - используя вложенные циклы - таким образом, любой выбор функции, настройка параметров и т. Д. Должны быть сделано независимо каждый раз. Эта идея должна быть применима к любым усилиям по моделированию (включая штрафные методы).

B) RE: Проверка гипотез и доверительные интервалы GLM.При использовании выбора модели (выбор характеристик, настройка параметров, выбор переменной) для обобщенной линейной модели и существующего набора удержания допустимо обучать модель на разделе, а затем подгонять модель к оставшимся данным или полному набору данных. и использовать эту модель / данные для выполнения проверки гипотез и т. д. Если не существует установленного набора, можно использовать загрузчик, пока полный процесс повторяется для каждой выборки запуска. Это ограничивает проверки гипотез, которые могут быть выполнены, хотя, возможно, переменная не всегда будет выбрана, например.

C) RE: не несет в себе прогноз на будущие наборы данныхзатем подгоните целенаправленную модель, руководствуясь теорией и несколькими проверками гипотез, и даже подумайте о том, чтобы оставить все переменные в модели (значимые или нет) (по аналогии с Хосмером и Лемешоу). Это классический тип регрессионного моделирования с малым набором переменных, который позволяет использовать КИ и проверку гипотез.

D) RE: наказанная регрессия. Не советую, возможно, сочтите это подходящим только для прогнозирования (или как тип выбора признаков для последующего применения к другому набору данных, как в B выше), поскольку введенное смещение делает неразумными тесты КИ и гипотез - даже с помощью начальной загрузки.

regression model-selection regularization B_Miner
источник

Иногда люди делают это - неосознанно (то есть неправильно используют статистику, потому что получают желаемый результат) и осознанно (они загрузились, и это существенно не повлияло на результат). Ваша точка зрения верна, и профессор Харрелл указывает в предисловии к своей книге, что начальная загрузка выгодна.

Suncoolsu

Вот что-то вроде «да» для вашей точки зрения (II): arxiv.org/abs/1001.0188

Алекс

Ответы:

Вы можете проверить статью Дэвида Фридмана, « Замечание по поводу скрининга уравнений регрессии. » (Ungated)

Используя полностью некоррелированные данные в моделировании, он показывает, что, если имеется много предикторов относительно количества наблюдений, то стандартная процедура скрининга даст окончательную регрессию, которая содержит много (более чем случайно) значимых предикторов и очень значимый F статистики. Окончательная модель предполагает, что она эффективна в прогнозировании результата, но этот успех является ложным. Он также иллюстрирует эти результаты, используя асимптотические вычисления. Предлагаемые решения включают скрининг на выборке и оценку модели по полному набору данных и использование как минимум на порядок больше наблюдений, чем предикторов.

Чарли
источник

Примечание: для того, чтобы начальный загрузчик был эффективным решением, вам нужно было бы запустить всю процедуру с самого начала, начиная с какого-либо скрининга, проверять загруженный образец, а затем вычислять коэффициенты. Но теперь у вас есть разные наборы предикторов в каждой регрессии, и больше не ясно, как рассчитать распределение для любого из них. Однако доверительные интервалы для прогнозируемых значений результата могут быть эффективными.

Чарли

@charlie: [Правильно ли я вас понял, что вы говорите только с I. (выбор модели), а не II. (оштрафован) Вы хотите сказать, что для интервалов прогнозирования допустимо использовать выбор модели и затем запускать прогнозы из этой модели, но для чего-либо еще вам нужно запустить весь процесс?

B_Miner

@charlie Относительно предложенного решения скрининга на образце. Будет ли это происходить в соответствии с принципом разделения данных, (ab) с использованием одного набора (выбор модели и т. Д.), А затем применение этой модели к оставшимся данным - и к этим данным с моделью, которая подходила с использованием традиционной теории для проверки гипотез, КИ и т.д?

B_Miner

Я думал только о выборе модели, но это в значительной степени потому, что я не слишком много знаю о наказанной регрессии. Я бы сказал, что вам нужно запустить весь процесс, чтобы получить вывод о прогнозах из модели. Вся проблема заключается в том, что в любом одном примере вы, вероятно, найдете ложные корреляции, которые усиливаются, когда вы включаете некоторые переменные и пропускаете другие. Единственный способ обойти это - взглянуть на несколько сэмплов, т.е. на начальную загрузку. Конечно, никто на самом деле не делает это.

Чарли

Правильно, вы используете один раздел вашего образца, чтобы придумать модель, используя процедуры выбора модели, а затем сделаете вывод о другом разделе или полном образце.

Чарли

Относительно 1) Да, вы потеряете это. См., Например, Стратегии регрессионного моделирования Харрелла, книгу, опубликованную Уайли, или статью, которую я представил Дэвиду Касселлу, под названием «Остановка поэтапно», например, www.nesug.org/proceedings/nesug07/sa/sa07.pdf.

Питер Флом - Восстановить Монику
источник

Я видел эту статью - очень интересно. Два вопроса. 1) Давайте возьмем логистическую регрессию. Похоже, единственный способ провести тесты CI или гипотезы - это построить модель в стиле hosmer и lemeshow (исключая какие-либо наборы данных с большим p)? Таким образом, вам остается «использовать» модель только для точечных оценок? 2) Ваша статья обсуждает лассо среди других альтернатив. Считаете ли вы, что это позволяет позже проверить гипотезу или «просто» дано как лучший вариант выбора модели?

B_Miner