С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли это для линейной регрессии?
regression
model-selection
cross-validation
Джек Таннер
источник
источник
Ответы:
Вы можете рассматривать коэффициенты регрессии, полученные в результате каждого теста в CV, как независимые наблюдения, а затем рассчитывать их надежность / стабильность, используя коэффициент внутриклассовой корреляции (ICC), как сообщили Shrout & Fleiss.
источник
Я предполагаю, что при перекрестной проверке вы разделяете данные на две части: обучающий набор и тестовый набор. В одном случае вы подходите к модели из тренировочного набора и используете ее, чтобы предсказать реакцию тестового набора, верно? Это даст вам частоту ошибок для всей модели, а не для одного предиктора.
Я не знаю, возможно ли найти p-значения для предикторов, используя что-то вроде F-тестов, используемых в обычной линейной регрессии.
Вы можете попытаться удалить предикторы из модели, используя, например, обратный или прямой выбор, если это ваша цель.
Вместо CV вы могли бы использовать начальную загрузку, чтобы найти доверительный интервал для каждого предиктора, а затем посмотреть, насколько он стабилен.
Сколько сгибов вы используете в своем резюме, это перекрестная проверка без участия?
Возможно, более подробная информация о вашей цели поможет ответить на этот вопрос.
источник
glm(..., family="binomial")
в R. Что мне делать с интервалами для каждого предиктора в прогонах "оставь один раз"?