У меня есть вопрос о выборе модели и производительности модели в логистической регрессии. У меня есть три модели, основанные на трех разных гипотезах. Первые две модели (назовем их z и x) имеют только одну объясняющую переменную в каждой модели, а третья (назовем ее w) является более сложной. Я использую AIC для выбора переменной для w-модели, а затем AIC для сравнения, какая из трех моделей лучше всего объясняет зависимую переменную. Я обнаружил, что модель w имеет самый низкий AIC, и теперь хочу сделать некоторую статистику производительности для этой модели, чтобы получить представление о прогнозирующей способности модели. Поскольку все, что я знаю, это то, что эта модель лучше, чем две другие, но не насколько она хороша.
Поскольку я использовал все данные для изучения модели (чтобы можно было сравнить все три модели), как мне поступить с производительностью модели? Исходя из того, что я понял, я не могу просто выполнить перекрестную проверку в k-кратном размере для окончательной модели, полученной при выборе модели с использованием AIC, но нужно начинать с самого начала со всеми включенными пояснительными переменными, это правильно? Я бы подумал, что это последняя модель, которую я выбрал для AIC, и я хочу знать, насколько хорошо она работает, но я понимаю, что я тренировался на всех данных, поэтому модель может быть предвзятой. Так что, если мне нужно начать с начала со всеми поясняющими переменными во всех сгибах, я получу разные конечные модели для некоторых сгибов, могу ли я просто выбрать модель из сгиба, которая дала наилучшую предсказательную силу, и применить ее ко всему набору данных для сравнения AIC с двумя другими моделями (z и x)? Или как это работает?
Вторая часть моего вопроса - это основной вопрос о чрезмерной параметризации. У меня 156 точек данных, 52 - 1, остальные - 0. У меня есть 14 объяснительных переменных для выбора для модели w, я понимаю, что не могу включить все из-за чрезмерной параметризации, я читал, что вы должны использовать только 10% группы зависимой переменной с наименьшим количеством наблюдений, которые только было бы 5 для меня. Я пытаюсь ответить на вопрос по экологии, можно ли выбрать начальные переменные, которые, я думаю, лучше всего объясняют зависимость, просто исходя из экологии? Или как выбрать начальные объяснительные переменные? Не чувствует себя правильным, чтобы полностью исключить некоторые переменные.
Итак, у меня действительно есть три вопроса:
- Можно ли проверить производительность на модели, обученной на полном наборе данных с перекрестной проверкой?
- Если нет, то как выбрать окончательную модель при перекрестной проверке?
- Как выбрать начальные переменные, чтобы я мог переопределить параметры?
Извините за мои грязные вопросы и мое невежество. Я знаю, что подобные вопросы задавались, но все еще чувствую себя немного смущенным. Ценю любые мысли и предложения.
Чтобы ответить: «Можно ли протестировать производительность на модели, обученной на полном наборе данных с перекрестной проверкой?» Нет, я не думаю, что это нормально. Вы должны разместить все 3 модели в одном и том же подмножестве вашего набора данных. Затем выполните перекрестную проверку, чтобы увидеть, какая из них лучше.
источник
Думаю, нет. Возможно, лучшим методом будет оценка каждой из трех моделей с использованием повторной перекрестной проверки. Учитывая, что вы выбрали свои функции на основе предыдущих знаний, вам не нужно беспокоиться о выборе функций. Этот метод позволяет оценить производительность модели.
После того, как вы оценили производительность своей модели с помощью повторной перекрестной проверки, вы можете обучить окончательную модель, используя все доступные данные.
Если я правильно понимаю: как предложено одним из авторов выше, вы можете либо добавить свои функции на основе предшествующего уровня знаний области, либо вам нужно выполнить выбор функций в рамках перекрестной проверки, чтобы избежать переобучения. Эта же процедура выбора признаков будет затем применяться ко всем данным при обучении окончательной модели. Вы не можете использовать эту модель, чтобы сообщить об общей производительности модели, это должно происходить из оценки перекрестной проверки.
источник