Один из способов найти точность модели логистической регрессии с использованием «glm» - это найти график AUC. Как проверить то же самое для регрессионной модели, найденной с переменной непрерывного ответа (family = 'gaussian')?
Какие методы используются для проверки соответствия моей регрессионной модели данным?
r
regression
generalized-linear-model
user1140126
источник
источник
r-squared
тег иgoodness-of-fit
тег ..Ответы:
Для начала я бы предложил краткий поиск по « диагностике модели линейной регрессии ». Но вот некоторые, которые я бы посоветовал вам проверить:
Убедитесь, что предположения удовлетворительно выполнены
Используйте график рассеяния или компонент плюс остаточный график, чтобы исследовать линейные отношения между независимым предиктором (ами) и зависимой переменной.
Составьте график со стандартизированным остатком по сравнению с прогнозируемым значением и убедитесь, что не существует экстремальной точки с очень высоким остатком, а разброс остатка в значительной степени аналогичен по прогнозному значению, а также в значительной степени одинаково выше и ниже среднего значения остатка, нуль.
Вы также можете изменить ось Y на остаточное . Этот график помогает выявить неравную дисперсию.2
Пересмотрите план исследования, чтобы убедиться в его разумности.
Получите коэффициент инфляции дисперсии (VIF) или статистику толерантности для изучения возможной коллинеарности.
Изучить потенциальные влиятельные точки
Изучите изменения в статистике и скорректированнойR2 R2
Проверьте необходимое взаимодействие
Примените вашу модель к другому набору данных и проверьте ее производительность
источник
plot.lm
можете предоставить вам большинство диагностических графиков, которые упоминает Penguin_Knight.Мне нравится проводить перекрестную проверку моих регрессионных моделей, чтобы увидеть, насколько хорошо они обобщают новые данные. Моя метрика выбора - средняя абсолютная ошибка в перекрестно проверенных данных, но среднеквадратичная ошибка встречается чаще и одинаково полезна.
Я не считаю R2 хорошей метрикой того, насколько хорошо ваша модель соответствует обучающим данным, так как почти любая метрика ошибок, рассчитанная на обучающих данных, будет склонна к чрезмерной подгонке. Если вам необходимо рассчитать R2 на тренировочном наборе, я предлагаю использовать скорректированный R2 .
источник
Вы можете использовать чтобы проверить, насколько хорошо ваша модель соответствует обучающим данным. Это скажет вам, какой процент дисперсии в данных объясняется моделью.R2
Я предлагаю использовать RMSE (среднеквадратичная ошибка) ваших прогнозов в тестовом наборе по сравнению с фактическим значением. Это стандартный метод сообщения об ошибке предсказания непрерывной переменной.
источник
Я привык проверять функциональную форму моего оценщика параметров, нанося непараметрическую (например, регрессию ядра) или полупараметрическую оценку и сравнивая ее с параметрически подобранной кривой. Я думаю, что это на первом этапе часто быстрее (и, возможно, более проницательно), чем включение условий взаимодействия или условий более высокого порядка.
Пакет R np предоставляет много хороших непараметрических и полупараметрических функций, и его виньетка хорошо написана: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
источник