При использовании k-кратного CV для выбора между регрессионными моделями я обычно вычисляю ошибку CV отдельно для каждой модели вместе со стандартной ошибкой SE, и выбираю простейшую модель в пределах 1 SE модели с наименьшей ошибкой CV (1 стандартное правило ошибки, см., например, здесь ). Однако недавно мне сказали, что таким образом я переоцениваю изменчивость и что в конкретном случае выбора между двумя моделями A и B мне действительно следует действовать по-другому:
- для каждого сгиба длины вычислите поточечные различия между двумя предсказаниями моделей. вычислите среднеквадратичную разницу для сгиба
- усредните по всем как обычно, и используйте эту ошибку разности CV (вместе со своей стандартной ошибкой) в качестве оценки для ошибки обобщения.
Вопросов:
- Это имеет смысл для вас? Я знаю, что есть теоретические причины использования ошибки CV в качестве оценки ошибки обобщения (я не знаю, каковы эти причины, но я знаю, что они существуют!). Я понятия не имею, есть ли теоретические причины использования этой «разницы» в CV-ошибке.
- Я не знаю, можно ли это обобщить для сравнения более двух моделей. Вычисление различий для всех пар моделей кажется рискованным (многократное сравнение?): Что бы вы сделали, если бы у вас было более двух моделей?
РЕДАКТИРОВАТЬ: моя формула полностью неверна, правильная метрика описана здесь, и это гораздо сложнее. Что ж, я рад, что спросил здесь, прежде чем слепо применить формулу! Я благодарю @Bay за помощь в понимании его \ ее осветительного ответа. Описанная правильная мера довольно экспериментальна, поэтому я буду придерживаться моей верной рабочей лошади, ошибки CV!