Я взял выборку из точек данных от населения. Каждый из этих пунктов имеет истинное значение (известное из основной истины) и оценочное значение. Затем я вычисляю погрешность для каждой точки выборки, а затем вычисляю среднеквадратичное значение выборки.
Как тогда я могу вывести некоторый доверительный интервал вокруг этого RMSE, основываясь на размере выборки ?
Если бы я использовал среднее значение, а не RMSE, то у меня не было бы проблем с этим, поскольку я мог бы использовать стандартное уравнение
но я не знаю, действительно ли это для RMSE, а не для среднего значения. Есть ли способ, которым я могу это адаптировать?
(Я видел этот вопрос , но у меня нет проблем с тем, нормально ли распределено мое население, и именно это и есть в ответе)
confidence-interval
robintw
источник
источник
Ответы:
С такими же рассуждениями, как здесь , я мог бы дать ответ на ваш вопрос при определенных условиях.
Пусть будет вашим истинным значением для точки данных а - оценочным значением. Если предположить, что различия между оценочными и истинными значениями имеют я т ч х яИкся ят ч Икс^я
средний ноль (т. е. распределены вокруг )хяИкс^я Икся
следовать нормальному распределению
и у всех одинаковое стандартное отклонениеσ
короче говоря:
тогда вам действительно нужен доверительный интервал для .σ
Если вышеприведенные предположения верны, следует распределению с (не ) степенями свобода. Это означает χ 2 n nn-1
Поэтому - ваш доверительный интервал.
Вот программа на Python, которая имитирует вашу ситуацию
Надеюсь, это поможет.
Если вы не уверены, применимы ли предположения или если вы хотите сравнить то, что я написал, с другим методом, вы всегда можете попробовать начальную загрузку .
источник
Рассуждения в ответе fabee кажутся правильными, если их применять к стандарту STDE (стандартное отклонение ошибки), а не к RMSE. Используя аналогичную номенклатуру, - индекс, представляющий каждую запись данных, - истинное значение, а - измерение или прогноз.х я х яя = 1 ,… ,N Икся Икс^я
Ошибка , BIAS, MSE (среднеквадратическая ошибка) и RMSE определяются как:εя
Согласившись с этими определениями, BIAS соответствует среднему значению выборки , но MSE не является отклонением выборки смещения. Вместо этого: или, если были вычислены как BIAS, так и RMSE, Обратите внимание, что смещенная выборочная дисперсия используется вместо несмещенной , чтобы сохранить согласованность с предыдущими определениями, данными для MSE и RMSE.ε
Таким образом, по моему мнению, доверительные интервалы, установленные fabee, относятся к стандартному отклонению выборки , STDE. Аналогично, доверительные интервалы могут быть установлены для BIAS на основе z-оценки (или t-оценки, если ) и,ε п < 30 STDE/N--√
источник
После Faaber 1999 года неопределенность RMSE задается как где - количество точек данных. n
источник