У меня есть несколько наборов данных порядка тысяч точек. Значения в каждом наборе данных: X, Y, Z, относящиеся к координате в пространстве. Z-значение представляет собой разницу высот в координатной паре (x, y).
Как правило, в моей области ГИС ошибка превышения указывается в RMSE путем вычитания точки истинности относительно точки измерения (точки данных LiDAR). Обычно используется минимум 20 контрольных точек. Используя это значение RMSE, в соответствии с NDEP (Национальным руководством по цифровым отметкам) и рекомендациями FEMA, можно рассчитать меру точности: Точность = 1,96 * RMSE.
Эта точность указывается следующим образом: «Фундаментальная вертикальная точность - это величина, по которой вертикальная точность может быть оценена и сопоставлена между наборами данных на справедливой основе. Фундаментальная точность рассчитывается при доверительном уровне 95% как функция среднеквадратичного среднеквадратичного отклонения».
Я понимаю, что 95% площади под кривой нормального распределения находится в пределах 1,96 * стандартное отклонение, однако это не относится к СКО.
Обычно я задаю этот вопрос: используя RMSE, вычисленную по наборам 2-х данных, как я могу связать RMSE с некоторой точностью (т. Е. 95 процентов моих точек данных находятся в пределах +/- X см)? Кроме того, как я могу определить, нормально ли распространяется мой набор данных, используя тест, который хорошо работает с таким большим набором данных? Что является «достаточно хорошим» для нормального распределения? Должно ли p <0,05 для всех тестов или оно должно соответствовать форме нормального распределения?
Я нашел очень хорошую информацию по этой теме в следующей статье:
http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf
источник
Ответы:
Взгляните на почти повторяющийся вопрос: доверительный интервал RMSE ?
Хорошим началом было бы наблюдение за эмпирическим распределением
z
ценностей. Вот воспроизводимый пример.На первый взгляд выглядит нормально, да? (на самом деле, мы знаем, что это нормально, потому что
rnorm
команда, которую мы использовали).Если кто-то хочет проанализировать небольшие выборки по набору данных, есть тест нормальности Шапиро-Вилка.
Можно также повторить тест SW много раз для разных небольших выборок, а затем посмотреть на распределение
p-values
.Имейте в виду, что тесты нормальности на больших наборах данных не так полезны, как объяснено в этом ответе, предоставленном Грегом Сноу.
Итак, давайте сделаем QQ-сюжет:
Если точки выровнены в
y=x
линии, это означает, что эмпирическое распределение соответствует теоретическому распределению, которое в данном случае является нормальным распределением.источник