У меня есть два 2 часа данных GPS с частотой дискретизации 1 Гц (7200 измерений). Данные приведены в форме , где - погрешность измерения.
Когда я беру среднее из всех измерений (например, среднее значение Z за эти два часа), каково его стандартное отклонение? Конечно, я могу рассчитать стандартное отклонение от значений Z, но тогда я пренебрегаю тем, что существуют известные погрешности измерений ...
Редактировать: все данные с одной и той же станции, и все координаты пересматриваются каждую секунду. Из-за спутниковых группировок и т. Д. Каждое измерение имеет различную неопределенность. Цель моего анализа - найти смещение из-за внешнего события (т. Е. Землетрясения). Я хотел бы взять среднее значение для 7200 измерений (2 часа) до землетрясения и другое среднее значение для 2 часов после землетрясения, а затем рассчитать полученную разницу (например, по высоте). Чтобы указать стандартное отклонение этой разницы, мне нужно знать стандартное отклонение двух средних.
источник
Ответы:
Я подозреваю, что предыдущие ответы на этот вопрос могут быть немного неправильными. Мне кажется, что оригинальный плакат действительно просят здесь можно было бы перефразировать, «учитывая ряд векторных измерений: с я = 1 , 2 , 3 , . . . , 7200 , и измерение ковариации : С я = ( X 2 σ , я 0 0 0 Y
В общем, отвечая на вопросы stackexchange.com, я обычно не считаю нужным переупаковывать длинные деривации, которые уже были представлены ранее в многочисленных учебниках - если вы хотите по-настоящему понять материал и понять, почему ответы выглядят как как они это делают, тогда вам действительно нужно просто пойти и прочитать объяснения, которые уже были опубликованы авторами учебника. Имея это в виду, я просто перейду прямо к повторению ответов, которые уже предоставили другие. По Фредерику Джеймсу, установив , средневзвешенное значение равно: → θ m e a n = ( N ∑ i = 1 CN=7200 и ковариацию взвешенного среднего значения является:Смесп=( N Σ я=1C - 1 я )-1 Этот ответ носит общий характер и будет действительным независимо от формыCiдаже для недиагональных ковариационных матриц измерения.
источник
Это должно быть легко решено с помощью байесовского вывода. Вы знаете свойства измерения отдельных точек относительно их истинного значения и хотите вывести среднее значение по совокупности и SD, которые сгенерировали истинные значения. Это иерархическая модель.
Перефразируя проблему (основы Байеса)
Обратите внимание, что в то время как ортодоксальная статистика дает вам одно среднее значение, в байесовской системе вы получаете распределение достоверных значений среднего. Например, наблюдения (1, 2, 3) с SD (2, 2, 3) могли быть получены с помощью оценки максимального правдоподобия, равной 2, но также с помощью среднего значения 2,1 или 1,8, хотя и несколько менее вероятно (учитывая данные), чем MLE. Таким образом, в дополнение к SD, мы также выводим среднее значение .
Другое концептуальное отличие состоит в том, что вы должны определить состояние своего знания, прежде чем делать наблюдения. Мы называем это приоры . Вы можете заранее знать, что определенная область была отсканирована и находится в определенном диапазоне высот. Полное отсутствие знаний будет иметь одинаковые (-90, 90) градусы, как предшествующее в X и Y и, возможно, одинаковые (0, 10000) метров по высоте (над океаном, ниже самой высокой точки на земле). Вы должны определить распределения априоров для всех параметров, которые вы хотите оценить, т.е. получить апостериорные распределения для. Это верно и для стандартного отклонения.
Итак, перефразируя вашу проблему, я предполагаю, что вы хотите вывести достоверные значения для трех средних (X.mean, Y.mean, X.mean) и трех стандартных отклонений (X.sd, Y.sd, X.sd), которые могут иметь сгенерировал ваши данные.
Модель
Используя стандартный синтаксис BUGS (используйте WinBUGS, OpenBUGS, JAGS, stan или другие пакеты для запуска этого), ваша модель будет выглядеть примерно так:
Естественно, вы отслеживаете параметры .mean и .sd и используете их постеры для вывода.
моделирование
Я смоделировал некоторые данные как это:
Затем запустили модель, используя JAGS для 2000 итераций после 500 итераций. Вот результат для X.sd.
Синий диапазон указывает на 95% наибольшую заднюю плотность или доверительный интервал (где вы полагаете, что параметр находится после наблюдения данных. Обратите внимание, что ортодоксальный доверительный интервал не дает вам этого).
Красная вертикальная линия - это оценка MLE необработанных данных. Обычно это тот случай, когда наиболее вероятный параметр в байесовской оценке также является наиболее вероятным (с максимальной вероятностью) параметром в ортодоксальной статистике. Но вы не должны заботиться о верхней части задней части. Среднее значение или медиана лучше, если вы хотите свести его к одному числу.
Обратите внимание, что MLE / top не на 5, потому что данные были сгенерированы случайным образом, а не из-за неправильной статистики.
Limitiations
Это простая модель, которая в настоящее время имеет несколько недостатков.
Я должен упомянуть, что есть много литературы по пространственным байесовским моделям, о которых я не осведомлен.
источник
Сначала я ввожу некоторые обозначения и решаю проблему, используя упомянутый вами простой подход. Тогда иди дальше. я используюZ сослаться на вектор Z вы дали.
Рассмотрим следующую модель, в которой отсутствует явная ошибка измерения:Z¯= ∑Nя = 1μZ+ ϵяN , где Z¯ это приблизительное среднее значение Z , и μZ является истинным средним значением Z. Здесь ε является вектором ошибок в ваших данных, и вы ожидаете, что если ваша выборка велика Z¯ будет сходиться к μZ , Если вы просто возьмете наблюдаемоеZ значения и усреднить их, вы получите Z¯ и если вы вычисляете стандартное отклонение образца, вы получите σ^ , оценка истинного населения стандартного отклонения σ , Что если вы хотели бы использовать некоторые знания об ошибке измерения?
Во-первых, обратите внимание, что мы можем переформулировать исходную модель следующим образом:z = 1 β+ ϵ , где 1 является вектором единиц, и β будет в конечном итоге Z¯ , Теперь это действительно похоже на регрессию, но мы все еще в основном просто получаем оценкуμZ , Если мы выполним регрессию, как это, мы также получим оценку для стандартной ошибкиε , что почти то, что мы хотим - это не что иное, как стандартная ошибка Z (но мы все еще хотим учесть ошибку измерения).
Мы можем дополнить нашу начальную модель, чтобы получить модель смешанных эффектов.z = 1 β+ Q u + ϵ , где U вектор случайных эффектов, и Q это регрессор, относящийся Z в U , Как и в случае любого случайного эффекта, вам необходимо сделать предположение о распределенииU , Это правильно, чтоZσ распределение ошибки измерения для Z ? Если да, это можно использовать для обеспечения распределения случайных эффектов. Как правило, программное обеспечение для выполнения базового моделирования смешанных эффектов предполагает, что случайные эффекты имеют нормальное распределение (со средним значением 0 ...), и оценивает дисперсию для вас. Возможно, вы можете попробовать это, чтобы проверить концепцию. Если вы хотите использовать свою предыдущую информацию о распределении погрешности измерения, вам нужна байесовская модель смешанных эффектов. Вы можете использовать R2OpenBUGS.
После оценки этой модели стандартная ошибка, которую вы получите для остатковε это стандартная ошибка, к которой вы проявляете интерес. Интуитивно, компонент случайных эффектов модели поглощает некоторые вариации, которые вы можете объяснить, потому что знаете, что есть ошибка измерения. Это позволяет получить более релевантную оценку измененияε
См. Эту статью для более глубокого обсуждения этого подхода случайных эффектов для учета погрешности измерения. Ваша ситуация похожа на ту, которую авторы вводят дляD и его ошибка измерения искажена версия W , Пример в Разделе 4 может дать некоторое представление о вашей ситуации.
Как упомянул whuber, вы можете захотеть учесть автокорреляцию в ваших данных. Использование случайных эффектов не решит эту проблему.
источник