Выбор приоров на основе погрешности измерения

9

Как вы рассчитываете соответствующий априор, если у вас есть ошибка измерения прибора? Этот абзац взят из книги Кресси «Статистика пространственно-временных данных»:

Часто бывает так, что имеется некоторая предварительная информация, касающаяся дисперсии ошибки измерения, что позволяет указать довольно информативную модель параметров. Например, если мы предполагаем условно независимые ошибки измерения, например, , то мы должны указать информативный априор для . Скажем , мы были заинтересованы в температуре окружающего воздуха, и мы увидели , что спецификации изготовителя прибора указаны «ошибка» в . Предполагая, что эта «ошибка» соответствует 2 стандартным отклонениям (предположение, которое следует проверить!), Мы можем затем указать \ sigma _ {\ epsilon} ^ {2}, чтобы иметь предварительное среднее значение (0,1 / 2) ^ 2 = 0,0025σ 2 ϵ ± 0,1 ° C σ 2 ϵ ( 0,1 / 2 ) 2 = 0,0025гaU(0,σε2)σε2±0,1°Сσε2(0,1/2)2знак равно0,0025, В соответствии со спецификацией производителя инструмента мы предположили бы распределение, которое имело четко определенный и довольно узкий пик в 0,0025 (например, обратная гамма). На самом деле, мы могли бы просто исправить на 0,0025; однако ошибка модели данных может иметь и другие компоненты неопределенности (раздел 7.1). Чтобы избежать возможных проблем идентификации с ошибкой модели процесса, очень важно, чтобы разработчики моделей уменьшали неопределенность настолько, насколько позволяет наука, включая проведение дополнительных исследований, предназначенных для дублирования данных.

Кто-нибудь знает, какова общая процедура получения значений априора, как описано выше (хотя параграф относится только к получению априорного среднего)?

Роберт Смит
источник

Ответы:

6

Два стандартных методов являются

  1. Обратитесь к «спецификациям производителя инструмента», как указано в предложении. Обычно это грубый запасной вариант, который следует использовать, когда нет другой информации, потому что (a) то, что на самом деле производитель инструмента подразумевает под «точностью» и «точностью», часто не определено, и (b) как инструмент реагировал, когда новый в Испытательная лаборатория, вероятно, была намного лучше, чем при использовании в полевых условиях.

  2. Соберите дубликаты образцов. При отборе проб окружающей среды существует около полудюжины уровней, на которых образцы регулярно реплицируются (и еще больше, на которых они могут быть воспроизведены), причем каждый уровень используется для контроля за назначаемым источником вариации. Такие источники могут включать:

    • Личность человека, берущего образец.
    • Предварительные процедуры, такие как выгрузка скважин, проводятся до получения образца.
    • Изменчивость в физическом процессе отбора проб.
    • Неоднородность внутри самого образца.
    • Изменения, которые могут произойти при сохранении и отправке образца в лабораторию.
    • Вариации в предварительных лабораторных процедурах, таких как гомогенизация физического образца или переваривание его для анализа.
    • Идентификатор лабораторного аналитика (ов).
    • Различия между лабораториями.
    • Различия между физически различными приборами, такими как два газовых хроматографа.
    • Дрейф в калибровке прибора со временем.
    • Суточный ход. (Это может быть естественным и систематическим, но может показаться случайным, когда время выборки произвольно.)

Полная количественная оценка компонентов изменчивости может быть получена только путем систематического варьирования каждого из этих факторов в соответствии с подходящим планом эксперимента.

Обычно изучаются только источники, которые, как считается, способствуют большей изменчивости. Например, многие исследования будут систематически разбивать определенную часть образцов после их получения и отправлять их в две разные лаборатории. Изучение различий между результатами этих расщеплений может дать количественную оценку их вклада в изменчивость измерений. Если получено достаточное количество таких расщеплений, полное распределение изменчивости измерений можно оценить как априор в иерархической байесовской пространственно-временной модели. Поскольку во многих моделях предполагается распределение по Гауссу (для каждого из расчетов), получение предварительного гауссова в конечном итоге сводится к оценке среднего значения и дисперсии различий между расщеплениями. В более сложных исследованиях, целью которых является выявление более одного дисперсионного компонента,

Одно из преимуществ даже размышления об этих проблемах состоит в том, что они помогают вам определить способы уменьшения или даже устранения некоторых из этих компонентов ошибок (без необходимости их количественной оценки), тем самым становясь ближе к идеалу Cressie & Wikle - «уменьшить неопределенность столько, сколько позволяет наука ".

Для расширенного обработанного примера (в отборе проб почвы) см.

Ван И, Блюм и Старкс, Обоснование для оценки ошибок при отборе проб почвы. EPA США, май 1990 г .: EPA / 600 / 4-90 / 013.

Whuber
источник
2
Проблема здесь, Роберт, в том, что иногда кто-то сообщает стандартное отклонение для оценки; в других случаях они сообщают дважды (отсюда деление на два) или двусторонний доверительный интервал; а иногда даже что-то еще; поэтому не существует определенного правила для преобразования утверждений о точности и точности в априорные значения: вы должны обратиться к сноскам и другим техническим деталям, чтобы точно определить, что представляют собой цифры. Стандартная ошибка оценки, являющаяся функцией размера использованной выборки, не имеет значения для этой цели.
whuber
1
м1м2м1-м2мεσεN(мε,σε2)
1
Вы не можете оценить точность с разбивкой: для этого вам нужно измерить выборки известных значений. (Для этого используются лабораторные шипы и дублированные дубликаты .) Это будет определять среднее значение. Обычно это обрабатывается при калибровке процесса измерения, поэтому среднее значение принимается равным нулю. Дисперсия оценивается с помощью обычных формул ANOVA. Это можно использовать для указания априора на соответствующий компонент системы измерения.
whuber
2
Не так: ссылка, которую я дал, - это руководство Агентства по охране окружающей среды США, которое существует уже четверть века, и на его идеях основано множество более свежих руководств. Однажды я использовал этот подход в деле федерального суда, чтобы оценить влияние ошибки измерения на нарисованные контурные линии (основанные на геостатистическом предикторе), чтобы очертить шлейф загрязнения: ошибка измерения была больше, чем концентрация, используемая для связывания шлейфа! (Другими словами, неопределенность в разграничении шлейфа была по существу бесконечной.)
whuber
1
Действительно мило. Кстати, я хотел сказать, что приоры обычно устанавливаются без особой заботы. Я видел это более заметно в байесовском моделировании и машинном обучении, возможно, потому, что часто достаточно предположения, чтобы получить приличные результаты.
Роберт Смит