Статистические тесты, которые включают неопределенность измерений

11

Предположим, мне даны две группы измерения массы (в мг), которые называются y1 и y2. Я хочу сделать тест, чтобы определить, взяты ли эти две пробы из групп населения с разными средствами. Примерно так, например (в R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Я получаю значение р 0,3234, и на уровне значимости 0,05 не отвергаю нулевую гипотезу о том, что две группы взяты из групп с одинаковым средним значением. Теперь мне даны неопределенности для каждого измерения:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

где u1 [1] - объединенная стандартная неопределенность измерения y1 [1] (и т. д.). Как мне включить эти неопределенности в статистический тест?

Том
источник
Это парные измерения или нет? (Я предполагаю, что нет.) Неопределенности можно было бы использовать для получения весов, которые могли бы улучшить ваш вывод, но различия в неопределенностях довольно малы, поэтому не будет большого выигрыша, даже если неопределенности точны.
Glen_b
Это подмножество реальных непарных данных. Пример был в первую очередь предназначен для прояснения вопроса. Что я действительно ищу, так это общее руководство о том, как наилучшим образом включить неопределенность измерения в тест гипотезы (как в тесте). Мне кажется, что мы теряем много ценной информации, если не используем неопределенности измерений, но я не смог найти четкого руководства по этому вопросу в литературе.
Том
Чтобы наиболее полно использовать их, вам необходимо включить их в вероятностную модель наблюдений; что на самом деле представляют неопределенности измерений ? (Вы не можете сделать это вручную, поэтому будьте осторожны.)
Glen_b

Ответы:

1

Похоже, вы хотите провести взвешенный анализ. См. «Пример взвешенной статистики» в разделе «Концепции» документации SAS.

стог
источник
Таким образом, мы просто проводим t-тест со взвешенными средними и взвешенными стандартными отклонениями, где u1 и u1 - веса?
Том
Да. Вы могли бы предположить, что дисперсия i_th наблюдения равна Var / w_i, где w_i - вес для i_th наблюдения, а Var> 0.
Рик
1

Почему бы не смоделировать это? То есть добавьте в свою неопределенность как реализации шума для каждого наблюдения. Затем повторите проверку гипотезы. Сделайте это около 1000 раз и посмотрите, сколько раз ноль было отклонено. Вам нужно будет выбрать распределение для шума. Нормаль кажется одним из вариантов, но он может привести к негативным наблюдениям, что нереально.

soakley
источник
1

Вы можете превратить это в проблему регрессии и использовать неопределенности в качестве весов. То есть, прогнозировать группу (1 или 2?) Из измерения в регрессии.

Но

Неопределенности примерно постоянны, поэтому, вероятно, ничего не изменится и при их использовании.

Вы имеете мягкий выброс на уровне 10,5, что усложняет ситуацию, уменьшая разницу между средними. Но если вы можете поверить неопределенности, это значение не более подозрительно, чем любые другие.

T-критерий не знает, что ваша альтернативная гипотеза состоит в том, что две выборки взяты из разных групп населения. Все, что он знает, - это сравнение средств при определенных допущениях. Ранговые тесты являются альтернативой, но если вас интересуют эти данные как измерения, они не кажутся предпочтительными для ваших целей.

Ник Кокс
источник
Дело принято. Я изменил вопрос, чтобы выразить его с точки зрения средств.
Том
0

В обычных наименьших квадратах (например, lm (y ~ x)) вы допускаете изменчивость (неопределенность) вокруг значений y, учитывая значение x. Если вы перевернете регрессию (lm (x ~)), вы минимизируете ошибки вокруг x. В обоих случаях ошибки предполагаются достаточно однородными.

Если вы знаете величину дисперсии вокруг каждого наблюдения вашей переменной отклика, и эта дисперсия не постоянна при упорядочении по x, тогда вы захотите использовать взвешенные наименьшие квадраты. Вы можете взвесить значения y с коэффициентом 1 / (дисперсия).

В случае, если вы обеспокоены тем, что и x, и y имеют неопределенность, и что неопределенность не одинакова между ними, вы не хотите просто минимизировать остатки (неопределенность адреса) перпендикулярно одной из ваших осей. В идеале вы должны минимизировать неопределенность, которая перпендикулярна подобранной линии тренда. Для этого вы можете использовать регрессию PCA (также известную как ортогональная регрессия или общее наименьшее число квадратов). Для регрессии PCA есть пакеты R , и ранее на этом веб-сайте уже были сообщения на эту тему , которые также обсуждались в других местах. Кроме того, я думаю (то есть, я могу ошибаться ...) вы все еще можете сделать взвешенную версию этой регрессии, используя ваши знания о дисперсиях.

rbatt
источник