Предположим, мне даны две группы измерения массы (в мг), которые называются y1 и y2. Я хочу сделать тест, чтобы определить, взяты ли эти две пробы из групп населения с разными средствами. Примерно так, например (в R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Я получаю значение р 0,3234, и на уровне значимости 0,05 не отвергаю нулевую гипотезу о том, что две группы взяты из групп с одинаковым средним значением. Теперь мне даны неопределенности для каждого измерения:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
где u1 [1] - объединенная стандартная неопределенность измерения y1 [1] (и т. д.). Как мне включить эти неопределенности в статистический тест?
Ответы:
Похоже, вы хотите провести взвешенный анализ. См. «Пример взвешенной статистики» в разделе «Концепции» документации SAS.
источник
Почему бы не смоделировать это? То есть добавьте в свою неопределенность как реализации шума для каждого наблюдения. Затем повторите проверку гипотезы. Сделайте это около 1000 раз и посмотрите, сколько раз ноль было отклонено. Вам нужно будет выбрать распределение для шума. Нормаль кажется одним из вариантов, но он может привести к негативным наблюдениям, что нереально.
источник
Вы можете превратить это в проблему регрессии и использовать неопределенности в качестве весов. То есть, прогнозировать группу (1 или 2?) Из измерения в регрессии.
Но
Неопределенности примерно постоянны, поэтому, вероятно, ничего не изменится и при их использовании.
Вы имеете мягкий выброс на уровне 10,5, что усложняет ситуацию, уменьшая разницу между средними. Но если вы можете поверить неопределенности, это значение не более подозрительно, чем любые другие.
T-критерий не знает, что ваша альтернативная гипотеза состоит в том, что две выборки взяты из разных групп населения. Все, что он знает, - это сравнение средств при определенных допущениях. Ранговые тесты являются альтернативой, но если вас интересуют эти данные как измерения, они не кажутся предпочтительными для ваших целей.
источник
В обычных наименьших квадратах (например, lm (y ~ x)) вы допускаете изменчивость (неопределенность) вокруг значений y, учитывая значение x. Если вы перевернете регрессию (lm (x ~)), вы минимизируете ошибки вокруг x. В обоих случаях ошибки предполагаются достаточно однородными.
Если вы знаете величину дисперсии вокруг каждого наблюдения вашей переменной отклика, и эта дисперсия не постоянна при упорядочении по x, тогда вы захотите использовать взвешенные наименьшие квадраты. Вы можете взвесить значения y с коэффициентом 1 / (дисперсия).
В случае, если вы обеспокоены тем, что и x, и y имеют неопределенность, и что неопределенность не одинакова между ними, вы не хотите просто минимизировать остатки (неопределенность адреса) перпендикулярно одной из ваших осей. В идеале вы должны минимизировать неопределенность, которая перпендикулярна подобранной линии тренда. Для этого вы можете использовать регрессию PCA (также известную как ортогональная регрессия или общее наименьшее число квадратов). Для регрессии PCA есть пакеты R , и ранее на этом веб-сайте уже были сообщения на эту тему , которые также обсуждались в других местах. Кроме того, я думаю (то есть, я могу ошибаться ...) вы все еще можете сделать взвешенную версию этой регрессии, используя ваши знания о дисперсиях.
источник