Статистический тест для сравнения точности двух приборов

Я сравниваю два устройства контроля температуры, оба из которых предназначены для поддержания температуры тела на уровне точно 37 градусов у анестезированных пациентов. Аппараты были установлены на 500 пациентов, составляющих две группы. Группа A (400 пациентов) - Устройство 1, Группа B (100 пациентов) - Устройство 2. Температура каждого пациента измерялась один раз в час в течение 36 часов, что дало мне 18000 точек данных в двух группах. Мне нужно определить, какое устройство более точно контролирует температуру тела пациента в течение 36 часов. Я построил линейные графики, соединяющие средние значения в каждой временной точке с квартильными столбиками, и визуально кажется, что есть разница. Как я должен анализировать свои данные, чтобы доказать статистическую разницу?

statistical-significance repeated-measures variance RikT
источник

Вы разделили пациентов между устройствами? Если вы этого не сделали, должно быть дополнительное предположение, что пациенты в двух группах в широком смысле похожи .

Аксакал

А как насчет модели смешанных эффектов? Стандартные ошибки для каждого уровня (группа A / B) в некотором смысле скажут вам, насколько точны измерения. Вы можете учесть временные ряды и пациентов.

Роман Луштрик

Ответы:

Первое, о чем вам нужно подумать, это то, что означает (количественно) иметь «хорошую точность» в таком устройстве. Я бы предположил, что в медицинском контексте цель состоит в том, чтобы избежать отклонений температуры, которые попадают в опасный диапазон для пациента, поэтому «хорошая точность», вероятно, приведет к избежанию опасно низких или высоких температур. Это означает, что вы будете искать метрику, которая сильно штрафует большие отклонения от вашей оптимальной температуры 37 C. Ввиду этого, измерение, основанное на колебаниях средних температур, будет плохой мерой точность, тогда как меры, которые выделяют большие отклонения, будут лучше. $^\text{o}$

Когда вы формулируете этот тип метрики, вы неявно принимаете «штрафную функцию», которая штрафует температуры, которые отклоняются от желаемой температуры. Одним из вариантов будет измерение «точности» по меньшей дисперсии вокруг желаемой температуры (рассматривая это как фиксированное среднее значение для расчета дисперсии). Дисперсия штрафуется квадратной ошибкой, что дает разумное наказание за большие отклонения. Другим вариантом будет наказание более строго (например, ошибка в кубе). Другой вариант заключается в том, чтобы просто измерить количество времени, в течение которого у каждого устройства пациент находится за пределами температурного диапазона, который является медицински безопасным. В любом случае все, что вы выберете, должно отражать опасность отклонения от желаемой температуры.

После того, как вы определили, что составляет метрику «хорошей точности», вы собираетесь сформулировать своего рода «тест гетероскедастичности», сформулированный в более широком смысле, позволяющий использовать любую меру точности, которую вы используете. Я не уверен, что согласен с тем, что Уабер прокомментировал для автокорреляции. Это действительно зависит от вашей формулировки потери - в конце концов, пребывание в высокотемпературном диапазоне в течение длительного периода времени может быть самой опасной вещью, поэтому, если вы вернетесь к учету автокорреляции, вы можете закончить до неспособности оштрафовать очень опасные результаты в достаточной степени.

Бен - Восстановить Монику
источник

Это проверка гомоскедастичности. А поскольку это временные ряды, подходящим выбором является критерий Брейша-Пэгана , а не F-критерий. Этот тест отвечает только на вопрос равенства точности между двумя устройствами. Уровень точности является еще одним способом мышления дисперсии.

[Правка: изменил тест на правильный, учитывая зависимость от времени]

Гэри Чунг
источник

Такой подход разумен. Но почему бы не выполнить обе цели напрямую, сравнивая дисперсии вокруг целевой температуры, а не дисперсии (которые измеряют только дисперсии вокруг средних температур)? Одна важная проблема, которую нужно проверить в первую очередь, касается последовательной корреляции: если она высокая, то необходимо внести некоторую коррекцию (например, уменьшить степень свободы в тестах). Другая проблема касается потерь : функция потерь, вероятно, не является квадратичной. Возможно, люди могут легко переносить небольшие колебания, но возникновение большого колебания может повредить. Это должно быть изучено.

whuber

@whuber Что касается сравнения с целевой температурой, если бы это был я, это именно то, что я бы сделал. ОП специально только что задал вопрос об отклонениях, поэтому независимо от наших склонностей, мы должны обратиться к этому напрямую, да? :)

Гэри Чунг

Проблема для F-теста не будет нормальностью, скорее всего, это будет независимость. Это временные ряды.

Glen_b

@Glen_b Не могу поверить, что я упустил этот момент. Спасибо, что поймали это. Ред.

Гэри Чунг,

С уважением, нет: разница между этим сайтом и, скажем, сайтом по математике заключается в том, что существенная часть ответа на статистический вопрос заключается в том, чтобы помочь ОП сформировать его так, как он предполагал. Очень часто правильные ответы на вопросы, заданные изначально, не очень полезны или даже вводят в заблуждение. Таким образом, наша первая задача как активных читателей и потенциальных респондентов состоит в том, чтобы удостовериться в том, что мы интерпретируем вопрос полезным и надлежащим образом, и предоставить ответы, которые наилучшим образом соответствуют целям ОП. Используйте комментарии к вопросу, чтобы задать уточняющие вопросы и проверить свою интерпретацию.

whuber

Если вас интересует, насколько хорошо устройства поддерживают температуру 37C, вы можете:

Используйте все доступные данные от каждого человека как есть или
Оцените среднее отклонение на человека от 37С, используя 36 испытаний каждого человека.

Данные, естественно, поддаются повторным мерам лечения. Рассматривая внутригрупповые испытания как кластеры, вы уменьшите вероятность ошибочно оцененного доверительного интервала вокруг воздействия устройства. Кроме того, вы можете проверить влияние времени между обоими устройствами или как взаимодействие с устройством, чтобы убедиться, что поддержание температуры во времени было хорошим. Поиск способа визуализировать все это имеет ключевое значение и может предложить один подход по сравнению с другим. Что-то вроде:

library(dplyr)
library(lme4)

set.seed(42)
id <- rep(1:500, each=36)
time <- rep(1:36,500)
temp <- c(rnorm(36*400, 38,0.5), rnorm(36*100,37.25,0.5))
temp <- temp + 1/time

prox_37 <- temp - 37
group <- c(rep("A",36*400), rep("B",36*100))
graph_t <- ifelse(group=="A", time-0.25, time+0.25)
df <- data.frame(id,time,temp,prox_37,group, graph_t)

id_means <- group_by(df, id) %>% summarize(mean_37 = mean(prox_37))
id_means$group <- c(rep("A",400), rep("B",100))

boxplot(id_means$mean_37 ~ id_means$group)

plot(graph_t, prox_37, col=as.factor(group))
loess_fit <- loess(prox_37 ~ time, data = df)
lines(c(1:36), predict(loess_fit, newdata= c(1:36)) , col = "blue")

summary(t.test(mean_37 ~group, data=id_means))

model1 <- glm(prox_37 ~ as.factor(group), family = "gaussian", data=df)
model2 <- lmer(prox_37 ~ as.factor(group) + (1 | id), data=df)
model3 <- lmer(prox_37 ~ as.factor(group) + time + (1 | id), data=df)
model4 <- lmer(prox_37 ~ as.factor(group) + time + time*as.factor(group) + (1 | id), data=df)

AIC(model1)
summary(model2)
summary(model3)
summary(model4)

Тодд Д
источник