Я хочу предсказать проблему со здоровьем. У меня есть 3 категории результатов: «нормальный», «мягкий» и «тяжелый». Я хочу предсказать это из двух переменных предиктора, результата теста (непрерывный, интервальный ковариат) и семейной истории с этой проблемой (да или нет). В моей выборке вероятности составляют 55% (нормально), 35% (слабо) и 10% (тяжело). В этом смысле я всегда мог просто предсказать «нормальный» и быть правым в 55% случаев, хотя это не дало бы мне никакой информации об отдельных пациентах. Мне подходит следующая модель:
Предположим, что нет взаимодействия, и все в порядке с моделью. Соответствие, c, составляет 60,5%, что, как я понимаю, является максимальной точностью прогнозирования, которую обеспечивает модель.
Я сталкиваюсь с двумя новыми пациентами со следующими данными: 1. тест = 3,26, семья = 0; 2. тест = 2.85, семья = 1. Я хочу предсказать их прогноз. Используя формулу: (а затем, принимая во внимание различия между совокупными вероятностями), я могу рассчитать распределение вероятностей по категориям ответов, зависящих от модели. Код R (примечание: из-за проблем с округлением выходные данные не совпадают идеально):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
А именно: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; и 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Мой вопрос: как мне перейти от распределения вероятностей к категории предсказанных ответов?
Я попробовал несколько возможностей, используя выборочные данные, где результат известен. Если я просто выберу макс (вероятности), точность будет 57%, небольшое улучшение по сравнению с нулем, но ниже согласованности. Более того, в примере этот подход никогда не выбирает «серьезный», что я действительно хочу знать. Я попробовал байесовский подход, преобразовав нулевые и модельные вероятности в шансы, а затем выбрав максимум (отношение шансов). Это иногда выбирает «серьезные», но дает худшую точность 49,5%. Я также попробовал сумму категорий, взвешенных по вероятностям и округлениям. Это, опять же, никогда не выбирает «серьезный», и имеет низкую точность 51,5%.
Какое уравнение берет приведенную выше информацию и дает оптимальную точность (60,5%)?
источник
Соответствие определяется путем проверки среднего балла, а не максимального балла.
Таким образом, для ваших примеров среднее значение для 1 составляет 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, а 2 - (с помощью аналогичных расчетов) 0,826.
Именно это значение вы должны сравнить, чтобы получить соответствие или любую другую статистику ассоциации.
Ссылка - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm
источник
SAS PROC LOGIST
я написал много лет назад, теперь неверна, и ее формула для среднего значения неверна, если только