Как вы предсказываете категорию ответа на основе порядковой модели логистической регрессии?

13

Я хочу предсказать проблему со здоровьем. У меня есть 3 категории результатов: «нормальный», «мягкий» и «тяжелый». Я хочу предсказать это из двух переменных предиктора, результата теста (непрерывный, интервальный ковариат) и семейной истории с этой проблемой (да или нет). В моей выборке вероятности составляют 55% (нормально), 35% (слабо) и 10% (тяжело). В этом смысле я всегда мог просто предсказать «нормальный» и быть правым в 55% случаев, хотя это не дало бы мне никакой информации об отдельных пациентах. Мне подходит следующая модель:

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

Предположим, что нет взаимодействия, и все в порядке с моделью. Соответствие, c, составляет 60,5%, что, как я понимаю, является максимальной точностью прогнозирования, которую обеспечивает модель.

Я сталкиваюсь с двумя новыми пациентами со следующими данными: 1. тест = 3,26, семья = 0; 2. тест = 2.85, семья = 1. Я хочу предсказать их прогноз. Используя формулу: (а затем, принимая во внимание различия между совокупными вероятностями), я могу рассчитать распределение вероятностей по категориям ответов, зависящих от модели. Код R (примечание: из-за проблем с округлением выходные данные не совпадают идеально):

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

А именно: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; и 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Мой вопрос: как мне перейти от распределения вероятностей к категории предсказанных ответов?

Я попробовал несколько возможностей, используя выборочные данные, где результат известен. Если я просто выберу макс (вероятности), точность будет 57%, небольшое улучшение по сравнению с нулем, но ниже согласованности. Более того, в примере этот подход никогда не выбирает «серьезный», что я действительно хочу знать. Я попробовал байесовский подход, преобразовав нулевые и модельные вероятности в шансы, а затем выбрав максимум (отношение шансов). Это иногда выбирает «серьезные», но дает худшую точность 49,5%. Я также попробовал сумму категорий, взвешенных по вероятностям и округлениям. Это, опять же, никогда не выбирает «серьезный», и имеет низкую точность 51,5%.

Какое уравнение берет приведенную выше информацию и дает оптимальную точность (60,5%)?

Gung - Восстановить Монику
источник

Ответы:

11

Yrmslrmpredict.lrm

Фрэнк Харрелл
источник
1
Спасибо за вашу помощь. Я подозревал, что низкая частота серьезных является частью проблемы. Я думаю, что мой грубый Y, 0 1 2, недостаточно равный интервал. Я понимаю, что моя цель ошибается. К сожалению, я думаю, что хочу знать, к какой категории относится новый пациент / не совсем понимаю, какой должна быть моя цель . Можно ли обеспечить немного больше понимания? (На самом деле, я подозреваю, что CV не является форумом для полного урока; в качестве альтернативы, вы знаете, где я мог бы узнать об этой проблеме? Я прочитал разделы из «Логистики Agresti Intro & Hosmer & Lemeshow», но безрезультатно.)
gung - Восстановить Монику
1
Цель определяется желаемым решением или предметом. Если вы сформулируете конечную цель, я мог бы прокомментировать.
Фрэнк Харрелл
Извините за отсутствие ясности, похоже, проблема была выше. В настоящее время я хочу быть в состоянии предсказать результат для новых случаев. В долгосрочной перспективе я хочу лучше понять ord log reg, например, как вы получаете остатки, если у вас нет предсказанных категорий? Я понимаю, что немного лучшая точность возможна, но я не знаю, как ее получить. Я уверен, что у вас нет времени, чтобы объяснить все, но ни Agresti, ни H & L не говорят ничего о прогнозах или остатках, и т. Д., И я не смог ничего найти с помощью Google. Таким образом, я спросил на резюме. Я ценю вашу постоянную помощь.
gung - Восстановить Монику
Yjj
-1

Соответствие определяется путем проверки среднего балла, а не максимального балла.

Таким образом, для ваших примеров среднее значение для 1 составляет 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, а 2 - (с помощью аналогичных расчетов) 0,826.

Именно это значение вы должны сравнить, чтобы получить соответствие или любую другую статистику ассоциации.

Ссылка - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

Kalel
источник
3
Нет, соответствие рассчитывается с использованием необработанной переменной результата Y и линейный предиктор Иксβили любую из прогнозируемых вероятностей (поскольку все они монотонно связаны друг с другом, т. е. просто сдвинуты при перехвате перед вычислением экспита). Somers'DИксYранговый коэффициент корреляции использует эту меру согласования.
Фрэнк Харрелл
2
PS Обратите внимание, что документация SAS, которая представляет собой переписывание моей исходной документации для предшественника, который SAS PROC LOGISTя написал много лет назад, теперь неверна, и ее формула для среднего значения неверна, если толькоYсостоит из последовательных целых чисел.
Фрэнк Харрелл