Разъяснения относительно чтения номограммы

Итак, поскольку ваша модель является линейной, и ожидаемая миль на галлон равен линейному предиктору, вы можете читать миль на галлон прямо со шкалы линейного предиктора.

Для каждой переменной вы найдете ее значение в соответствующей шкале. Например, представьте, что мы хотим найти прогнозируемую миль на галлон для автомобиля с wt=4, am=1, qsec=18:

введите описание изображения здесь

что дает прогнозируемое миль на галлон около 18,94. Подстановка в уравнение дает 18,95, так что это довольно близко. (На практике вы, вероятно, работали бы только до ближайшей целой точки - и, таким образом, получали бы точность около 2 цифр - «19 миль на галлон» - вместо 3-4 цифр, как здесь.)

Одно из главных преимуществ такой диаграммы, на мой взгляд, заключается в том, что вы мгновенно видите относительный эффект изменений в различных переменных предиктора (IV) на ответ (DV). Даже если вам не нужна диаграмма для каких-либо расчетов, она может иметь большое значение с точки зрения простого отображения относительного влияния переменных.

Дополнительный вопрос из комментариев:

Работает ли это одинаково для нелинейных или полиномиальных регрессий?

Для случаев, когда нелинейна в некоторых предикторах, требуются некоторые незначительные - и, возможно, очевидные - модификации. Представьте, что у нас есть $E(Y)$ $\hat{y} = b_0+b x_1+f(x_2)$

где либо:

(а) является монотонным; или $f$

(б) является не монотонна $f$

В любом случае масштаб для будет работать точно так же, как указано выше, но в случае: $x_1$

(а) масштаб для не будет линейным; Например, если монотонно убывающая, но (примерно) квадратичная, вы можете получить что-то вроде этого: $x_2$ $f$

введите описание изображения здесь

(b) немонотонная шкала для «сломается» в поворотный момент и перевернется. например $x_2$

введите описание изображения здесь

- здесь функция имеет минимум где-то около $f(x)$ $x=2.23$

Такие функции могут иметь несколько точек поворота, в которых шкалы ломаются и переворачиваются несколько раз, но линия оси имеет только две стороны.

С номограммами точечного типа это не представляет трудностей, поскольку можно перемещать дополнительные масштабные секции вверх или вниз (или, в более общем случае, ортогонально к направлению оси), пока не произойдет перекрытие.

(Более чем одна поворотная точка может быть проблемой для номограмм выравнивающего типа; одним из решений, показанных в книге Харрелла, является незначительное смещение всех шкал от контрольной линии, на которой фактически определяется позиция значения.)

В случае GLM с нелинейной функцией связи шкалы работают так же, как и выше, но шкала линейного предиктора будет помечена нелинейной шкалой для , что-то вроде (a) выше. $Y$

Примеры всех этих ситуаций можно найти в Стратегиях регрессионного моделирования Харрелла .

Просто пара замечаний

Я бы предпочел , чтобы увидеть две точки шкалы, в верхней и нижней части соответствующего раздела; в противном случае трудно точно «выстроиться», потому что нужно угадать, что такое «вертикаль». Что-то вроде этого:

Однако, как я отмечаю в комментариях, для последнего раздела диаграммы (итоговые баллы и линейный предиктор), возможно, лучшей альтернативой шкале вторых баллов будет просто иметь пару спина к спине (суммарное количество баллов на одной сторона, линейный предиктор с другой), вот так:

после чего мы избегаем необходимости знать, что такое «вертикаль».
Имея только два непрерывных предиктора и один двоичный фактор, мы вполне можем построить более традиционную номограмму выравнивания :

В этом случае вы просто найти wtи qsecзначение на их масштабах и присоединиться к ним с линией; где они пересекают mpgось, мы считываем значение (в то время как amпеременная определяет, с какой стороны mpgоси вы читаете). В таком простом случае, как этот, номограммы такого типа быстрее и проще в использовании, но их сложнее обобщить для многих предикторов, где они могут стать громоздкими. Номограмма в виде точек в вашем вопросе (как это реализовано в Стратегиях регрессионного моделирования и в rmsпакете в R) позволяет легко добавлять больше переменных. Это может быть весьма полезным при работе с взаимодействиями.

Glen_b - Восстановить Монику
источник

Спасибо за ясное, иллюстрированное объяснение. Работает ли это одинаково для нелинейных или полиномиальных регрессий?

rnso

Я отредактировал свой ответ, чтобы ответить на этот дополнительный вопрос.

Glen_b

Это удивительный пост Глена. Я думаю, что я собираюсь изменить метод nomogramфункции, plotчтобы добавить дополнительный Pointsмасштаб по умолчанию. Отличное предложение!

Фрэнк Харрелл

@FrankHarrell Нет, потому что вы не читаете никаких отношений между точками и суммарными баллами - они даже не должны быть на одной странице. Проблема в том, чтобы найти «вертикаль», чтобы вы могли точно читать от итоговых точек до линейного предиктора. Если эти две шкалы очень близки или касаются друг друга, а не, скажем, на расстоянии в два дюйма, это не проблема. Когда они на расстоянии нескольких дюймов друг от друга, несколько градусов погрешности в поиске вертикали могут означать значительную ошибку в результате. Тем не менее, вам все еще нужны две шкалы баллов в первом разделе, потому что у вас может быть много предикторов, и они не могут все быть смежными со шкалой баллов.

Glen_b

@FrankHarrell Лично я думаю, что сетка загромождает дисплей и скрывает его значение; Я избегаю сетки, когда могу. Они также не допускают одинаковую степень точности при вертикальной ориентации, если сетка не настолько хороша, как масштаб (что, на мой взгляд, было бы ужасно визуально). Без этой опции я бы закончил редактирование в масштабе второй точки (так же, как я это сделал здесь), чтобы получить его в том состоянии, которое я бы воспринимал как пригодное для использования для двух целей, которые я вижу в нем (т.е. делать достаточно точную оценку прогнозируемых значений, не затеняя ii. ясность относительных вкладов к ответу) ..

Glen_b

Разъяснения относительно чтения номограммы

Ответы: