Разъяснения относительно чтения номограммы

10

Ниже приведена номограмма, созданная из набора данных mtcars с пакетом rms для формулы:

mpg ~ wt + am + qsec

введите описание изображения здесь

Сама модель кажется хорошей с R2 0,85 и P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Мне не ясно, что это за «Очки», «Всего очков» и «Линейный прогноз». Какие из них представляют собой mpg, переменную результата? Я буду признателен за любое объяснение.

Редактировать: учитывая отличные предложения @Glen_b для удобного чтения точек и т. Д., Альтернативная номограмма может быть следующей:

введите описание изображения здесь

Поскольку переменная исхода или ответа доступна, ее можно использовать вместо термина «линейный предиктор». Также стало понятно, как нужно читать номограмму.

rnso
источник
хорошая диаграмма в редактировании там
Glen_b

Ответы:

11

Итак, поскольку ваша модель является линейной, и ожидаемая миль на галлон равен линейному предиктору, вы можете читать миль на галлон прямо со шкалы линейного предиктора.

Для каждой переменной вы найдете ее значение в соответствующей шкале. Например, представьте, что мы хотим найти прогнозируемую миль на галлон для автомобиля с wt=4, am=1, qsec=18:

введите описание изображения здесь

что дает прогнозируемое миль на галлон около 18,94. Подстановка в уравнение дает 18,95, так что это довольно близко. (На практике вы, вероятно, работали бы только до ближайшей целой точки - и, таким образом, получали бы точность около 2 цифр - «19 миль на галлон» - вместо 3-4 цифр, как здесь.)

Одно из главных преимуществ такой диаграммы, на мой взгляд, заключается в том, что вы мгновенно видите относительный эффект изменений в различных переменных предиктора (IV) на ответ (DV). Даже если вам не нужна диаграмма для каких-либо расчетов, она может иметь большое значение с точки зрения простого отображения относительного влияния переменных.


Дополнительный вопрос из комментариев:

Работает ли это одинаково для нелинейных или полиномиальных регрессий?

Для случаев, когда нелинейна в некоторых предикторах, требуются некоторые незначительные - и, возможно, очевидные - модификации. Представьте, что у нас естьу = Ь 0 + Ь х 1 + F ( х 2 )E(Y)y^=b0+bx1+f(x2)

где либо:

(а) является монотонным; илиf

(б) является не монотоннаf

В любом случае масштаб для будет работать точно так же, как указано выше, но в случае:x1

(а) масштаб для не будет линейным; Например, если монотонно убывающая, но (примерно) квадратичная, вы можете получить что-то вроде этого: фx2f

введите описание изображения здесь

(b) немонотонная шкала для «сломается» в поворотный момент и перевернется. напримерx2

введите описание изображения здесь

- здесь функция имеет минимум где-то околоx = 2,23f(x)x=2.23

Такие функции могут иметь несколько точек поворота, в которых шкалы ломаются и переворачиваются несколько раз, но линия оси имеет только две стороны.

С номограммами точечного типа это не представляет трудностей, поскольку можно перемещать дополнительные масштабные секции вверх или вниз (или, в более общем случае, ортогонально к направлению оси), пока не произойдет перекрытие.

(Более чем одна поворотная точка может быть проблемой для номограмм выравнивающего типа; одним из решений, показанных в книге Харрелла, является незначительное смещение всех шкал от контрольной линии, на которой фактически определяется позиция значения.)


В случае GLM с нелинейной функцией связи шкалы работают так же, как и выше, но шкала линейного предиктора будет помечена нелинейной шкалой для , что-то вроде (a) выше.Y

Примеры всех этих ситуаций можно найти в Стратегиях регрессионного моделирования Харрелла .



Просто пара замечаний

  1. Я бы предпочел , чтобы увидеть две точки шкалы, в верхней и нижней части соответствующего раздела; в противном случае трудно точно «выстроиться», потому что нужно угадать, что такое «вертикаль». Что-то вроде этого:

    введите описание изображения здесь

    Однако, как я отмечаю в комментариях, для последнего раздела диаграммы (итоговые баллы и линейный предиктор), возможно, лучшей альтернативой шкале вторых баллов будет просто иметь пару спина к спине (суммарное количество баллов на одной сторона, линейный предиктор с другой), вот так:

    введите описание изображения здесь

    после чего мы избегаем необходимости знать, что такое «вертикаль».

  2. Имея только два непрерывных предиктора и один двоичный фактор, мы вполне можем построить более традиционную номограмму выравнивания :

    введите описание изображения здесь

    В этом случае вы просто найти wtи qsecзначение на их масштабах и присоединиться к ним с линией; где они пересекают mpgось, мы считываем значение (в то время как amпеременная определяет, с какой стороны mpgоси вы читаете). В таком простом случае, как этот, номограммы такого типа быстрее и проще в использовании, но их сложнее обобщить для многих предикторов, где они могут стать громоздкими. Номограмма в виде точек в вашем вопросе (как это реализовано в Стратегиях регрессионного моделирования и в rmsпакете в R) позволяет легко добавлять больше переменных. Это может быть весьма полезным при работе с взаимодействиями.

Glen_b - Восстановить Монику
источник
Спасибо за ясное, иллюстрированное объяснение. Работает ли это одинаково для нелинейных или полиномиальных регрессий?
rnso
1
Я отредактировал свой ответ, чтобы ответить на этот дополнительный вопрос.
Glen_b
2
Это удивительный пост Глена. Я думаю, что я собираюсь изменить метод nomogramфункции, plotчтобы добавить дополнительный Pointsмасштаб по умолчанию. Отличное предложение!
Фрэнк Харрелл
1
@FrankHarrell Нет, потому что вы не читаете никаких отношений между точками и суммарными баллами - они даже не должны быть на одной странице. Проблема в том, чтобы найти «вертикаль», чтобы вы могли точно читать от итоговых точек до линейного предиктора. Если эти две шкалы очень близки или касаются друг друга, а не, скажем, на расстоянии в два дюйма, это не проблема. Когда они на расстоянии нескольких дюймов друг от друга, несколько градусов погрешности в поиске вертикали могут означать значительную ошибку в результате. Тем не менее, вам все еще нужны две шкалы баллов в первом разделе, потому что у вас может быть много предикторов, и они не могут все быть смежными со шкалой баллов.
Glen_b
1
@FrankHarrell Лично я думаю, что сетка загромождает дисплей и скрывает его значение; Я избегаю сетки, когда могу. Они также не допускают одинаковую степень точности при вертикальной ориентации, если сетка не настолько хороша, как масштаб (что, на мой взгляд, было бы ужасно визуально). Без этой опции я бы закончил редактирование в масштабе второй точки (так же, как я это сделал здесь), чтобы получить его в том состоянии, которое я бы воспринимал как пригодное для использования для двух целей, которые я вижу в нем (т.е. делать достаточно точную оценку прогнозируемых значений, не затеняя ii. ясность относительных вкладов к ответу) ..
Glen_b