Ниже приведена номограмма, созданная из набора данных mtcars с пакетом rms для формулы:
mpg ~ wt + am + qsec
Сама модель кажется хорошей с R2 0,85 и P <0,00001
> mod
Linear Regression Model
ols(formula = mpg ~ wt + am + qsec, data = mtcars)
Model Likelihood Discrimination
Ratio Test Indexes
Obs 32 LR chi2 60.64 R2 0.850
sigma 2.4588 d.f. 3 R2 adj 0.834
d.f. 28 Pr(> chi2) 0.0000 g 6.456
Residuals
Min 1Q Median 3Q Max
-3.4811 -1.5555 -0.7257 1.4110 4.6610
Coef S.E. t Pr(>|t|)
Intercept 9.6178 6.9596 1.38 0.1779
wt -3.9165 0.7112 -5.51 <0.0001
am 2.9358 1.4109 2.08 0.0467
qsec 1.2259 0.2887 4.25 0.0002
Мне не ясно, что это за «Очки», «Всего очков» и «Линейный прогноз». Какие из них представляют собой mpg, переменную результата? Я буду признателен за любое объяснение.
Редактировать: учитывая отличные предложения @Glen_b для удобного чтения точек и т. Д., Альтернативная номограмма может быть следующей:
Поскольку переменная исхода или ответа доступна, ее можно использовать вместо термина «линейный предиктор». Также стало понятно, как нужно читать номограмму.
Ответы:
Итак, поскольку ваша модель является линейной, и ожидаемая миль на галлон равен линейному предиктору, вы можете читать миль на галлон прямо со шкалы линейного предиктора.
Для каждой переменной вы найдете ее значение в соответствующей шкале. Например, представьте, что мы хотим найти прогнозируемую миль на галлон для автомобиля с
wt=4, am=1, qsec=18
:что дает прогнозируемое миль на галлон около 18,94. Подстановка в уравнение дает 18,95, так что это довольно близко. (На практике вы, вероятно, работали бы только до ближайшей целой точки - и, таким образом, получали бы точность около 2 цифр - «19 миль на галлон» - вместо 3-4 цифр, как здесь.)
Одно из главных преимуществ такой диаграммы, на мой взгляд, заключается в том, что вы мгновенно видите относительный эффект изменений в различных переменных предиктора (IV) на ответ (DV). Даже если вам не нужна диаграмма для каких-либо расчетов, она может иметь большое значение с точки зрения простого отображения относительного влияния переменных.
Дополнительный вопрос из комментариев:
Для случаев, когда нелинейна в некоторых предикторах, требуются некоторые незначительные - и, возможно, очевидные - модификации. Представьте, что у нас естьу = Ь 0 + Ь х 1 + F ( х 2 )E(Y) y^=b0+bx1+f(x2)
где либо:
(а) является монотонным; илиf
(б) является не монотоннаf
В любом случае масштаб для будет работать точно так же, как указано выше, но в случае:x1
(а) масштаб для не будет линейным; Например, если монотонно убывающая, но (примерно) квадратичная, вы можете получить что-то вроде этого: фx2 f
(b) немонотонная шкала для «сломается» в поворотный момент и перевернется. напримерx2
- здесь функция имеет минимум где-то околоx = 2,23f(x) x=2.23
Такие функции могут иметь несколько точек поворота, в которых шкалы ломаются и переворачиваются несколько раз, но линия оси имеет только две стороны.
С номограммами точечного типа это не представляет трудностей, поскольку можно перемещать дополнительные масштабные секции вверх или вниз (или, в более общем случае, ортогонально к направлению оси), пока не произойдет перекрытие.
(Более чем одна поворотная точка может быть проблемой для номограмм выравнивающего типа; одним из решений, показанных в книге Харрелла, является незначительное смещение всех шкал от контрольной линии, на которой фактически определяется позиция значения.)
В случае GLM с нелинейной функцией связи шкалы работают так же, как и выше, но шкала линейного предиктора будет помечена нелинейной шкалой для , что-то вроде (a) выше.Y
Примеры всех этих ситуаций можно найти в Стратегиях регрессионного моделирования Харрелла .
Просто пара замечаний
Я бы предпочел , чтобы увидеть две точки шкалы, в верхней и нижней части соответствующего раздела; в противном случае трудно точно «выстроиться», потому что нужно угадать, что такое «вертикаль». Что-то вроде этого:
Однако, как я отмечаю в комментариях, для последнего раздела диаграммы (итоговые баллы и линейный предиктор), возможно, лучшей альтернативой шкале вторых баллов будет просто иметь пару спина к спине (суммарное количество баллов на одной сторона, линейный предиктор с другой), вот так:
после чего мы избегаем необходимости знать, что такое «вертикаль».
Имея только два непрерывных предиктора и один двоичный фактор, мы вполне можем построить более традиционную номограмму выравнивания :
В этом случае вы просто найти
wt
иqsec
значение на их масштабах и присоединиться к ним с линией; где они пересекаютmpg
ось, мы считываем значение (в то время какam
переменная определяет, с какой стороныmpg
оси вы читаете). В таком простом случае, как этот, номограммы такого типа быстрее и проще в использовании, но их сложнее обобщить для многих предикторов, где они могут стать громоздкими. Номограмма в виде точек в вашем вопросе (как это реализовано в Стратегиях регрессионного моделирования и вrms
пакете в R) позволяет легко добавлять больше переменных. Это может быть весьма полезным при работе с взаимодействиями.источник
nomogram
функции,plot
чтобы добавить дополнительныйPoints
масштаб по умолчанию. Отличное предложение!