Как описать или визуализировать модель множественной линейной регрессии

21

Я пытаюсь приспособить модель множественной линейной регрессии к моим данным с помощью пары входных параметров, скажем, 3.

(я)F(Икс)знак равноAИкс1+ВИкс2+СИкс3+dили(II)F(Икс)знак равно(A В С)Т(Икс1 Икс2 Икс3)+d

Как мне объяснить и визуализировать эту модель? Я мог бы подумать о следующих вариантах:

  1. Упомяните уравнение регрессии, как описано в (коэффициенты, постоянные) вместе со стандартным отклонением, а затем график остаточной ошибки, чтобы показать точность этой модели. (я)

  2. Попарные графики независимых и зависимых переменных, например:

    введите описание изображения здесь

  3. Как только коэффициенты известны, могут ли точки данных, используемые для получения уравнения быть сжаты до их реальных значений. То есть обучающие данные имеют новые значения в форме x вместо x 1 , x 2 , x 3 , где каждая независимая переменная умножается на свой соответствующий коэффициент. Тогда эта упрощенная версия может быть визуально показана в виде простой регрессии:(я)ИксИкс1Икс2Икс3...

    введите описание изображения здесь

Я запутался в этом, несмотря на то, что просматривал соответствующий материал на эту тему. Может кто-нибудь объяснить мне, как «объяснить» модель множественной линейной регрессии и как ее визуально показать.

крис
источник
2
Какова цель вашего документа и кто эта аудитория? Я бы начал с получения похожих статей и поищу несколько примеров того, как они делаются в вашей области. Я больше знаком с биомедицинской литературой и в большинстве случаев мы просто используем таблицу. Иллюстрации чаще встречаются, когда авторы пытаются объяснить взаимодействие.
Penguin_Knight
@Penguin_Knight, это относится к области компьютерных наук, однако я думаю, что это скорее общий характер, чем ограниченный конкретной областью. Пожалуйста, поправьте меня, если я ошибаюсь.
Крис
Хм ... хотя вопрос. Я бы сказал, что единственная общая часть для меня - не показывать больше, чем нужно, и убедиться, что компоненты, на которые нужно обратить внимание, действительно выделены. Даже в своей области я видел все три варианта. 1) табулирование результатов является наиболее распространенным, затем следует 3), но в основном это форма построения прогнозируемого результата, а затем 2). Но для 2) я бы использовал то, что предложил @gregory_britten: используйте скорректированный X вместо каждого отдельного X.
Penguin_Knight
использовать график распределения .... посмотрите на распределение подгоночных значений, полученных в результате модели, и сравните его с распределением фактических значений.
Овай Куреши
Я знаю, что это было много лет назад, но если вы вернетесь сюда, не могли бы вы опубликовать данные? Тогда людям будет с чем работать, чтобы показать разные возможности.
gung - Восстановить Монику

Ответы:

21

ИксΔY/Δsd(Икс), Таким образом, расстояние, на которое коэффициенты находятся от нуля, ранжирует их относительную «важность», а их КИ дает точность. Я думаю, что это довольно хорошо суммирует отношения и предлагает гораздо больше информации, чем коэффициенты и p-значения в их естественных и часто несопоставимых числовых масштабах. Пример ниже:

введите описание изображения здесь

YИксяY~Икс1+Икс2+Икс3ИксяYavPlots()carlm

введите описание изображения здесь

gregory_britten
источник
Спасибо @gregory_britten за эту информацию. У меня есть под рукой 8 независимых переменных. Как вы думаете, «добавленные графики переменных» было бы целесообразно для большого количества входных переменных?
Крис
В соответствии с идеей первого сюжета, если вы работаете в R, я предлагаю взглянуть на пакет RMS, который делает все это простым. Приятно то, что можно попросить о значительных шагах изменений в ковариации, что позволяет избежать необходимости стандартизации.
Томас Шпейдел
@suzanne Да, безусловно. Добавленный график переменных дает вам двухмерные перспективы для любого количества переменных. Это может быть особенно показательным в более высоких измерениях. В остатках часто встречаются обнаруживающиеся закономерности, которые совсем не были очевидны в наблюдаемом Y.
gregory_britten
Я не совсем понимаю нотацию X1 | X2 & X3 в этом контексте. Я знаю, как она используется в отношении вероятностей, но я не совсем понимаю, о чем она говорит здесь
Casebash
1
@Casebash Это частичная регрессия на X1, учитывая, что X2 и X3 находятся в модели
gregory_britten
1

Поскольку все они имеют отношение к объяснению участников цирроза, пытались ли вы создать диаграмму пузыря / круга и использовать цвет, чтобы указать различные регрессоры и радиус окружности, чтобы указать относительное влияние на цирроз?

Я имею в виду тип диаграммы Google, который выглядит следующим образом:введите описание изображения здесь

И на несвязанной ноте, если я не читаю ваши графики неправильно, я думаю, что у вас есть несколько избыточных регрессоров там. Вино уже ликер, поэтому, если эти два - отдельные регрессоры, не имеет смысла хранить их оба, если ваша цель - объяснить частоту цирроза.

Rocinante
источник