Что означает линейный в линейной регрессии?

11

В R, если я напишу

lm(a ~ b + c + b*c) 

это все еще будет линейной регрессией?

Как сделать другие виды регрессии в R? Буду признателен за рекомендации по учебникам или учебникам?

suprvisr
источник
Я попытался немного перефразировать ваш вопрос. Боюсь, похоже, ты задаешь два совершенно разных вопроса. Для второго, много ресурсов доступно на этом сайте, но также и на CRAN .
ЧЛ
@ CHL, да, спасибо, мне было не ясно. Мои вопросы на самом деле таковы: если я пишу LM на R, понимает ли R его как линейный всегда или пытается соответствовать любой модели, не обязательно линейной регрессии, но какой-либо регрессии?
suprvisr
Нет, lm()обозначает линейную регрессию. Ваша модель включает в себя три параметра (минус перехватывать) для b, cи их взаимодействия b:c, что означает b + c + b:cили b*cдля краткости (R следует нотации Уилкинсона для статистических моделей). Подгонка обобщенной линейной модели (т. Е. Когда функция связи не является тождественной, как в случае с линейной моделью, описанной выше) запрашивается через glm().
ЧЛ

Ответы:

24

Линейный относится к взаимосвязи между оцениваемыми параметрами (например, ) и результатом (например, ). Следовательно, является линейным, а - нет. Линейная модель означает, что ваша оценка вашего вектора параметров может быть записана как , где - это веса, определенные вашей процедурой оценки. Линейные модели могут быть решены алгебраически в замкнутой форме, в то время как многие нелинейные модели должны быть решены путем численного максимизации с использованием компьютера.у я у = е х & beta ; + & epsi ; у = е & beta ; х + & epsi ; & beta ; = Σ я ш я у я { ш я }βyiy=exβ+ϵy=eβx+ϵβ^=iwiyi{wi}

Чарли
источник
6
+1 В частности, в «линейной модели» зависимая переменная является линейной функцией параметров, но не обязательно данных. y
whuber
1-й линейный? действительно - тот, к власти х?
suprvisr
2
Да, потому что - это не количество интереса (которое вы оптимизируете), а . Таким образом, он является линейным в . β βxββ
Bayerj
+1, но этот ответ можно улучшить, комментируя формулу в вопросе.
naught101
1
Во втором чтении я замечаю, что вторая половина этого ответа путает «линейную модель» с «линейной оценкой». Эти две концепции разные и разные. Нелинейные модели часто имеют линейные оценки, а линейные модели могут иметь нелинейные оценки (например, рассмотрим GLM).
whuber
5

Этот пост на minitab.com дает очень четкое объяснение:

  • Модель является линейной, когда ее можно записать в следующем формате:
    • Response = constant + parameter * predictor + ... + parameter * predictor
      • То есть, когда каждый член (в модели) является либо константой, либо произведением параметра и переменной-предиктора.
    • Итак, обе они являются линейными моделями:
      • Y=B0+B1X1 (это прямая линия)
      • Y=B0+B1X12 (это кривая)
  • Если модель не может быть выражена с использованием вышеуказанного формата, она является нелинейной.
    • Примеры нелинейных моделей:
      • X B 1 1Y=B0+X1B1
      • Y=B0cos(B1X1)
Патрик Нг
источник
4

Я был бы осторожен, задавая это как вопрос «R линейной регрессии» против вопроса «линейной регрессии». Формулы в R содержат правила, о которых вы можете знать или не знать. Например:

http://wiener.math.csi.cuny.edu/st/stRmanual/ModelFormula.html

Предполагая, что вы спрашиваете, является ли следующее уравнение линейным:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * (b*c))

Ответ - да, если вы собираете новую независимую переменную, такую ​​как:

newv = b * c

Подстановка приведенного выше уравнения newv в исходное уравнение, вероятно, выглядит так, как вы ожидаете для линейного уравнения:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * newv)

Что касается ссылок, Google "r регресс", или как вы думаете, может работать для вас.

bill_080
источник
Как переименование чего-либо делает его линейным? Я не понимаю, если тождество newv = b * c имеет место, оно вообще не линейно. Я запутался.
Bayerj
@bayer: newv - это новая переменная. Новое уравнение представляет собой линейную функцию трех переменных (b, c, newv), где коэффициенты обеспечивают линейную зависимость. Ни одно из уравнений не является линейной комбинацией только двух переменных.
bill_080
@bayer Смотрите ответ @Charlie. В настоящем примере обе модели являются линейными (независимо от того, рассматривает ли их R как таковой), поскольку в обеих из них aесть линейная функция четырех коэффициентов.
whuber
спасибо, это имеет смысл ... могу ли я просто добавить новую переменную neww, являющуюся b * c для каждого случая в базе данных (медицинская), и затем рассматривать ее как линейную регрессию?
suprvisr
2

Вы можете записать линейную регрессию в виде (линейного) матричного уравнения.

[a1a2a3a4a5...an]=[b1c1b1c1b2c2b2c2b3c3b3c3b4c4b4c4b5c5b5c5...bncnbncn]×[αbαcαbc]+[ϵ1ϵ2ϵ3ϵ4ϵ5...ϵn]

или если вы свернете это:

a=αbb+αcc+αbcbc+ϵ

Эта линейная регрессия эквивалентна нахождению линейной комбинации векторов , и , ближайшей к вектору .bcbca

(Это также имеет геометрическую интерпретацию как нахождение проекции на диапазон векторов , и . Для задачи с двумя векторами столбцов с тремя измерениями это все еще можно нарисовать как рисунок, например, как показано здесь: http://www.math.brown.edu/~banchoff/gc/linalg/linalg.html )abcbc


Понимание этой концепции также важно при нелинейной регрессии. Например, гораздо проще решить чем поскольку первая параметризация позволяет решить коэффициенты и с помощью методов линейной регрессии. y = u ( e c ( t - v ) + e d ( t - v ) ) a by=aect+bedty=u(ec(tv)+ed(tv))ab

Секст Эмпирик
источник
Я чувствую, что это лучший ответ, потому что он отвечает на вопрос «Почему, а не просто что?». Ответ на вопрос «Что» не приводит к лучшей интуиции.
Гексатоник