У меня есть набор значений и которые теоретически связаны экспоненциально:
Одним из способов получения коэффициентов является применение натуральных логарифмов с обеих сторон и подгонка линейной модели:
> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]
Другой способ получить это - использовать нелинейную регрессию, учитывая теоретический набор начальных значений:
> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))
Мои тесты показывают лучшие и более связанные с теорией результаты, если я применяю второй алгоритм. Тем не менее, я хотел бы знать статистическое значение и значение каждого метода.
Какой из них лучше?
r
regression
linear-model
model-selection
nonlinear-regression
Иньго Эрнаес Коррес
источник
источник
exp()
том, что у вас здесь чаще всего называется степенной функцией, степенным законом или законом масштабирования. Другие имена, без сомнения, существуют. Нет никакой связи с властью в смысле проверки гипотез.Ответы:
«Лучше» - это функция вашей модели.
Частично причина вашего замешательства в том, что вы написали только половину своей модели.
Например, две упомянутые вами модели (не единственно возможные модели) делают совершенно разные предположения об ошибке.
Когда вы подходите к нелинейной модели наименьших квадратов, вы говорите, что ошибки аддитивны, а стандартное отклонение ошибок постоянно для данных:
или эквивалентно
напротив, когда вы берете журналы и подгоняете линейную модель, вы говорите, что ошибка является аддитивной в масштабе журнала и (в масштабе журнала) постоянной для данных. Это означает, что в масштабе наблюдений термин ошибки является мультипликативным , и поэтому ошибки больше, когда ожидаемые значения больше:
или эквивалентно
(Вы можете делать наименьшие квадраты, не предполагая нормального / логнормального распределения, но обсуждаемая центральная проблема по-прежнему применима ... и если вы не приблизились к нормальности, вам, вероятно, все равно следует рассмотреть другую модель ошибок)
То, что лучше, зависит от того, какая модель ошибок описывает ваши обстоятельства.
источник
Когда вы подходите к любой модели, вы предполагаете, что набор невязок (расхождений между наблюдаемыми и прогнозируемыми значениями Y) соответствует распределению Гаусса. Если это предположение верно для ваших необработанных данных (нелинейная регрессия), то оно не будет верным для лог-преобразованных значений (линейная регрессия), и наоборот.
Какая модель "лучше"? Тот, где предположения модели наиболее точно соответствуют данным.
источник