статистический тест, чтобы увидеть, является ли связь линейной или нелинейной

9

У меня есть пример данных, установленных следующим образом:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

введите описание изображения здесь

Из рисунка можно предположить, что между определенным диапазоном «Объем» и «Мощность» соотношение является линейным, тогда, когда «Объем» становится относительно небольшим, отношение становится нелинейным. Есть ли статистический тест для иллюстрации этого?

В отношении некоторых рекомендаций, приведенных в ответах на ФП:

Пример, показанный здесь, является просто примером, набор данных, который я имею, похож на отношения, которые мы видим здесь, хотя и более шумный. Анализ, который я провел до сих пор, показывает, что когда я анализирую объем конкретной жидкости, мощность сигнала резко возрастает при небольшом объеме. Итак, скажем, у меня была только среда, где объем был между 15 и 20, это было бы почти похоже на линейные отношения. Однако, увеличив диапазон точек, т. Е. Имея меньшие объемы, мы видим, что связь не является линейной вообще. Сейчас я ищу статистический совет о том, как статистически показать это. Надеюсь, это имеет смысл.

KatyB
источник
5
Здесь происходит несколько вещей. Во-первых, конечно, отношения будут выглядеть линейными, если диапазоны переменных соответственно ограничены. Во-вторых, гетероскедастичность данных является почти такой же характерной особенностью, как нелинейная связь: разброс больше при больших объемах и малых мощностях, чем при малых объемах и больших мощностях. Независимо от того, что именно вы хотите проверить? Линейность отношений во всем диапазоне?
whuber
4
На самом деле, я бы хотел вернуться к замечанию о гетероскедастичности: сюжет выглядит таковым, но это иллюзия, вызванная относительно крутыми склонами при более низких объемах. (Объем с точки зрения мощности, однако, имеет чрезвычайно гетероскедастические отношения.) Как только мы определим, что изменение мощности не является гетероскедастичным, это исключает некоторые виды анализа (мы не хотели бы применять нелинейные преобразования мощности) и предлагает в пользу других (таких как нелинейные наименьшие квадраты или обобщенная линейная модель), как только нелинейность четко установлена.
whuber
Теперь я добавил краткое описание проблемы под рукой. Спасибо за ваши комментарии, они очень ценятся и помогают мне разобраться в проблеме.
KatyB
Почему бы не проверить квадратичный эффект?
AdamO
2
@ Симон Я не использовал ни одного теста, но, тем не менее, вы можете увидеть, что это гомоскедастично, построив график типичного размера остатков по отношению к объему. Вот некоторый Rкод: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Он показывает почти постоянный остаточный размер во всем диапазоне.
whuber

Ответы:

4

Это в основном проблема выбора модели. Я рекомендую вам выбрать набор физически правдоподобных моделей (линейных, экспоненциальных, возможно, прерывистых линейных отношений) и использовать Информационный критерий Акаике или Байесовский информационный критерий для выбора наилучшего, учитывая проблему гетероскедастичности, на которую указывает @whuber.

Дрю Стин
источник
2

Вы пытались погуглить это? Один из способов сделать это состоит в том, чтобы подогнать более мощные или другие нелинейные члены к вашей модели и проверить, значительно ли их коэффициенты отличаются от 0.

Здесь есть несколько примеров http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

В вашем случае вы можете разделить ваш набор данных на две части, чтобы проверить нелинейность для объема <5 и линейность для объема> 5.

Другая проблема, с которой вы столкнулись, заключается в том, что ваши данные являются гетероскедастичными, что нарушает допущение нормальности регрессионных данных. Приведенная ссылка также дает примеры тестирования для этого.

Саймон Хейворд
источник
Ссылка не работает.
Джатин
2

Я предлагаю использовать нелинейную регрессию для подгонки одной модели ко всем вашим данным. Какой смысл выбирать произвольный объем и подгонять одну модель к объемам меньшим, чем эта, а другую модель к большим объемам? Есть ли какая-либо причина, помимо фигуры, для использования 5 в качестве острого порога? Вы действительно верите, что после определенного порога объема идеальная кривая является линейной? Разве это не более вероятно, что он приближается к горизонтали с увеличением объема, но никогда не бывает совершенно линейным?

Конечно, выбор инструмента анализа должен зависеть от того, на какие научные вопросы вы пытаетесь ответить, и от вашего предшествующего знания системы.

Харви Мотульский
источник