Какой тип регрессии использовать, учитывая одну переменную с верхней границей?

9

Я не уверен, какой метод использовать для моделирования отношений между двумя переменными ( и y ) в эксперименте, описанном ниже:xy

  • Есть 3 переменные: , x и y .xaimxy
  • Значение устанавливается при проведении эксперимента. Однако x и x a i m не всегда равны.xaimxxaim
  • Коэффициент корреляции Пирсона между и x составляет около 0,9.xaimx
  • Коэффициент корреляции Пирсона между и y намного меньше: около 0,5.xy
  • имеет максимально возможное значение ( y m a x ), которое не может быть превышено.yymax
  • Каждая точка данных получается после установки и считывания x и y .xaimxy

Хотя коэффициент корреляции Пирсона между и y невелик, похоже, что y имеет тенденцию к увеличению с увеличением x .xyyx

После выполнения простых линейных регрессий и x = g ( y ) (и преобразования последнего обратно в g - 1 , чтобы отображаться на том же графике, что и f, например), оба наклона являются положительными, но наклон g - 1 больше, чем у f .y=f(x)x=g(y)g1fg1f

Имеет ли смысл говорить или x m a x = g ( y m a x ) ? ( x m a x будет достигнут раньше во втором случае.)xmax=f1(ymax)xmax=g(ymax)xmax

Учитывая, что связан с y m a x , что можно сказать о возможном максимальном значении x, которое может быть достигнуто?yymaxx

Насколько я понимаю, имеет смысл выполнить линейную регрессию вида когда x является независимой переменной, а y является зависимой переменной. Однако в этом контексте я не уверен, имеет ли смысл считать, что x является независимым, а y - зависимым.y=f(x)xyxy

Будет ли более уместной полная регрессия наименьших квадратов? Существуют ли другие способы определения того, какие значения могут быть достигнуты (и с какой вероятностью)?xmax

(Если это имеет значение, и y , кажется, не следуют нормальному распределению, так как было сделано больше попыток достичь более высоких значений x .)xyx

Bruno
источник
Что вы будете делать с этими отношениями, если найдете? Будете ли вы проверять гипотезы, или просто интересно, как это выглядит? Если точек данных много, вы должны рассмотреть нелинейные модели.
mpiktas
@mpiktas, в конечном счете, я хотел бы знать, какой x_max является разумной целью, которую я мог бы попытаться достичь на регулярной основе (не один раз), учитывая, что достижение или превышение y_max делает эксперимент недействительным (фактически подразумевая x = x_min за эту попытку).
Бруно
xyxaimxxaimxyxaimymaxxaimэто важное соображение.
whuber

Ответы:

4

yxxyyxrxy=1.0yxxmax=f1(ymax)

Что касается вопроса об ограниченной переменной, то обычно можно предположить, что «реальная» сумма может пойти выше, но вы просто не можете ее измерить. Например, внешний термометр из моего окна поднимается до 120, но в некоторых местах он может быть до 140, и у вас будет только 120 в качестве измерения. Таким образом, переменная будет иметь верхнюю границу, а то, о чем вы действительно хотели подумать, - нет. Если это так, то модели тобитов существуют именно для таких ситуаций.

Другой подход - использовать что-то более крепкое, например, лесс, которое может быть вполне адекватным вашим потребностям.

Gung - Восстановить Монику
источник
Извиняюсь за задержку, я не заметил вашего ответа. Мне нужно прочитать о модели Tobit.
Бруно
Нет проблем. Подробнее о природе регрессии (против обратной регрессии) смотрите здесь . Для некоторой помощи с применением регрессии тобита с использованием различных программ попробуйте здесь .
gung - Восстановить Монику
3

xmax=f1(ymax)xmax

xy

Если возможно, посмотрите на остатки и посмотрите, сможете ли вы выжать из него что-нибудь. Может быть другая переменная, которую вы забыли; или это может помочь преобразовать ваши переменные.

король
источник