Сравнение коэффициентов регрессии одной и той же модели в разных наборах данных

Я оцениваю два (2) хладагента (газа), которые использовались в одной и той же системе охлаждения. У меня есть данные о температуре всасывания ( ), температуре конденсации ( ) и силе тока ( ) для оценки. Есть два (2) набора данных; 1-й хладагент ( ) и 2-й хладагент ( ). Я использую линейную, многомерную ( & ), полиномиальную модель 3-го порядка для регрессионного анализа. Я хотел бы определить, насколько меньше / больше сила тока (или какая-то аналогичная метрика в сравнении производительности) в среднем, в процентах, расходуется вторым хладагентом. $S$ $D$ $Y$ $R_1$ $R_2$ $S$ $D$

Моя первая мысль была:

Определите модель для использования: $Y = b_0 + b_1S + b_2D + b_3SD + b_4S^2 + b_5D^2 + b_6S^2D + b_7D^2S + b_8D^3 + b_9S^3$
Получите коэффициенты ( ) из базовых данных ( ). $b_i$ $R_1$
Используя эти коэффициенты, для каждого & в наборе данных рассчитайте каждое ожидаемое усиление усилителя ( ) и затем усредните. $S$ $D$ $R_2$ $\hat{Y}$
Сравните среднее значение с фактическим средним усилителя ( ) данных . $\hat{Y}$ $Y_2$ $R_2$
$\text{percent (%) change} = (Y_2 - \hat{Y}) / \hat{Y}$

Однако, поскольку второй хладагент имеет немного отличающиеся тепловые свойства, и в систему охлаждения были внесены небольшие изменения (регулировка TXV и перегрева), я не верю, что этот «метод сравнения базовой линии» является точным.

Моей следующей мыслью было сделать два (2) отдельных регрессионных анализа:

\begin{aligned} Y_{1} & = a_{0} + a_{1} S_{1} + a_{2} D_{1} + a_{3} S_{1} D_{1} + a_{4} S_{1}^{2} + a_{5} D_{1}^{2} + a_{6} S_{1}^{2} D_{1} + a_{7} D_{1}^{2} S_{1} + a_{8} D_{1}^{3} + a_{9} S_{1}^{3} \\ Y_{2} & = b_{0} + b_{1} S_{2} + b_{2} D_{2} + b_{3} S_{2} D_{2} + b_{4} S_{2}^{2} + b_{5} D_{2}^{2} + b_{6} S_{2}^{2} D_{2} + b_{7} D_{2}^{2} S_{2} + b_{8} D_{2}^{3} + b_{9} S_{2}^{3} \end{aligned}

$\begin{align} Y_1 &= a_{0} + a_{1}S_1 + a_{2}D_1 + a_{3}S_1D_1 + a_{4}S_1^2 + a_{5}D_1^2 + a_{6}S_1^2D_1 + a_{7}D_1^2S_1 + a_{8}D_1^3 + a_{9}S_1^3 \\ Y_2 &= b_{0} + b_{1}S_2 + b_{2}D_2 + b_{3}S_2D_2 + b_{4}S_2^2 + b_{5}D_2^2 + b_{6}S_2^2D_2 + b_{7}D_2^2S_2 + b_{8}D_2^3 + b_{9}S_2^3 \end{align}$

и затем, для температуры насыщенного всасывания ( ), сравните коэффициенты ( против ) следующим образом: $S$ $a_{1}$ $b_{1}$

% change = \frac{b_{1} - a_{1}}{a_{1}}

$\text{% change} = \frac{b_{1} - a_{1}}{a_{1}}$

Однако, опять же, эти коэффициенты должны быть взвешены по-разному. Поэтому результаты будут искажены.

Я полагаю, что мог бы использовать z-тест, чтобы определить, как по-разному взвешиваются коэффициенты, но я не уверен, что полностью понимаю смысл вывода: . Но это все равно не дало бы мне метрики производительности, которая является главной целью. $z = (a_{1} - b_{1}) / \sqrt{SE_{a_{1}}^2 + SE_{b_{1}}^2 )}$

regression regression-coefficients gth826a
источник

1. Полиномиальная модель является линейной моделью, поскольку она линейна по коэффициенту. 2. Я пытаюсь понять ваш вопрос. Если система охлаждения была изменена между временем использования R1 и R2, то это действительно не «та же система охлаждения» (строка 1), верно? 3. Почему во втором подходе вы начали сравнивать коэффициенты S? 4. Рассматривали ли вы введение ковариатических «хладагентов» с уровнями R1 и R2 в полиномиальное соответствие (возможно, с взаимодействием)? Его коэффициент может ответить на вопрос.

Кохелет

@qoheleth 1. Не уверен, что я следую вашему образу мышления ... Коэффициент всегда линейный - это число. Когда коэффициент не будет линейным тогда? 2. Правильно, система охлаждения была СЛИШКОМ изменена, но только для обеспечения одинаковой температуры на выходе для обоих хладагентов - «от яблок до яблок». 3. «S» является единственной переменной, представляющей интерес для этого конкретного сравнения. 4. Я читал о методе ковариат / взаимодействующих переменных, но не смог понять значение коэффициентов, используя такой метод. Можете ли вы уточнить, как интерпретировать результаты? Спасибо.

gth826a

1. С точки зрения статистики, линейность в оцениваемых вещах - это то, что считается, поэтому полиномиальная модель является линейной. Примером нелинейной модели может служить функция Митчерлиха y = альфа (1-exp (бета-лямбда * X)), где альфа / бета / лямбда - это то, что мы оцениваем. 3. Что вы на самом деле пытаетесь проверить? это коэффициент S? или Y? Если это S, почему ваша первая попытка сравнения в \ hat {Y}?

Кохелет

Y-hat будет: фактическое S & D из 2-го набора данных, используемого с коэффициентами, полученными из 1-го набора данных. Этот метод является общим для анализа энергопотребления «Контрактирование производительности» при сравнении энергопотребления предыдущего оборудования с энергопотреблением после модернизации / реконструкции / обновления / и т. Д. Уравнение будет следующим: потребление энергии = у-шляпа = базовая нагрузка + энергия / градус-день * градус-дни ... где энергия / градус-день - это коэффициент, полученный из базового регрессионного анализа, а градус-дни - после обновления , «Что бы вы потребили», если бы вы не делали этот сценарий проекта ...

gth826a

Таким образом, кажется, что в конечном итоге вы хотите сравнить Y. Я бы сказал, забудьте о вычислении% изменения коэффициентов, при наличии членов более высокого порядка (S ^ 2, S ^ 3 и т. Д.), Коэффициенты не являются тем, что вы думаете они есть. Сосредоточьтесь на Y. Вопрос, который остается для меня неясным, заключается в том, говорите ли вы, что S & D в R2 означает разные вещи для S & D в R1? Если нет, то вы можете просто подогнать одну модель к комбинированному набору данных с дополнительным ковариатом (переменная X), называемым хладагентом (r1 или r2), и посмотреть на его коэффициент, чтобы сделать вывод, предполагая, что ваша модель адекватна.

Кохелет

Ответы:

Из закона идеального газа здесь , , предполагая пропорциональную модель. Убедитесь, что ваши устройства находятся в абсолютной температуре. Запрос о пропорциональном результате подразумевает модель пропорциональной ошибки. Рассмотрим, возможно, , тогда для множественной линейной регрессии можно использовать , взяв логарифмы значений Y, D и S, так что тогда это выглядит как , где индексы означают «логарифм». Теперь это может работать лучше, чем линейная модель, которую вы используете, и тогда ответы относятся к типу относительной ошибки. $PV=nRT$ $Y=a D^b S^c$ $\ln (Y)=\ln (a)+b \ln (D)+c \ln (S)$ $Y_l=a_l+b D_l+c S_l$ $l$

Чтобы проверить, какой тип модели использовать, попробуйте один и проверьте, являются ли остатки гомоскедастичными. Если это не так, то у вас есть предвзятая модель , затем сделайте что-то еще, например смоделируйте логарифмы, как указано выше, одну или несколько обратных величин данных x или y, квадратные корни, возведение в квадрат, возведение в степень и т. Д., Пока остатки не станут гомоскедастическими. Если модель не может дать гомоскедастические остатки, используйте множественную линейную регрессию Тейла с цензурой, если это необходимо.

Как обычно данные распределяются по оси y, не требуется, но выбросы могут и часто заметно искажают результаты параметра регрессии. Если гомоскедастичность не может быть найдена, то обычные наименьшие квадраты не должны использоваться, и необходимо выполнить какой-либо другой тип регрессии, например, взвешенную регрессию, регрессию Тейла, наименьшие квадраты в x, регрессию Деминга и так далее. Кроме того, ошибки не должны быть последовательно коррелированы.

Значение вывода: , может или не может быть уместным. Это предполагает, что полная дисперсия является суммой двух независимых дисперсий. Иными словами, независимость - это ортогональность (перпендикулярность) на графике . Таким образом, полная изменчивость (дисперсия) затем следует теореме Пифагора, , что может иметь или не иметь место для ваших данных. Если это так, то -статистика - это относительное расстояние, т. Е. Разность средних (расстояние), деленная на пифагорейскую, вектор АКА, сложение стандартной ошибки (SE), которые делятся на стандартные отклонения (SD) от $z = (a_{1} - b_{1}) / \sqrt{SE_{a_{1}}^2 + SE_{b_{1}}^2 )}$ $x,y$ $H=+\sqrt{A^2+O^2}$ $z$ $\sqrt{N}$ где SE - это сами расстояния. Деление одного расстояния на другое затем нормализует их, т. Е. Разница в средних значениях делится на общую (стандартную) ошибку, которая затем имеет форму, позволяющую применить ND (0,1) для нахождения вероятности.

Теперь, что произойдет, если меры не являются независимыми, и как можно проверить это? Из геометрии вы можете помнить, что треугольники, которые не являются прямоугольными, добавляют свои стороны как , если нет освежить свою память здесь . То есть, когда между осями есть что-то отличное от угла в 90 градусов, мы должны включить, что это за угол, при расчете общего расстояния. Сначала вспомним, что такое корреляция, стандартизированная ковариация. Это для общего расстояния и корреляции становится $C^2=A^2+B^2-2 A B \cos (\theta ),\theta =\angle(A,B)$ $\sigma _T$ $\rho_{A,B}$ $\sigma _T^2=\sigma _A^2+\sigma _B^2-2 \sigma _A \sigma _B \rho_{A,B}$ , Другими словами, если ваши стандартные отклонения коррелированы (например, попарно), они не являются независимыми.

деревенщина
источник

«Чтобы проверить, какой тип модели использовать, попробуйте один и проверьте, являются ли остатки гомоскедастичными», да, конечно ... за исключением того, что вы вообще не делаете этого предположения, и даже если оно верно - это никоим образом не гарантирует, что у вас есть "хорошая" модель.

Repmat

Если кто-то использует OLS, а остатки гетероскедастичны, то наверняка у него есть предвзятая модель. Гомоскедастичность является требованием OLS, показанным здесь . Чтобы иметь хорошую модель, требуются другие условия, например, избегание смещения переменной , но наличие последовательных некоррелированных ошибок и линейность модели по сравнению с зависимой переменной.

Карл

Вы можете иметь непредвзятую и / или непротиворечивую модель (оценки), где остатки являются гетероскеластическими. Это будет означать только то, что обычные процедуры вывода не работают

Repmat

Гетероскедастичность выравнивает наклон, даже если выбросы исправят это, штрафом будут большие доверительные интервалы и паршивая модель. Не стал бы использовать такую модель, но, да, можно делать паршивые модели. Медицинская литература полна их.

Карл

Первая часть вашего комментария просто неверна. Я даже не уверен, что это значит.

Repmat