Обратное преобразование коэффициентов регрессии

Я делаю линейную регрессию с преобразованной зависимой переменной. Следующее преобразование было сделано для того, чтобы предположение о нормальности остатков было выполнено. Нетрансформированная зависимая переменная была отрицательно искажена, и следующее преобразование приблизило ее к нормальному:

Y = \sqrt{50 - Y_{o r i g}}

$Y=\sqrt{50-Y_{orig}}$

где $Y_{orig}$ является зависимой переменной в исходном масштабе.

Я думаю, что имеет смысл использовать некоторое преобразование $\beta$ коэффициентов, чтобы вернуться к исходной шкале. Используя следующее уравнение регрессии,

Y = \sqrt{50 - Y_{o r i g}} = α + β \cdot X

$Y=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X$

и фиксируя $X=0$ , мы имеем

α = \sqrt{50 - Y_{o r i g}} = \sqrt{50 - α_{o r i g}}

$\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}}$

И наконец,

α_{o r i g} = 50 - α^{2}

$\alpha_{orig}=50-\alpha^2$

Используя ту же логику, я нашел

β_{o r i g} = α (α - 2 β) + β^{2} + α_{o r i g} - 50

$\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50$

Теперь все работает очень хорошо для модели с 1 или 2 предикторами; обратно преобразованные коэффициенты напоминают исходные, только теперь я могу доверять стандартным ошибкам. Проблема возникает при включении термина взаимодействия, такого как

Y = α + X_{1} β_{X_{1}} + X_{2} β_{X_{2}} + X_{1} X_{2} β_{X_{1} X_{2}}

$Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2}$

Тогда обратное преобразование для s не так близко к исходному масштабу, и я не уверен, почему это происходит. Я также не уверен, применима ли найденная формула для обратного преобразования бета-коэффициента, как для 3-го (для члена взаимодействия). Прежде чем перейти к сумасшедшей алгебре, я подумал, что я бы попросил совета ... $\beta$ $\beta$

regression data-transformation Доминик Комтуа
источник

Как вы определяете

α_{o r i g}

$\alpha_{orig}$

β_{o r i g}

$\beta_{orig}$

mark999

Как значение альфа и бета на оригинальных шкалах

Доминик Комтуа

Но что это значит?

mark999

Я бы рискнул чем-то вроде: оценки, которые мы получили, были исходными данными, подходящими для линейной регрессии.

Доминик Комтуа

Мне это кажется бессмысленным понятием. Я согласен с ответом Гунга.

mark999

Ответы:

Одна проблема в том, что вы написали

Y = α + β \cdot X

$Y=α+β⋅X$

Это простая детерминированная (то есть неслучайная) модель. В этом случае вы можете обратно преобразовать коэффициенты в исходном масштабе, поскольку это всего лишь вопрос некоторой простой алгебры. Но в обычной регрессии вы имеете только ; Вы оставили ошибку в вашей модели. Если преобразование из обратно в является нелинейным, у вас может возникнуть проблема, так как $E(Y|X)=α+β⋅X$ $Y$ $Y_{orig}$ в общем. Я думаю, что это может иметь отношение к несоответствию, которое вы видите. $E\big(f(X)\big)≠f\big(E(X)\big)$

Изменить: Обратите внимание, что если преобразование является линейным, вы можете выполнить обратное преобразование, чтобы получить оценки коэффициентов в исходном масштабе, так как ожидание является линейным.

макрос
источник

+1 за объяснение, почему мы не можем трансформировать бета-версии.

gung - Восстановить Монику

Я приветствую ваши усилия здесь, но вы лаете не на то дерево. Вы не возвращаете бета-версии трансформации. Ваша модель держится в трансформированном мире данных. Если вы хотите сделать прогноз, например, вы вернетесь преобразовать $\hat{y}_i$

Gung - Восстановить Монику
источник

Что делать с тем фактом, что обратно преобразованные коэффициенты очень близки к тем, которые получены при моделировании нетрансформированной переменной? Разве это не позволяет сделать какой-то вывод в исходном масштабе?

Доминик Комтуа

Я точно не знаю. Это может зависеть от любого количества вещей. Мое первое предположение состоит в том, что вам повезло с вашей первой парой бета-версий, но затем ваша удача кончилась. Я должен согласиться с w / @ mark999, что «оценки, которые мы получили, были исходными данными, подходящими для линейной регрессии», на самом деле не имеет никакого смысла; Хотелось бы, чтобы это было так, и кажется на первый взгляд, но, к сожалению, это не так. И это не лицензирует никаких выводов в исходном масштабе.

gung - Восстановить Монику

@ Gung для нелинейных преобразований (скажем, Box Cox): я могу обратно преобразовать подогнанные значения, а также интервалы предсказания, но я не могу преобразовать ни бета, ни интервалы коэффициентов для бета. Есть ли какие-то дополнительные ограничения, о которых я должен знать? Кстати, это очень интересная тема, где я могу получить лучшее понимание?

Mugen

@ Муген, трудно сказать, что еще нужно знать. Одна вещь, которую следует иметь в виду, заключается в том, что обратная трансформация y-hat дает вам условную медиану, тогда как un-back-transform (bleck) y-hat является условным средним. Помимо этого, этот материал должен быть включен в хороший учебник по регрессии.

gung - Восстановить Монику

@Mugen, пожалуйста. Не стесняйтесь задавать больше вопросов с помощью обычных механизмов (щелчок ASK QUESTION); будет больше ресурсов для ответов, вы привлечете больше CVers, а информация станет более доступной для потомков.

gung - Восстановить Монику