Как интерпретировать логарифмически преобразованные коэффициенты в линейной регрессии?

10

Моя ситуация такова:

У меня есть 1 непрерывная зависимая и 1 непрерывная предикторная переменная, которую я логарифмически преобразовал, чтобы нормализовать их остатки для простой линейной регрессии.

Буду признателен за любую помощь в том, как я могу связать эти преобразованные переменные с их исходным контекстом.

Я хочу использовать линейную регрессию, чтобы предсказать количество дней, которые ученики пропустили в школе в 2011 году, исходя из количества дней, которые они пропустили в 2010 году. Большинство учеников пропускают 0 дней или несколько дней, когда данные положительно искажены влево. Следовательно, существует необходимость в преобразовании для использования линейной регрессии.

Я использовал log10 (var + 1) для обеих переменных (я использовал +1 для учеников, которые пропустили 0 дней в школе). Я использую регрессию, потому что я хочу добавить категориальные факторы - пол / этническая принадлежность и т. Д.

Моя проблема:

Аудитория, к которой я хочу обратиться, не поймет log10 (y) = log (постоянная) + log (var2) x (и, честно говоря, я тоже не понимаю).

Мои вопросы:

а) Существуют ли лучшие способы интерпретации преобразованных переменных в регрессии? Т.е. за 1 день, пропущенный в 2010 году, они пропустят 2 дня в 2011 году, в отличие от того, что когда-либо за 1 смену бревна в 2010 году произойдет изменение x бревен в 2011 году?

б) В частности, учитывая приведенный отрывок из этого источника следующим образом:

«Это отрицательная оценка биномиальной регрессии для увеличения единичной оценки по математике на одну единицу, учитывая, что другие переменные в модели остаются постоянными. Если ученик должен был увеличить свою оценку по математике на одно очко, разница в журналах Ожидается, что ожидаемое число уменьшится на 0,0016 единицы, при этом остальные переменные в модели будут постоянными ».

Я бы хотел знать:

  • Говорит ли этот отрывок о том, что на каждую единицу увеличения оценки UNTRANSFORMEDпеременной математика приводит к уменьшению на 0,0016 от постоянной (а), поэтому, если UNTRANSFORMEDоценка по математике возрастает на два пункта, я вычитаю 0,0016 * 2 из константы а?
  • Означает ли это, что я получаю среднее геометрическое, используя экспоненциальную (а) и экспоненциальную (а + бета * 2), и что мне нужно вычислить процентную разницу между этими двумя, чтобы сказать, какой эффект имеет переменная (и) предиктора есть на зависимой переменной?
  • Или я правильно понял?

Я использую SPSS v20. Извините за создание этого в длинном вопросе.


JimBob
источник
8
Думали ли вы использовать вместо этого регрессию Пуассона? На это естественно указывают зависимые данные подсчета, и ваш успех с преобразованием журнала согласуется с распределениями Пуассона. Коэффициенты будут интерпретироваться с точки зрения пропорционального увеличения ожидаемой вероятности пропуска учебного дня. Одним из преимуществ является то, что никакой специальной обработки нулей не требуется (хотя по-прежнему очень хорошая идея взглянуть на альтернативную модель с нулевым раздуванием).
whuber
Привет Whuber, Да, я думал о регрессии Пуассона, но не был уверен в этом или выбирал отрицательную биномиальную регрессию. Я предполагаю отрицательный бином, поскольку данные слишком разбросаны, т. Е. Среднее ниже, чем дисперсия в наборе данных (отсюда положительный перекос). Также, строго ли существует верхний предел количества школьных занятий в год, тогда как Пуассон предполагает неограниченный знаменатель? Или вы все еще считаете Пуассона более подходящим? К сожалению, SPSS не поддерживает модели с нулевым надуванием, насколько я видел ...) Спасибо Whuber :)
JimBob
3
Я не вижу проблемы с неограниченной поддержкой распределений Пуассона: это похоже на использование нормальных распределений для моделирования, скажем, значений, которые должны быть неотрицательными. Если шансы, связанные с невозможными значениями, крошечные, тем не менее, это может быть хорошей моделью. Отрицательный бином является стандартной альтернативой Пуассону, используемой для проверки правильности подгонки и избыточной дисперсии; это хорошая идея. Если SPSS слишком ограничен, используйте что-то еще! ( Rесть пакеты для моделей с нулевым раздуванием; ищите этот сайт .)
whuber
2
Я согласен с @whuber. Думаю, вам нужна модель ZIP или ZINB. Я бы просто добавил, что они также доступны в SAS через PROC COUNTREG (в ETS) и, начиная с SAS 9.2, в PROC GENMOD (в STAT)
Питер Флом
2
Там очень хорошая информация на stats.stackexchange.com/questions/18480/… .
rolando2

Ответы:

7

Я думаю, что более важный момент предлагается в комментарии @ whuber. Весь ваш подход неверен, потому что, взяв логарифмы, вы фактически выбрасываете из набора данных любых учеников с нулевым отсутствием дней в 2010 или 2011 году. Похоже, этих людей достаточно, чтобы быть проблемой, и я уверен, что ваши результаты будут быть неправым, основываясь на подходе, который вы принимаете.

Вместо этого вам нужно согласовать обобщенную линейную модель с пуассоновским откликом. SPSS не может сделать это, если вы не заплатили за соответствующий модуль, поэтому я бы предложил перейти на R.

У вас все еще будет проблема интерпретации коэффициентов, но это вторично по отношению к важности наличия модели, которая в основном подходит.

Питер Эллис
источник
Почему бы не использовать преобразование ? Это решило бы проблему, которую вы подняли. Однако обратное преобразование будет немного более сложным, и интерпретация будет более сложной. Здесь есть сообщение об этом: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme
3

Я согласен с другими респондентами, особенно в отношении формы модели. Если я понимаю мотивацию вашего вопроса, однако, вы обращаетесь общие аудитории и хотят передать предметный(теоретический) смысл вашего анализа. Для этого я сравниваю прогнозируемые значения (например, пропущенные предполагаемые дни) по различным «сценариям». Основываясь на выбранной вами модели, вы можете сравнить ожидаемое число или значение зависимой переменной, когда предикторы имеют определенные фиксированные значения (например, их медианы или ноль), а затем показать, как «значимое» изменение предикторов влияет на прогнозы. Конечно, вы должны преобразовать данные обратно в исходный, понятный масштаб, с которого вы начинаете. Я говорю «значимое изменение», потому что часто стандартное «изменение одной единицы в X» не отражает реального импорта или отсутствия независимой переменной. С «данными о посещаемости» я не уверен, что такое изменение будет. (Если студент не пропустил ни одного дня в 2010 году и один день в 2011 году, Я не уверен, что мы чему-то научимся. Но я не знаю.)

thereasonableprogressive
источник
2

Если у нас есть модель , то мы можем ожидать, что увеличение на 1 единицу увеличению ab на единицу Y. Вместо этого, если мы имеем , то мы ожидаем увеличение на 1 процент. для получения единица увеличения Y.X Y = b log ( X ) X b log ( 1.01 )Y=bXXY=blog(X)Xblog(1.01)

Редактировать: упс, не понял, что ваша зависимая переменная также была преобразована в лог. Вот ссылка с хорошим примером, описывающим все три ситуации:

1) преобразуется только Y 2) преобразуются только предикторы 3) преобразуются как Y, так и предикторы

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

JCWong
источник
1
Привет JC, спасибо за ваш ответ. Я использовал подход преобразования как зависимых, так и независимых переменных для согласованности, но я читал, что для нормального преобразования требуется только DV, по сравнению с его IV.
ДжимБоб
Я действительно видел ссылку, которую вы предложили (спасибо, но), но не совсем ясно по нескольким пунктам, особенно в отношении сравнения среднего геометрического с «реальной», но я думаю, что использование среднего геометрического больше связано с моделированием влияние изменения х на у, а не результат у на единицу изменения х? Я думаю, что мне нужно вернуться и дать ему второе чтение ...
JimBob
2

Я часто использую log-преобразование, но я склонен использовать двоичные ковариаты, потому что это приводит к естественной интерпретации с точки зрения множителей. Предположим, вы хотите предсказать , например, 3 бинарные ковариаты , и принимающие значения в . Теперь вместо представления:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

Вы можете просто показать:

YC M1X1 M2X2 M3X3 ,

где: , и являются множителями. То есть каждый раз, когда ковариата равна 1, прогноз умножается на . Например, если , и , ваш прогноз:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Я использую , потому что это не совсем предсказание среднего : средний показатель распределения логнормальном вообще говоря, не среднее значение случайной величины (как это имеет место для классической линейной регрессии без лог-преобразование). У меня нет точной ссылки здесь, но я думаю, что это простое рассуждение.Y

Гийом
источник
3
Вам не нужно беспокоиться о логнормальных проблемах: множители верны независимо. (Будет проблема с гетероскедастическими моделями.) Это потому, что где - дисперсия . Кстати, пожалуйста, просмотрите ваши определения для опечаток. E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber