Моя ситуация такова:
У меня есть 1 непрерывная зависимая и 1 непрерывная предикторная переменная, которую я логарифмически преобразовал, чтобы нормализовать их остатки для простой линейной регрессии.
Буду признателен за любую помощь в том, как я могу связать эти преобразованные переменные с их исходным контекстом.
Я хочу использовать линейную регрессию, чтобы предсказать количество дней, которые ученики пропустили в школе в 2011 году, исходя из количества дней, которые они пропустили в 2010 году. Большинство учеников пропускают 0 дней или несколько дней, когда данные положительно искажены влево. Следовательно, существует необходимость в преобразовании для использования линейной регрессии.
Я использовал log10 (var + 1) для обеих переменных (я использовал +1 для учеников, которые пропустили 0 дней в школе). Я использую регрессию, потому что я хочу добавить категориальные факторы - пол / этническая принадлежность и т. Д.
Моя проблема:
Аудитория, к которой я хочу обратиться, не поймет log10 (y) = log (постоянная) + log (var2) x (и, честно говоря, я тоже не понимаю).
Мои вопросы:
а) Существуют ли лучшие способы интерпретации преобразованных переменных в регрессии? Т.е. за 1 день, пропущенный в 2010 году, они пропустят 2 дня в 2011 году, в отличие от того, что когда-либо за 1 смену бревна в 2010 году произойдет изменение x бревен в 2011 году?
б) В частности, учитывая приведенный отрывок из этого источника следующим образом:
«Это отрицательная оценка биномиальной регрессии для увеличения единичной оценки по математике на одну единицу, учитывая, что другие переменные в модели остаются постоянными. Если ученик должен был увеличить свою оценку по математике на одно очко, разница в журналах Ожидается, что ожидаемое число уменьшится на 0,0016 единицы, при этом остальные переменные в модели будут постоянными ».
Я бы хотел знать:
- Говорит ли этот отрывок о том, что на каждую единицу увеличения оценки
UNTRANSFORMED
переменной математика приводит к уменьшению на 0,0016 от постоянной (а), поэтому, еслиUNTRANSFORMED
оценка по математике возрастает на два пункта, я вычитаю 0,0016 * 2 из константы а? - Означает ли это, что я получаю среднее геометрическое, используя экспоненциальную (а) и экспоненциальную (а + бета * 2), и что мне нужно вычислить процентную разницу между этими двумя, чтобы сказать, какой эффект имеет переменная (и) предиктора есть на зависимой переменной?
- Или я правильно понял?
Я использую SPSS v20. Извините за создание этого в длинном вопросе.
R
есть пакеты для моделей с нулевым раздуванием; ищите этот сайт .)Ответы:
Я думаю, что более важный момент предлагается в комментарии @ whuber. Весь ваш подход неверен, потому что, взяв логарифмы, вы фактически выбрасываете из набора данных любых учеников с нулевым отсутствием дней в 2010 или 2011 году. Похоже, этих людей достаточно, чтобы быть проблемой, и я уверен, что ваши результаты будут быть неправым, основываясь на подходе, который вы принимаете.
Вместо этого вам нужно согласовать обобщенную линейную модель с пуассоновским откликом. SPSS не может сделать это, если вы не заплатили за соответствующий модуль, поэтому я бы предложил перейти на R.
У вас все еще будет проблема интерпретации коэффициентов, но это вторично по отношению к важности наличия модели, которая в основном подходит.
источник
Я согласен с другими респондентами, особенно в отношении формы модели. Если я понимаю мотивацию вашего вопроса, однако, вы обращаетесь общие аудитории и хотят передать предметный(теоретический) смысл вашего анализа. Для этого я сравниваю прогнозируемые значения (например, пропущенные предполагаемые дни) по различным «сценариям». Основываясь на выбранной вами модели, вы можете сравнить ожидаемое число или значение зависимой переменной, когда предикторы имеют определенные фиксированные значения (например, их медианы или ноль), а затем показать, как «значимое» изменение предикторов влияет на прогнозы. Конечно, вы должны преобразовать данные обратно в исходный, понятный масштаб, с которого вы начинаете. Я говорю «значимое изменение», потому что часто стандартное «изменение одной единицы в X» не отражает реального импорта или отсутствия независимой переменной. С «данными о посещаемости» я не уверен, что такое изменение будет. (Если студент не пропустил ни одного дня в 2010 году и один день в 2011 году, Я не уверен, что мы чему-то научимся. Но я не знаю.)
источник
Если у нас есть модель , то мы можем ожидать, что увеличение на 1 единицу увеличению ab на единицу Y. Вместо этого, если мы имеем , то мы ожидаем увеличение на 1 процент. для получения единица увеличения Y.X Y = b log ( X ) X b log ( 1.01 )Y=bX X Y=blog(X) X blog(1.01)
Редактировать: упс, не понял, что ваша зависимая переменная также была преобразована в лог. Вот ссылка с хорошим примером, описывающим все три ситуации:
1) преобразуется только Y 2) преобразуются только предикторы 3) преобразуются как Y, так и предикторы
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
источник
Я часто использую log-преобразование, но я склонен использовать двоичные ковариаты, потому что это приводит к естественной интерпретации с точки зрения множителей. Предположим, вы хотите предсказать , например, 3 бинарные ковариаты , и принимающие значения в . Теперь вместо представления:X 1 X 2 X 3 { 0 , 1 }Y X1 X2 X3 {0,1}
Вы можете просто показать:
где: , и являются множителями. То есть каждый раз, когда ковариата равна 1, прогноз умножается на . Например, если , и , ваш прогноз:M1=eW1 M2=eW2 M3=eW3 Xi Mi X1=0 X2=1 X3=1
Я использую , потому что это не совсем предсказание среднего : средний показатель распределения логнормальном вообще говоря, не среднее значение случайной величины (как это имеет место для классической линейной регрессии без лог-преобразование). У меня нет точной ссылки здесь, но я думаю, что это простое рассуждение.≊ Y
источник