Несколько месяцев назад я стажировался в этой организации; и, как уходящий подарок, я решил потратить мою последнюю неделю, в любое свободное время, чтобы исследовать факторы, которые влияют на зарплату учителей. Одна проблема, с которой я столкнулся с зарплатами учителей, состояла в том, что распределение для данного штата было искажено. У меня было много наблюдений, которые цеплялись за нижнюю границу спектра заработной платы. Я попытался решить эту проблему, включив сопоставимый индекс заработной платы в мою зависимую переменную (заработная плата учителя), но результаты, которые я нашел, были полностью устаревшими для объема моего проекта. Вместо этого я решил записать свою зависимую переменную. Это было хорошо, потому что теперь моя зарплата имела нормальное распределение, и она просто выглядела идеально на гистограмме. Когда я начал тестирование, я дошел до того, что остался с последней независимой переменной - декларацией о налоге на имущество. Проблема с моей нормативной заработной платой была также очевидна в моих наблюдениях за уплатой налога на недвижимость. У меня был огромный перекос номеров налоговых деклараций на недвижимость в нижней части спектра. Итак, я зарегистрировал эту переменную, и она все еще прошла тест на нулевую гипотезу.
Я не уверен, что это точно правильно, но сравнение изменения одной зарегистрированной переменной с другой зарегистрированной переменной дало мне эластичность. Предполагая, что это правильно, мое уравнение регрессии (что-то вроде LogWages = B0 + B1 (LogPropertyTaxReturns)) показывает эластичность между двумя переменными. Это имеет смысл, хотя? Если моя цель состояла в том, чтобы выяснить, какая переменная больше всего влияет на заработную плату учителей в каком-либо конкретном округе моего штата, то помогает ли показать эластичность между двумя переменными? Мы хотим поднять округа с самыми низкими зарплатами учителей выше, чтобы повысить их уровень жизни, но я боюсь, что я экстраполировал настолько далеко от реальных наблюдений, что мое заключительное уравнение регрессии не имеет смысла.
Редактировать: один из моих больших страхов заключается в том, что я должен был использовать нелинейную модель, чтобы показать отношения. Я чувствую, что принуждение как зависимой, так и независимой переменной к сотрудничеству в этой линейной регрессии в некотором смысле вводит в заблуждение.
источник
Ответы:
Ответ на вопрос - да, он действительно имеет смысл (по крайней мере, математически). Если вы оцениваете линейное уравнение
Вообще говоря, линейные преобразования влияют только на интерпретацию, данную коэффициентам, но действительность самой регрессии (в широком экономическом выражении) определяется предположениями модели и анализируемыми экономическими явлениями.
источник
Я предполагаю, что ваш вопрос заключается в том, имеет ли смысл использовать эту функциональную форму в вашей конкретной модели. Сложно сказать. Как и в случае любой обычной линейной регрессии, вы делаете предположение о функциональной форме. По крайней мере, вы можете думать об этом как о линейном приближении, которое имеет больше смысла после преобразования log-log.
источник
Обратите внимание, что в качестве представления «истинного» принятия базовых решений все преобразования, которые приводят к линейной регрессии, являются ошибочными. На самом деле все модели будут ошибаться. Вопрос на самом деле: полезна ли статистика, полученная из этой модели, для вашей проблемы ? Если ваше исследование сосредоточено на определении базовой модели, это момент, который говорит вам что-то интересное об этой более глубокой модели? Если вы в большей степени ориентированы на политику, приблизит ли аппроксимация с постоянной эластичностью вас к истине, что дальнейшие улучшения не имеют значения? Либо чрезвычайно сложные вопросы, на которые нужно ответить как стороннему наблюдателю. Но если единственная альтернатива, о которой вы беспокоитесь, это переменная эластичность, то тест, который я описал выше, может дать вам некоторое спокойствие.
источник
Другие ответы касались основных вопросов, я хотел бы ответить на «Правку», сделанную ФП в вопросе:
Мы склонны забывать, что «преобразование переменной» приводит к новой переменной , поведение которой может быть совершенно отличным от «первоначальной». Самый простой пример - сравнить графики переменной и ее квадрата.
Таким образом , с учетом натуральных логарифмов вашего переменными, больше не рассматривать в отношениях между ними , но в связи между некоторой функцией из них.
К счастью , математическое понятие «логарифм» может быть связано с понятием «эластичность», которое описывает отношение между процентными изменениями, которое мы понимаем с экономической точки зрения и можем осмысленно интерпретировать и использовать.
Если можно разумно сказать, что переменные демонстрируют «линейные отношения в логарифмах», это означает, что их уровни (то есть фактические переменные) имеют нелинейные отношения:
Так почему бы не оценить нелинейную модель?
В (математическом) принципе нет причин, почему бы и нет. Некоторые практические вопросы:
1) Существует слишком много форм нелинейных отношений, есть только одна линейная связь (структурно говоря). Это вопрос «затрат на поиск» для наиболее подходящей спецификации.
2) Полученные нелинейные отношения могут не иметь четкого экономического объяснения. Почему это проблема? Потому что мы не раскрываем здесь «законы природы», неизменные во времени и пространстве. Мы приближаем социальный феномен. Наличие аппроксимации, которая, кроме того, может быть представлена только в виде математической формулы, без экономических обоснований, которые ее подтверждают и подтверждают, делают результат очень слабым.
3) Нелинейная оценка менее стабильна с точки зрения механики алгоритма оценки.
источник
Я бы сказал, что ваша модель в этом случае не имеет смысла, если ваша « цель состояла в том, чтобы выяснить, какая переменная больше всего повлияла на зарплату учителей в любом конкретном округе моего штата ». Вы только что показали, какова взаимосвязь (журналы) заработной платы и налоговых деклараций на недвижимость. Вы должны по крайней мере использовать множественную регрессию.
Конечно, вы могли бы продолжать и разрабатывать полноценную, правильную стратегию идентификации с соответствующими методологическими инструментами, чтобы оценить интенсивность каждого причинного эффекта и найти самый большой ... В действительности вы, скорее всего, не сможете сделать это с учетом сложности такой задачи. Это просто континуум уточнений, и вы близки к самой грубой из возможных моделей, используемых для объяснения заработной платы, очень далеко от того, что я бы посчитал приемлемым приближением ответа на вопрос, скрытый в вашей цели. Вы должны попытаться заручиться помощью экономиста.
источник