Я пытаюсь запустить регрессию OLS:
DV: изменение веса за год (начальный вес - конечный вес)
IV: Независимо от того вы занимаетесь спортом.
Тем не менее, кажется разумным, что более тяжелые люди будут терять больше веса на единицу нагрузки, чем более худые люди. Таким образом, я хотел включить переменную управления:
- CV: начальный стартовый вес.
Однако теперь начальный вес используется ОБА для вычисления зависимой переменной И в качестве контрольной переменной.
Это нормально? Это нарушает предположение об OLS?
Ответы:
Чтобы ответить на ваш буквальный вопрос: «Допустимо ли включать базовую меру в качестве контрольной переменной при тестировании влияния независимой переменной на оценки изменений?», Ответ - нет . Ответ - нет, потому что по построению базовый показатель коррелирует с ошибочным термином, когда показатель изменения используется в качестве зависимой переменной, следовательно, предполагаемое влияние базового показателя на показатель изменения не подлежит интерпретации.
С помощью
Затем у модели есть регрессия на и ; T XΔY T X
Который по определению эквивалентен;
Теперь, если вы включите базовую линию как ковариату, вы должны увидеть проблему в том, что у вас есть член с обеих сторон уравнения. Это показывает, что не интерпретируется, поскольку по своей сути коррелирует с ошибкой.β 3 Y 1Y1 β3Y1
Теперь путаница в разных ответах, по-видимому, связана с тем фактом, что разные модели дадут одинаковые результаты для эффекта лечения , в моей приведенной выше формулировке. Таким образом, если сравнивать эффект лечения для модели, используя оценки изменений в качестве зависимой переменной, с моделью, использующей «уровни» (с каждой моделью, включающей базовый уровень как ковариату), интерпретация эффекта лечения будет одно и тоже. В следующих двух моделях будут одинаковыми, как и выводы, основанные на них (Брюс Уивер опубликовал некоторый код SPSS, демонстрирующий также эквивалентность).Y 1 β 1 Tβ1T Y1 β1T
Так что некоторые будут спорить (как это сделал Феликс в этой теме и как Брюс Уивер обсуждал некоторые вопросы в группе Google SPSS).) поскольку модели приводят к одинаковому оценочному эффекту лечения, не имеет значения, какой из них вы выберете. Я не согласен, потому что базовый ковариат в модели оценки изменений не может быть интерпретирован, вы никогда не должны включать базовый уровень в ковариату (независимо от того, является ли оцененный эффект лечения одинаковым или нет). Таким образом, возникает еще один вопрос: какой смысл использовать оценки изменений в качестве зависимых переменных? Как уже отмечал Феликс, модель, использующая оценку изменения в качестве зависимой переменной, исключая базовую линию как ковариату, отличается от модели, использующей уровни. Чтобы уточнить, последующие модели будут давать различные эффекты лечения (особенно в том случае, если лечение коррелирует с исходным уровнем);
Это было отмечено в предшествующей литературе как «парадокс лорда». Так какая модель подходит? Что ж, в случае рандомизированных экспериментов, я бы сказал, что модель уровней предпочтительнее (хотя, если вы хорошо выполнили рандомизацию, средний эффект лечения должен быть очень близок между моделями). Другие отметили причины, по которым модель уровней предпочтительнее . Ответ Чарли дает хорошее представление о том, что вы можете оценить эффекты взаимодействия с базовой линией в модели уровней (но вы не можете в модели оценки изменений). То, что этот ответ на очень похожий вопрос демонстрирует, как оценки изменений вызывают корреляцию между различными методами лечения.
В ситуациях, когда лечение не назначается случайным образом, модели, использующей оценки изменений в качестве зависимой переменной, следует уделять больше внимания. Основным преимуществом модели оценки изменений является то, что контролируются любые не зависящие от времени предикторы результата. Так, скажем, в приведенной выше формулировке постоянно во всем (например, скажем, генетическая предрасположенность к определенному весу), и что соотносится с тем, выбирает ли человек физические упражнения (а не наблюдается). В этом случае модель оценки изменений является предпочтительной. Также в случаях, когда выбор в лечение коррелирует с базовым значением, модель оценки изменения может быть предпочтительной. Пол Эллисон в своей статье,X X X Изменение баллов в качестве зависимых переменных в регрессионном анализе приводит те же примеры (и в значительной степени повлияло на мою точку зрения на эту тему, поэтому я настоятельно рекомендую ее прочитать).
Это не означает, что оценки изменений всегда предпочтительнее в нерандомизированных условиях. В случае, если вы ожидаете, что базовый уровень окажет реальное причинное влияние на вес сообщения, вы должны использовать модель уровней. В случае, если вы ожидаете, что базовый уровень будет иметь причинно-следственный эффект, и выбор лечения коррелирует с базовым уровнем, эффект лечения смешивается с базовым эффектом.
Я проигнорировал примечание Чарли о том, что логарифм веса можно использовать в качестве зависимой переменной. Хотя я не сомневаюсь, что это может быть возможностью, это несколько не является следствием первоначального вопроса. Другой вопрос обсуждался, когда целесообразно использовать логарифмы переменной (и они все еще применяются в этом случае). Вероятно, имеется предшествующая литература по этому вопросу, которая поможет вам определить, подходит ли использование зарегистрированного веса.
цитирование
Allison, Paul D. 1990. Изменение показателей как зависимых переменных в регрессионном анализе . Социологическая методология 20: 93-114. Публичная версия PDF .
источник
Кажется, ответ Энди - это взгляд экономиста на вещи. В клинических испытаниях принято почти всегда корректировать базовую версию переменной отклика, чтобы значительно увеличить мощность. Так как мы определяем базовые переменные, «ошибка» не позволяет их путать с общей ошибкой. Единственная проблема заключается в том, что ошибки измерения в базовой ковариате смешиваются с другим X, искажая эффект этого другого X. Общий предпочтительный метод состоит в том, чтобы скорректировать базовую линию и смоделировать переменную ответа, а не вычислять изменение. Одна из причин этого заключается в том, что изменение сильно зависит от правильного преобразования Y, и это изменение не относится к регрессионным моделям в целом. Например, если Y является порядковым, разница между двумя порядковыми переменными больше не является порядковой.
источник
Мы можем немного изменить рассуждения @ ocram, чтобы
Итак, если это правильная модель , то, говоря, что разница зависит от веса, подразумевается, что конечное значение зависит от начального значения с коэффициентом, который может быть любым. Выполнение регрессии разности по и или конечного веса по одним и тем же переменным должно дать вам одинаковые коэффициенты для всех, кроме . Но если эта модель не совсем верна, эти регрессии дадут другие результаты и для других коэффициентов.x w0 w0
Обратите внимание, что эта установка подразумевает, что начальный вес предсказывает разницу в весах, а не влияние лечения . Для этого потребуется термин взаимодействия, возможно,
Другой подход состоит в том, чтобы вычислить здесь, - скорость роста веса. Это может быть вашим результатом. Ваши коэффициенты на будут говорить вам, как эти предикторы связаны с изменениями пропорций в весе. Это «контролирует» начальный вес, говоря, что, например, режим упражнений, который уменьшает вес на 10% (коэффициент 0,1, умноженный на 100%) для человека, который весит 130 фунтов, уменьшает вес на 13 фунтов, в то время как программа уменьшает вес участника 200 фунтов на 20 фунтов. В этом случае вам может не потребоваться указывать начальный вес (или его журнал) с правой стороны.
Термин взаимодействия все еще может быть необходим, если вы считаете, что влияние программы зависит от стартового веса. Если вы используете в термине взаимодействия, то программа будет связана с изменением скорости роста веса. Каждый фунт, который тяжелее, чем человек был в начале программы, приводит к увеличению скорости роста на (это является кросс-частной производной ожидаемого значения как для лечения, так и для стартового веса).w0 w0β1 β1
Если вы используете в термине взаимодействия, влияние программы увеличивается на для каждого дополнительного фунта, который тяжелее был у участника в начале программы.log(w0) β1/w0
Как вы можете видеть, кросс-партиалы в терминах взаимодействия могут быть немного сложными для интерпретации, но они могут отражать влияние, которое вас интересует.
источник
РЕДАКТИРОВАТЬ: аргумент Энди W убедил меня отказаться от модели C. Я добавил еще одну возможность: анализ изменений с помощью моделей случайных коэффициентов (многоуровневых моделей или моделей со смешанными эффектами)
Было много научных дебатов об использовании различий. Мои любимые тексты - это Рогоза (1982, [1]) и Фицморис, Лэйрд и Уэйр (2004, [2])
В целом, у вас есть три возможности анализа ваших данных:
C) Возьмите разницу в качестве DV и контролируйте ее для базовой линии (это модель, которую вы предложили).Из-за аргументов Энди У, я отбросил эту альтернативуМодели A и B могут давать очень разные результаты, если базовая линия коррелирует с оценкой изменения (например, у более тяжелых людей больше потеря веса), и / или назначение лечения коррелируется с базовой линией.
Если вы хотите узнать больше об этих проблемах, смотрите цитируемые статьи или здесь и здесь .
Также было проведено недавнее имитационное исследование [3], в котором эмпирически сравниваются условия, при которых A или B являются предпочтительными.
Для полностью сбалансированных конструкций без пропущенных значений Модель D должна быть эквивалентна Модели A. Однако она дает вам больше информации об изменчивости между людьми, она легко распространяется на большее количество точек измерения и обладает хорошими свойствами при наличии несбалансированных данных. и / или пропущенные значения.
В итоге: в вашем случае я бы проанализировал пост-меры, контролируемые для базового уровня (Модель B).
[1] Рогоза Д., Брандт Д. и Зимовски М. (1982). Кривая роста подход к измерению изменений. Психологический вестник, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM, & Ware, JH (2004). Прикладной продольный анализ. Хобокен, Нью-Джерси: Wiley.
[3] Petscher, Y., & Schatschneider, C., 2011. Имитационное исследование производительности простых разностных и ковариационно-скорректированных показателей в рандомизированных экспериментальных схемах. Журнал образовательных измерений, 48, 31-43.
источник
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
? Кто показывает эквивалентность B и C?См. Джош Ангрист именно по этому вопросу: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Он идет в основном против включения в вашу модель отстающих DV. В его ответе нет ничего такого, чего нет в ответах выше, но может помочь более краткий ответ на ваш вопрос.
источник
Glymour et al. (2005) рассмотрены с использованием базовой корректировки при анализе оценки изменений. Если изменение в состоянии здоровья предшествовало оценке исходного уровня или имеется большая ошибка измерения в зависимой переменной, они обнаруживают, что смещение может возникнуть, если регрессионная модель, использующая оценку изменения в качестве зависимой переменной, включает в себя базовый ковариат. Ответ Фрэнка Харрелла: «Единственная проблема будет в том случае, если ошибки измерения в базовом ковариате смешиваются с другим X, искажая эффект этого другого X». может отражать тот же уклон, что и адреса Glymour.
Glymour (2005) «Когда базовая корректировка полезна в анализе изменений? Пример с образованием и когнитивными изменениями. Американский журнал эпидемиологии 162: 267-278
источник
Окрам не правильно. Разница в весах не учитывает начальный вес. В частности, начальный вес вычитается путем вычитания из него конечного веса.
Поэтому я бы сказал, что это не нарушает никаких предположений, если вы контролируете исходный вес.
(Та же логика применяется, если вы берете разницу ИМТ и начального ИМТ.)
Обновление
После критики Энди В. позвольте мне быть более формальным о том, почему я прав, а Окрам неправ (по крайней мере, с моей точки зрения).
У каждого человека есть некоторый абсолютный уровень веса (например, около 100 фунтов против 200 фунтов). Пусть будет этим абсолютным весом. Затем начальный вес можно формализовать как а конечный вес - какaw
iw=aw ew=aw+Δw
Таким образом, DV, который ОП хочет использовать, являетсяΔw=iw−ew=aw−aw+Δw=Δw
Другими словами, абсолютный уровень веса (формализованный как ) выпадает из уравнения, представляющего dv, и, следовательно, не загрязняет его (что не соответствует утверждению Энди В.).aw
Если вы хотите принять это во внимание, вам нужно включить его в вашу модель отдельно (как обычный параметр и / или как термин взаимодействия).
Очевидно, что та же самая логика применима к и может быть легко приспособлена к пропорциям, где можно сказать, например: e w = a w ∗ p r o p Δ wΔBMJ ew=aw∗propΔw
источник
Соблюдайте это
эквивалентно
Словом, использование изменения веса (вместо самого конечного веса) в качестве DV уже учитывает начальный вес.
источник