Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .
В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов соответственно.
Есть ли эмпирическое правило, когда использовать или { 1 , - 1 } ?
Чем отличается интерпретация?
binary-data
categorical-encoding
cecefuss
источник
источник
Ответы:
Интерпретация как оценки переменной индикатора, так и точки пересечения отличается. Давайте начнем с :{1,0}
Скажем, у вас есть следующая модель
где
В этом случае вы получите следующие формулы для :yi
Таким образом, интерпретация - это эффект плацебо, а интерпретация β 1 - это разница между эффектом плацебо и эффектом препарата. По сути, вы можете интерпретировать β 1 как улучшение, которое предлагает препарат.β0 β1 β1
Теперь давайте посмотрим на :{−1,1}
Затем у вас есть следующая модель (снова):
но где
В этом случае вы получите следующие формулы для :yi
Интерпретация здесь заключается в том, что представляет собой среднее значение эффекта плацебо и лекарственного средства, а β 1 представляет собой разницу двух обработок с этим значением.β0 β1
Так что вы используете?
Интерпретация в { 0β0 является в основном базовой линией. Вы устанавливаете какой-то стандартный курс лечения, а все остальные процедуры (их может быть несколько) сравниваются с этим стандартом / базовым уровнем. Особенно, когда вы начинаете добавлять другие ковариаты, это остается легко интерпретировать в отношении стандартного медицинского вопроса: как эти препараты сравниваются с плацебо или установленным препаратом?{0,1}
Но, в конце концов, все зависит от толкования, которое я объяснил выше. Таким образом, вы должны оценить свои гипотезы и проверить, какая интерпретация делает вывод выводов наиболее простым.
источник
В контексте линейной регрессииxi∈{0,1} является более естественным (и стандартным) методом для кодирования двоичных переменных (будь то размещение их в левой части правой части регрессии). Как объясняет @Jarko Dubbeldam, вы, конечно, можете использовать другую интерпретацию, и значение коэффициентов будет другим.
Чтобы привести пример другим способом, кодирование выходных переменных является стандартным при программировании или получении математической основыyi∈{−1,1} машин опорных векторов . (При вызове библиотек вы хотите передать данные в формате, который ожидает библиотека, что, вероятно, является формулировкой 0,1).
Попробуйте использовать стандартное обозначение для всего, что вы делаете / используете.
Для любого типа линейной модели с членом-перехватчиком оба метода будут эквивалентны в том смысле, что они связаны простым линейным преобразованием. Математически не имеет значения, используете ли вы матрицу данных или матрицу данных ˜ X = X A, где A - полный ранг. В обобщенных линейных моделей, ваши оценки коэффициентов либо образом будут связаны линейным преобразованием А и подогнанные значения у будут одинаковыми.X X~=XA A A y^
источник
Это более абстрактно (и, возможно, бесполезно), но я отмечу, что эти два представления в математическом смысле фактически являются представлениями группы, и между ними существует изоморфизм.
источник