Чтобы немного расширить ответ @ ken-butler. Добавляя как непрерывную переменную (часы), так и переменную индикатора для специального значения (часы = 0 или не кормление грудью), вы думаете, что существует линейный эффект для «нестандартного» значения и дискретный скачок в прогнозируемый результат по особой стоимости. Это помогает (по крайней мере, мне) смотреть на график. В приведенном ниже примере мы моделируем почасовую заработную плату как функцию часов в неделю, которую работают респонденты (все женщины), и мы думаем, что есть что-то особенное в «стандартных» 40 часах в неделю:
Код, который создал этот график (в Stata), можно найти здесь: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Таким образом, в этом случае мы присвоили непрерывной переменной значение 40, хотя мы хотели, чтобы ее обрабатывали иначе, чем другие значения. Точно так же вы дадите неделям грудное вскармливание значение 0, даже если вы думаете, что оно качественно отличается от других значений. Я интерпретирую ваш комментарий ниже, что вы думаете, что это проблема. Это не так, и вам не нужно добавлять термин взаимодействия. Фактически, этот термин взаимодействия будет отброшен из-за идеальной коллинеарности, если вы попытаетесь. Это не ограничение, оно просто говорит вам, что условия взаимодействия не добавляют никакой новой информации.
Скажем, ваше уравнение регрессии выглядит так:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Где является число недель грудного вскармливания ( в том числе значение 0 для тех , которые не кормят грудью) и п о п _ Ь т е ы т е e e d i n g является индикаторной переменной, которая равна 1, когда кто-то не кормит грудью, и 0 в противном случае.weeks_breastfeedingnon_breastfeeding
Подумайте, что происходит, когда кто-то кормит грудью. Уравнение регрессии упрощается до:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Таким образом, - это просто линейный эффект количества недель грудного вскармливания для тех, кто кормит грудью.β1
Подумайте, что происходит, когда кто-то не кормит грудью:
y^=β10+β21+⋯=β2+⋯
Таким образом, дает эффект отказа от грудного вскармливания, и количество недель грудного вскармливания падает из уравнения.β2
Вы можете видеть, что нет смысла добавлять термин взаимодействия, поскольку этот термин взаимодействия уже (неявно) уже присутствует.
β2weeks_breastfeedingweeks_breastfeedingβ2
Что-то простое: представьте вашу переменную с помощью индикатора 1/0 для любого / ничего и фактического значения. Положите оба в регрессию.
источник
Если вы поместите двоичный индикатор для любого затраченного времени (= 1) по сравнению с не затраченным временем (= 0), а затем укажите количество времени, потраченного как непрерывную переменную, другой эффект «0» раз будет подобран "по показателю 0-1
источник
Вы можете использовать модели смешанных эффектов с группировкой, которая основана на 0 времени против ненулевого времени, и сохранить свою независимую переменную
источник
Если вы используете Случайный лес или Нейронную сеть, установите для этого числа значение 0, это нормально, потому что они смогут определить, что 0 отчетливо отличается от других значений (если оно на самом деле отличается). Другой способ заключается в добавлении категориальной переменной yes / no в дополнение к временной переменной.
Но в целом, в данном конкретном случае я не вижу реальной проблемы - 0,1 недели грудного вскармливания близки к 0, и эффект будет очень похожим, поэтому для меня это выглядит как довольно непрерывная переменная, где 0 не выделяется как нечто различны.
источник
Думаю, вам нужна модель Tobit .
источник