Время, проведенное в деятельности в качестве независимой переменной

14

Я хочу включить время, потраченное на выполнение чего-либо (например, недели грудного вскармливания), в качестве независимой переменной в линейную модель. Тем не менее, некоторые наблюдения не участвуют в поведении вообще. Кодировать их как 0 на самом деле неправильно, потому что 0 качественно отличается от любого значения> 0 (т.е. женщины, которые не кормят грудью, могут сильно отличаться от женщин, которые делают это, даже те, кто не делает это очень долго). Лучшее, что я могу придумать, это набор манекенов, которые классифицируют потраченное время, но это пустая трата ценной информации. Нечто вроде Пуассона с нулевым надуванием также кажется возможным, но я не могу точно понять, как это будет выглядеть в этом контексте. У кого-нибудь есть предложения?

DL Dahly
источник

Ответы:

16

Чтобы немного расширить ответ @ ken-butler. Добавляя как непрерывную переменную (часы), так и переменную индикатора для специального значения (часы = 0 или не кормление грудью), вы думаете, что существует линейный эффект для «нестандартного» значения и дискретный скачок в прогнозируемый результат по особой стоимости. Это помогает (по крайней мере, мне) смотреть на график. В приведенном ниже примере мы моделируем почасовую заработную плату как функцию часов в неделю, которую работают респонденты (все женщины), и мы думаем, что есть что-то особенное в «стандартных» 40 часах в неделю:

введите описание изображения здесь

Код, который создал этот график (в Stata), можно найти здесь: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Таким образом, в этом случае мы присвоили непрерывной переменной значение 40, хотя мы хотели, чтобы ее обрабатывали иначе, чем другие значения. Точно так же вы дадите неделям грудное вскармливание значение 0, даже если вы думаете, что оно качественно отличается от других значений. Я интерпретирую ваш комментарий ниже, что вы думаете, что это проблема. Это не так, и вам не нужно добавлять термин взаимодействия. Фактически, этот термин взаимодействия будет отброшен из-за идеальной коллинеарности, если вы попытаетесь. Это не ограничение, оно просто говорит вам, что условия взаимодействия не добавляют никакой новой информации.

Скажем, ваше уравнение регрессии выглядит так:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Где является число недель грудного вскармливания ( в том числе значение 0 для тех , которые не кормят грудью) и п о п _ Ь т е ы т е e e d i n g является индикаторной переменной, которая равна 1, когда кто-то не кормит грудью, и 0 в противном случае.weeks_breastfeedingnon_breastfeeding

Подумайте, что происходит, когда кто-то кормит грудью. Уравнение регрессии упрощается до:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Таким образом, - это просто линейный эффект количества недель грудного вскармливания для тех, кто кормит грудью.β1

Подумайте, что происходит, когда кто-то не кормит грудью:

y^=β10+β21+=β2+

Таким образом, дает эффект отказа от грудного вскармливания, и количество недель грудного вскармливания падает из уравнения.β2

Вы можете видеть, что нет смысла добавлять термин взаимодействия, поскольку этот термин взаимодействия уже (неявно) уже присутствует.

β2weeks_breastfeedingweeks_breastfeedingβ2

Мартен Буис
источник
1
Я ценю ответ (и другие), но мне трудно принять его. Если я включу 1: 0 и непрерывную переменную времени, мне все равно придется присваивать не кормящим грудью значение времени (иначе они упадут для отсутствующей ко-вариации). Даже при условии переменной 1: 0, я не вижу, как включение не кормящих грудью, поскольку время = 0 не влияет на коэффициент регрессии. Возможно, добавление термина взаимодействия продукта между ними будет иметь больше смысла?
DL Dahly
@DLDahly Я отредактировал свой ответ, чтобы справиться с этими сомнениями
Мартен Буис
Хорошо, это очень полезно. Позвольте мне спросить еще одно быстрое продолжение ... если я правильно вас понимаю, то оценочное значение для B1 должно быть одинаковым, независимо от того, какое значение времени я даю для B2 = 1 человек. Это правильно?
DL Dahly
1
Очень хороший ответ, Мартен. Вот похожий вопрос / ответ на сайте, который показывает аналогичную ситуацию с включением независимой переменной, которая относится только к определенной подгруппе .
Энди W
1
@ GavinM.Jones Я никогда не думал о необходимости назвать его или процитировать это: это просто прямое применение непрерывных и индикаторных переменных. Следовательно, у меня нет хорошей ссылки для вас. Закрытие, которое я мог бы быстро выкопать, это Treiman, DJ (2009): Количественный анализ данных. Проведение социальных исследований для проверки идей. Сан-Франциско: Джози-Басс. В главе 7 обсуждается нечто подобное. Модель содержит константу.
Мартен Буис
6

Что-то простое: представьте вашу переменную с помощью индикатора 1/0 для любого / ничего и фактического значения. Положите оба в регрессию.

Кен Батлер
источник
4

Если вы поместите двоичный индикатор для любого затраченного времени (= 1) по сравнению с не затраченным временем (= 0), а затем укажите количество времени, потраченного как непрерывную переменную, другой эффект «0» раз будет подобран "по показателю 0-1

Glen_b - Восстановить Монику
источник
2

Вы можете использовать модели смешанных эффектов с группировкой, которая основана на 0 времени против ненулевого времени, и сохранить свою независимую переменную

rezakhorshidi
источник
Не могли бы вы подробнее остановиться на этом? Большое спасибо.
DL Dahly
модель смешанных эффектов предполагает наличие фактора, который делит данные на разные (разнородные) группы, в каждом из которых мы можем иметь разные отношения между объясняющими и зависимыми переменными (в терминах: перехват или перехват и наклон / коэффициент). en.wikipedia.org/wiki/Mixed_model
Резахоршиди
Так использовать индивидуумов, вложенных в статус грудного вскармливания, а затем случайный уклон на недели грудного вскармливания? Я мог бы сделать это как SEM достаточно легко и протестировать определенные ограничения. Спасибо +1
DL Dahly
1

Если вы используете Случайный лес или Нейронную сеть, установите для этого числа значение 0, это нормально, потому что они смогут определить, что 0 отчетливо отличается от других значений (если оно на самом деле отличается). Другой способ заключается в добавлении категориальной переменной yes / no в дополнение к временной переменной.

Но в целом, в данном конкретном случае я не вижу реальной проблемы - 0,1 недели грудного вскармливания близки к 0, и эффект будет очень похожим, поэтому для меня это выглядит как довольно непрерывная переменная, где 0 не выделяется как нечто различны.

sashkello
источник
3
+1 за первый абзац, но в отношении социальных наук или медицинских данных, эффект 0 против 0,1 недели чего-либо - не главное беспокойство. Дело в том, что женщины, которые вообще не пытаются или не сообщают о грудном вскармливании, могут систематически отличаться во многих других отношениях (проблемы со здоровьем, доход, семейное положение, способность остаться без работы, доступ к медицинским услугам, где они получали информацию о воспитание детей и т. д.) Нет никаких оснований полагать, что эти женщины очень похожи на матерей, которые пытаются кормить грудью и быстро ее прекращают.
Гала
1
С точки зрения статистики, было бы лучше поместить эти другие переменные явно в вашу модель, но имеет смысл быть осторожным, предполагая, что в 0 ничего особенного не происходит, я думаю.
Гала
0

Думаю, вам нужна модель Tobit .

Марк Т Паттерсон
источник
5
Тобиты используются, когда результат подвергается цензуре выше или ниже некоторого порога. Например, мы не наблюдаем какую-либо заработную плату ниже минимальной заработной платы или доходы выше некоторой закодированной величины. Это приложение для независимой переменной.
Дмитрий Владимирович Мастеров