Была обследована случайная выборка населения. Их спросили, придерживаются ли они вегетарианской диеты. Если они ответили «да», их также попросили указать, как долго они питались вегетарианской диетой без перерыва. Я хочу использовать эти данные для расчета средней продолжительности приверженности вегетарианству. Другими словами, когда кто-то становится вегетарианцем, я хочу знать, что в среднем он остается вегетарианцем. Давайте предположим, что:
- Все респонденты дали правильные и точные ответы
- Мир стабилен: популярность вегетарианства не меняется, средняя продолжительность приверженности также не меняется.
Мои рассуждения до сих пор
Мне было полезно проанализировать игрушечную модель мира, где в начале каждого года два человека становятся вегетарианцами. Каждый раз один из них остается вегетарианцем в течение 1 года, а другой в течение 3 лет. Очевидно, что средняя продолжительность приверженности в этом мире составляет (1 + 3) / 2 = 2 года. Вот график, который иллюстрирует пример. Каждый прямоугольник представляет период вегетарианства:
Допустим, мы проводим опрос в середине года 4 (красная линия). Мы получаем следующие данные:
Мы получили бы те же данные, если бы приняли участие в опросе в любой год, начиная с года 3. Если мы просто усредним ответы, которые мы получим:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Мы недооцениваем, потому что предполагаем, что все перестали быть вегетарианцами сразу после опроса, что, очевидно, неверно. Чтобы получить оценку, которая ближе к реальному среднему времени, в течение которого эти участники оставались бы вегетарианцами, мы можем предположить, что в среднем они сообщили о времени примерно в середине своего периода вегетарианства и умножили сообщенные длительности на 2. В большом опросе случайным образом от населения (как тот, который я анализирую), я думаю, что это реалистичное предположение. По крайней мере, это дало бы правильное ожидаемое значение. Однако, если удвоение - единственное, что мы делаем, мы получаем среднее значение 2,5, что является завышенным значением. Это связано с тем, что чем дольше человек остается вегетарианцем, тем больше вероятность того, что он окажется в выборке нынешних вегетарианцев.
Тогда я подумал, что вероятность того, что кто-то входит в выборку нынешних вегетарианцев, пропорциональна их продолжительности вегетарианства. Чтобы учесть эту предвзятость, я попытался разделить число текущих вегетарианцев на их предполагаемую продолжительность приверженности:
Однако это также дает неверное среднее значение:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 года
Это дало бы правильную оценку, если бы число вегетарианцев было разделено на их правильную длину приверженности:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 года
Но это не сработает, если я использую предсказанные длины приверженности, и они - все, что у меня есть на самом деле. Я не знаю, что еще попробовать. Я немного читал об анализе выживания, но я не уверен, как применять его в этом случае. В идеале я также хотел бы рассчитать 90% доверительный интервал. Любые советы будут с благодарностью.
РЕДАКТИРОВАТЬ: Возможно, что вопрос выше не имеет ответа. Но было также другое исследование, в котором был задан вопрос о случайной выборке людей, были ли они / были вегетарианцами и сколько раз они были вегетарианцами в прошлом. Я также знаю возраст каждого в обоих исследованиях и некоторых других вещах. Возможно, эту информацию можно использовать в связи с опросом нынешних вегетарианцев, чтобы как-то получить среднее. На самом деле, исследование, о котором я говорил, является лишь одним из кусочков головоломки, но очень важным, и я хочу извлечь из него больше пользы.
источник
Ответы:
Пусть обозначает pdf длины приверженности вегетарианства среди населения. Наша цель - оценить .fX(x) Икс EX=∫∞0xfX(x)dx
R код, моделирующий данные и реализующий оба метода:
источник
(Я не стал добавлять это, так как, похоже, @JarleTufto уже дал хороший математический подход; однако я не достаточно умен, чтобы понять его ответ, и теперь мне интересно, если это точно такой же подход, или если подход, который я опишу ниже, когда-либо имеет свое применение.)
То, что я хотел бы сделать, это угадать среднюю длину и угадать несколько распределений вокруг нее, а затем для каждого сделать имитацию моей популяции и регулярно проверять ее.
Вы сказали, что общая численность вегетарианцев не меняется, поэтому каждый раз, когда моя модель останавливается, создается новый вегетарианец. Нам нужно запустить модель в течение нескольких смоделированных лет, чтобы убедиться, что она установлена, прежде чем мы сможем начать выборку. После этого я думаю, что вы можете брать образцы каждый смоделированный месяц (*), пока у вас не будет достаточно, чтобы сформировать свой 90% доверительный интервал.
*: или любое другое разрешение, которое работает с вашими данными. Если люди давали свой ответ на ближайший год, выборка каждые 6 месяцев достаточно хороша.
Из всех ваших предположений вы выбираете среднее значение и распределение, которое (усредненное по всем взятым выборкам) дает вам наиболее близкий результат к тому, что дало ваше реальное исследование.
Я хотел бы повторить свои догадки несколько раз, чтобы выбрать лучший матч.
Лучший дистрибутив не может быть однопиковым. Бывших вегетарианцев, о которых я лично могу думать, остановили из-за серьезных изменений в образе жизни (как правило, брак / проживание в не-вегетарианской или переездной стране, тяжелое заболевание и врач, предполагающий, что это может быть диета); с другой стороны - сила привычки: чем дольше вы были вегетарианцем, тем больше у вас шансов остаться им. Если бы ваши данные содержали запрос о возрасте и статусе отношений, мы могли бы добавить это и в вышеприведенную симуляцию.
источник