Как рассчитать среднюю продолжительность приверженности вегетарианству, когда у нас есть только данные опросов о текущих вегетарианцах?

16

Была обследована случайная выборка населения. Их спросили, придерживаются ли они вегетарианской диеты. Если они ответили «да», их также попросили указать, как долго они питались вегетарианской диетой без перерыва. Я хочу использовать эти данные для расчета средней продолжительности приверженности вегетарианству. Другими словами, когда кто-то становится вегетарианцем, я хочу знать, что в среднем он остается вегетарианцем. Давайте предположим, что:

  • Все респонденты дали правильные и точные ответы
  • Мир стабилен: популярность вегетарианства не меняется, средняя продолжительность приверженности также не меняется.

Мои рассуждения до сих пор

Мне было полезно проанализировать игрушечную модель мира, где в начале каждого года два человека становятся вегетарианцами. Каждый раз один из них остается вегетарианцем в течение 1 года, а другой в течение 3 лет. Очевидно, что средняя продолжительность приверженности в этом мире составляет (1 + 3) / 2 = 2 года. Вот график, который иллюстрирует пример. Каждый прямоугольник представляет период вегетарианства:

иллюстрация

Допустим, мы проводим опрос в середине года 4 (красная линия). Мы получаем следующие данные:

стол

Мы получили бы те же данные, если бы приняли участие в опросе в любой год, начиная с года 3. Если мы просто усредним ответы, которые мы получим:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Мы недооцениваем, потому что предполагаем, что все перестали быть вегетарианцами сразу после опроса, что, очевидно, неверно. Чтобы получить оценку, которая ближе к реальному среднему времени, в течение которого эти участники оставались бы вегетарианцами, мы можем предположить, что в среднем они сообщили о времени примерно в середине своего периода вегетарианства и умножили сообщенные длительности на 2. В большом опросе случайным образом от населения (как тот, который я анализирую), я думаю, что это реалистичное предположение. По крайней мере, это дало бы правильное ожидаемое значение. Однако, если удвоение - единственное, что мы делаем, мы получаем среднее значение 2,5, что является завышенным значением. Это связано с тем, что чем дольше человек остается вегетарианцем, тем больше вероятность того, что он окажется в выборке нынешних вегетарианцев.

Тогда я подумал, что вероятность того, что кто-то входит в выборку нынешних вегетарианцев, пропорциональна их продолжительности вегетарианства. Чтобы учесть эту предвзятость, я попытался разделить число текущих вегетарианцев на их предполагаемую продолжительность приверженности:

еще один стол

Однако это также дает неверное среднее значение:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 года

Это дало бы правильную оценку, если бы число вегетарианцев было разделено на их правильную длину приверженности:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 года

Но это не сработает, если я использую предсказанные длины приверженности, и они - все, что у меня есть на самом деле. Я не знаю, что еще попробовать. Я немного читал об анализе выживания, но я не уверен, как применять его в этом случае. В идеале я также хотел бы рассчитать 90% доверительный интервал. Любые советы будут с благодарностью.

РЕДАКТИРОВАТЬ: Возможно, что вопрос выше не имеет ответа. Но было также другое исследование, в котором был задан вопрос о случайной выборке людей, были ли они / были вегетарианцами и сколько раз они были вегетарианцами в прошлом. Я также знаю возраст каждого в обоих исследованиях и некоторых других вещах. Возможно, эту информацию можно использовать в связи с опросом нынешних вегетарианцев, чтобы как-то получить среднее. На самом деле, исследование, о котором я говорил, является лишь одним из кусочков головоломки, но очень важным, и я хочу извлечь из него больше пользы.

Саулюс Шимчикас
источник
1
Это не вариант, банкомат. Эти данные определенно свидетельствуют о продолжительности приверженности, я просто не знаю, как их использовать.
Саулюс Шимчикас
1
По крайней мере одно из ваших изображений исчезло (ошибка 403 при использовании URL).
Баррикартер
2
@kjetilbhalvorsen Для проблемы не имеет значения, продолжают ли вегетарианцы быть вегетарианцами на всю жизнь. В какой-то момент они перестанут быть вегетарианцами, либо есть мясо, либо умирать.
Пер
4
@kjetil Ваш комментарий «настоящих вегетарианцев» звучит как « Настоящий шотландец» . Обычное определение вегетарианца ничего не говорит ни о том, что может произойти в будущем, ни о том, почему кто-то вегетарианец, но только об их поведении во время рассмотрения этого атрибута. Если кто-то сейчас вегетарианец, он сейчас вегетарианец, по какой-то причине он один. Я не думаю, что наши личные чувства по поводу идеи поедания мяса или причины, по которым мы могли бы чувствовать, что мы делаем, - это тема здесь; они принадлежат где-то еще.
Glen_b
2
Поскольку люди, которые являются вегетарианцами дольше, с большей вероятностью будут выбраны для появления в вашей выборке, это означает, что функция плотности вероятности ваших выборочных данных пропорциональна единице за вычетом кумулятивной функции распределения длин сцепления. Чтобы сделать пример из вашего примера, распределение длин составляет [0, 0,5, 0, 0,5] (50% длится в течение 1 года, 50% в течение 3 лет), давая CDF [0, 0,5, 0,5, 1 ], с одним минусом, равным [1, 0,5, 0,5, 0], который пропорционален подсчетам [2, 1, 1, 0] вашего образца.
PhiNotPi

Ответы:

10

Пусть обозначает pdf длины приверженности вегетарианства среди населения. Наша цель - оценить .fX(x)ИксEX=0xfX(x)dx

SXX

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS
fZ|X=x(z)=1x,0<z<x.
Z
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

введите описание изображения здесь

fZ(z)fX(0)=FX(0)>0fZ(0)EXEX в таких ситуациях без дополнительных предположений кажется трудным, в основном потому, что короткое время присоединения, присутствующее в этой ситуации, едва ли проявляется в наблюдаемых данных в результате смещенной выборки.

fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

R код, моделирующий данные и реализующий оба метода:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)
Ярле Туфто
источник
1
Привет, большое спасибо за ответ, я еще не нашел время, чтобы понять все, просто хотел добавить, что я знаю общее распространение из этого другого исследования. (единственная проблема другого исследования заключалась в том, что он заставлял людей выбирать между вариантами того, как долго они были вегетарианцами, и один из вариантов был «более 10 лет», а среднее значение почти полностью зависит от того, сколько человек старше 10 лет. оставаться вегетарианцем)
Саулюс Шимчикас
Хорошо, я надеюсь, что в моих рассуждениях нет серьезных недостатков. Я вижу, что @PhiNotPi приходит к тому же pdf в своем комментарии к OP.
Ярле Туфто
@Saulius Если у вас есть доступ ко второму правому цензурированному набору данных, и базовые распределения действительно можно считать идентичными, то идеальным решением было бы объединить вероятность для этого набора данных (который легко записать, если он просто некоторая правильная цензура), а затем максимизировать совместную вероятность.
Ярле Туфто
что цензура неверна : imgur.com/U8ofZ3A Теперь я понимаю, что мне пришлось упомянуть об этом с самого начала, но я подумал, что у моей проблемы было более простое решение ...
Саулюс Шимчикас
@Saulius Эти данные подвергнуты цензуре. Опять же, это просто для вычисления вероятности.
Ярле Туфто
0

(Я не стал добавлять это, так как, похоже, @JarleTufto уже дал хороший математический подход; однако я не достаточно умен, чтобы понять его ответ, и теперь мне интересно, если это точно такой же подход, или если подход, который я опишу ниже, когда-либо имеет свое применение.)

То, что я хотел бы сделать, это угадать среднюю длину и угадать несколько распределений вокруг нее, а затем для каждого сделать имитацию моей популяции и регулярно проверять ее.

Вы сказали, что общая численность вегетарианцев не меняется, поэтому каждый раз, когда моя модель останавливается, создается новый вегетарианец. Нам нужно запустить модель в течение нескольких смоделированных лет, чтобы убедиться, что она установлена, прежде чем мы сможем начать выборку. После этого я думаю, что вы можете брать образцы каждый смоделированный месяц (*), пока у вас не будет достаточно, чтобы сформировать свой 90% доверительный интервал.

*: или любое другое разрешение, которое работает с вашими данными. Если люди давали свой ответ на ближайший год, выборка каждые 6 месяцев достаточно хороша.

Из всех ваших предположений вы выбираете среднее значение и распределение, которое (усредненное по всем взятым выборкам) дает вам наиболее близкий результат к тому, что дало ваше реальное исследование.

Я хотел бы повторить свои догадки несколько раз, чтобы выбрать лучший матч.

Лучший дистрибутив не может быть однопиковым. Бывших вегетарианцев, о которых я лично могу думать, остановили из-за серьезных изменений в образе жизни (как правило, брак / проживание в не-вегетарианской или переездной стране, тяжелое заболевание и врач, предполагающий, что это может быть диета); с другой стороны - сила привычки: чем дольше вы были вегетарианцем, тем больше у вас шансов остаться им. Если бы ваши данные содержали запрос о возрасте и статусе отношений, мы могли бы добавить это и в вышеприведенную симуляцию.

Даррен Кук
источник