Я знаю, это может звучать как не по теме, но выслушайте меня.
В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме.
Например:
идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... и так далее. Тип голосования 2 - отрицательный, тип голосования 3 - отрицательный. Вы можете запросить анонимную версию этих данных на http://data.stackexchange.com
Существует мнение, что если сообщение набирает -1 балл или ниже, оно с большей вероятностью будет проголосовано. Это может быть просто предвзятым подтверждением или может быть корнем на самом деле.
Как мы проанализируем эти данные, чтобы подтвердить или опровергнуть эту гипотезу? Как бы мы измерили эффект этого смещения?
Ответы:
Вы можете использовать многоуровневую модель или цепочку Маркова (пакет msm в R - один из способов их соответствия). Затем можно посмотреть, больше ли вероятность перехода от -1 до 0, чем от 0 до 1, от 1 до 2 и т. Д. Вы также можете посмотреть среднее время на -1 по сравнению с другими, чтобы увидеть, не короче ли оно. ,
источник
Провести эксперимент. Случайным образом уменьшайте половину новых сообщений в определенное время каждый день.
источник
Резюме моего ответа. Мне нравится моделирование цепей Маркова, но оно пропускает «временной» аспект. С другой стороны, фокусировка на временном аспекте (например, на среднем времени в ) пропускает аспект «перехода». Я хотел бы перейти к следующему общему моделированию (которое с подходящим допущением может привести к [процессу Маркова] [1]). Также есть много «цензурированных» статистических данных, стоящих за этой проблемой (что, безусловно, является классической проблемой надежности программного обеспечения?). Последнее уравнение моего ответа дает оценку максимального правдоподобия интенсивности голосования (с «+» и «до» с «-») для данного состояния голосования. Как мы можем видеть из уравнения, он является промежуточным по отношению к случаю, когда вы оцениваете только вероятность перехода, и к случаю, когда вы измеряете только время, проведенное в данном состоянии. Надеюсь, это поможет.−1
Общее моделирование (для повторения вопроса и предположений). Пусть и будут случайными переменными, моделирующими соответственно даты голосования и соответствующий знак голосования (+1 для повышения, -1 для снижения). Процесс голосования просто ( S i ) i ≥ 1(VDi)i≥1 (Si)i≥1
Важное значение здесь имеет намерение -jump где может быть или а - хорошая фильтрация, в общем случае, без других знаний это было бы : .ϵ
но в соответствии с вашим вопросом, я думаю, вы неявно предполагаете, что Это означает, что для существует детерминированная последовательность такой, что .
В рамках этого формализма ваш вопрос можно переформулировать так: «вполне вероятно, что » (или, по крайней мере, разница больше, чем заданный порог).μ+−1−μ+0>0
В этом предположении легко показать, что является [однородным марковским процессом] [3] на с генератором заданным какYt Z Q
Отвечая на вопрос (предлагая оценку максимального правдоподобия для статистической задачи) Из этой переформулировки решение проблемы осуществляется путем оценки и построения теста с учетом его значений. Давайте исправим и забудем индекс без потери общности. Оценка (и ) может быть выполнена после наблюдения(μ+i) i μ+ μ−
Если вы забудете случай с последним состоянием наблюдения, упомянутые пары будут взяты из распределения, которое зависит от и : оно распространяется как (где Exp - это случайная переменная из экспоненциального распределения, а равно + или -1 в зависимости от того, кто реализует максимум). Затем вы можете использовать следующую простую лемму (доказательство простое):μ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Лемма Если и то и .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Это означает, что плотность of определяется как: где для - это функция плотности экспоненциальной случайной величины с параметром . Из этого выражения легко вывести оценку максимального правдоподобия и :f(t,ϵ) (T,η)
Комментарии для более продвинутых подходов
Если вы хотите принять во внимание случаи, когда - последнее наблюдаемое состояние (конечно, умнее, потому что когда вы проходите через , это часто ваш последний счет ...), вам нужно немного изменить рассуждение. Соответствующая цензура является относительно классической ...i −1
Возможный другой подход может включать в себя возможность
источник