Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить.
В идеальном мире я мог бы отсортировать вопросы, рассчитав , где - общее количество голосов, а - количество просмотров. В конце концов, он будет измерять процент людей, которые проголосовали за вопрос, минус процент людей, которые отрицали вопрос. вн
К сожалению, схема голосования намного сложнее. Голоса стремятся к «плато» до определенного уровня, и это приводит к резкому недооценке чрезвычайно популярных вопросов. На практике вопрос с 1 просмотром и 1 повышением голосов, безусловно, будет оценен и отсортирован выше, чем любой другой вопрос с 10 000 просмотров, но менее 10 000 голосов.
В настоящее время я использую в качестве эмпирической формулы, но я хотел бы быть точным. Как я могу подойти к этой проблеме с математической строгостью?
Чтобы ответить на некоторые комментарии, я попытаюсь сформулировать проблему лучше:
Допустим, у меня есть вопрос с общим количеством голосов и просмотров. Я хотел бы иметь возможность оценить, какое количество голосов наиболее вероятно, когда число просмотров достигнет .n 0 v 1 n 1
Таким образом, я мог бы просто выбрать номинальное значение для и упорядочить все вопросы в соответствии с ожидаемым итогом .v 1
Я создал два запроса к базе данных SO, чтобы лучше показать эффект, о котором я говорю:
Среднее количество просмотров по баллу
Результат:
Средний балл по просмотрам (100 просмотров)
Результат:
Результаты, не уверен, что прямее лучше: ( синим цветом, красным)
источник
Ответы:
Можно определить интересный вопрос как вопрос, который получил сравнительно много голосов, учитывая количество просмотров. Для этого вы можете создать базовую кривую, которая отражает ожидаемое количество голосов с учетом просмотров. Кривые, которые привлекли гораздо больше голосов, чем базовые, считались особенно интересными.
Чтобы построить базовую линию, вы можете рассчитать среднее число голосов на 100 бункеров. Кроме того, вы можете рассчитать медиану абсолютного отклонения (MAD) как надежную меру для стандартного отклонения на одну корзину. Тогда «интересность» можно рассчитать как
источник
Это моя теория. Я думаю, что есть два вида вопросов: те, которые остаются в основном внутри SE (которые обычно имеют меньше просмотров), и те, которые просматриваются посторонними, потому что они были связаны откуда-то еще (обычно имеют больше просмотров).
Для вопросов, которые остаются в основном внутри SE, голосование является хорошей мерой интересных вопросов. Это точка голосования.
Когда вопрос связан с внешним сайтом, голоса перестают иметь такое же значение. Некоторые сайты могут иметь очень мало членов SE, другие могут иметь больше. Дисперсия количества голосов за эти вопросы, вероятно, высока (о чем свидетельствует ваш результат в сравнении с графиком просмотра, где правая сторона кривой расцветает). У этих вопросов будет больше просмотров, и они МОГУТ быть лучшим индикатором интересных вопросов. Или вопросы, которые больше сообщества нашли более интересными. В этой ситуации есть много переменных, и я думаю, что стоит попытаться найти больше информации, чтобы дифференцировать эти случаи. Публикует ли SE реферальную информацию?
источник