Функция «Интерес» для вопросов StackExchange

Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить.

В идеальном мире я мог бы отсортировать вопросы, рассчитав , где - общее количество голосов, а - количество просмотров. В конце концов, он будет измерять процент людей, которые проголосовали за вопрос, минус процент людей, которые отрицали вопрос. $\frac{v}{n}$ $v$ $n$

К сожалению, схема голосования намного сложнее. Голоса стремятся к «плато» до определенного уровня, и это приводит к резкому недооценке чрезвычайно популярных вопросов. На практике вопрос с 1 просмотром и 1 повышением голосов, безусловно, будет оценен и отсортирован выше, чем любой другой вопрос с 10 000 просмотров, но менее 10 000 голосов.

В настоящее время я использую в качестве эмпирической формулы, но я хотел бы быть точным. Как я могу подойти к этой проблеме с математической строгостью? $\frac{v}{\log{n}+1}$

Чтобы ответить на некоторые комментарии, я попытаюсь сформулировать проблему лучше:

Допустим, у меня есть вопрос с общим количеством голосов и просмотров. Я хотел бы иметь возможность оценить, какое количество голосов наиболее вероятно, когда число просмотров достигнет . $v_0$ $n_0$ $v_1$ $n_1$

Таким образом, я мог бы просто выбрать номинальное значение для и упорядочить все вопросы в соответствии с ожидаемым итогом . $n_1$ $v_1$

Я создал два запроса к базе данных SO, чтобы лучше показать эффект, о котором я говорю:

Среднее количество просмотров по баллу

Результат:

Просмотры по счету

Средний балл по просмотрам (100 просмотров)

Результат:

Оценка по просмотрам

Сравнение двух формул

Результаты, не уверен, что прямее лучше: ( синим цветом, красным) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Формулы

data-mining predictive-models Sklivvz
источник

Это, конечно, интересный вопрос, но я думаю, что вам лучше задать его на stats.SE.

@ Тео. Возможно, ты прав. Я помечу моды для миграции, если они сочтут это лучшим.

Почему взгляды не способствуют интересности? (что еще хуже, почему они вносят отрицательный вклад?) Более интересные вещи, как правило, рассматриваются чаще ... Фундаментальная проблема здесь в том, что интересное вообще означает? Означает ли это вопросы общего интереса или вопросы, которые представляют интерес для более конкретной аудитории более высокого уровня? Чтобы кто-то мог ответить на этот вопрос с «математической строгостью», его нужно сначала поставить строго.

Представления смещают вопросы, потому что один вопрос может, скажем, быть ссылкой на хороший сайт и получить массу просмотров - если вы посмотрите на вопросы с самым высоким рейтингом , все они - вопросы высокого просмотра; под интересными я подразумеваю вопросы, которые имеют большую ценность с точки зрения пользователей сайта. В любом случае, вопрос остается открытым: как правильно объединить мнения и голоса, чтобы получить лучший показатель качества?

Математические люди задавали хорошие вопросы. Логика этого вопроса кажется круговой: кажется, что мы просим формулу для измерения «качества» вопроса SE, но в ней не оговаривается, что означает «качество», кроме как для того, чтобы дать недействительным синонимам типа «значение», как это воспринимается пользователями. сайта. " Вы не можете получить что-то ни за что!

whuber

Ответы:

Можно определить интересный вопрос как вопрос, который получил сравнительно много голосов, учитывая количество просмотров. Для этого вы можете создать базовую кривую, которая отражает ожидаемое количество голосов с учетом просмотров. Кривые, которые привлекли гораздо больше голосов, чем базовые, считались особенно интересными.

Чтобы построить базовую линию, вы можете рассчитать среднее число голосов на 100 бункеров. Кроме того, вы можете рассчитать медиану абсолютного отклонения (MAD) как надежную меру для стандартного отклонения на одну корзину. Тогда «интересность» можно рассчитать как

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
источник

Это моя теория. Я думаю, что есть два вида вопросов: те, которые остаются в основном внутри SE (которые обычно имеют меньше просмотров), и те, которые просматриваются посторонними, потому что они были связаны откуда-то еще (обычно имеют больше просмотров).

Для вопросов, которые остаются в основном внутри SE, голосование является хорошей мерой интересных вопросов. Это точка голосования.

Когда вопрос связан с внешним сайтом, голоса перестают иметь такое же значение. Некоторые сайты могут иметь очень мало членов SE, другие могут иметь больше. Дисперсия количества голосов за эти вопросы, вероятно, высока (о чем свидетельствует ваш результат в сравнении с графиком просмотра, где правая сторона кривой расцветает). У этих вопросов будет больше просмотров, и они МОГУТ быть лучшим индикатором интересных вопросов. Или вопросы, которые больше сообщества нашли более интересными. В этой ситуации есть много переменных, и я думаю, что стоит попытаться найти больше информации, чтобы дифференцировать эти случаи. Публикует ли SE реферальную информацию?

rm999
источник

Публикует ли SE реферальную информацию? Мне было бы интересно узнать схему просмотра сообщений, а не только голосов, комментариев и т. Д.

d_a_c321