Stack Exchange, как мы все знаем, представляет собой набор сайтов вопросов и ответов с разнообразными темами. Предполагая, что каждый сайт независим от друг друга, учитывая статистику пользователя, как вычислить его "округлость" по сравнению со следующим парнем? Какой статистический инструмент я должен использовать?
Если честно, я не совсем знаю, как математически определить «округлость», но она должна иметь следующие характеристики:
- При прочих равных условиях, чем больше повторений у пользователя, тем более он округлен
- При прочих равных условиях, чем больше сайтов принимает участие пользователь, тем более он округлен.
- Ответ или вопрос не влияют на округлость
Ответы:
Вам также необходимо учитывать сходство между сайтами. Кто-то, кто участвует в StackOverflow и Seasoned Advice , более разносторонний, чем тот, кто участвует в SO и CrossValidated, который, в свою очередь (я бы сказал,) более разносторонний, чем тот, кто участвует в SO и Программистах . Существует, несомненно, много способов сделать это, но вы можете проверить перекрывающуюся регистрацию, чтобы просто почувствовать это.
источник
ПРИМЕР: скажем, есть три сайта, и мы хотим сравнить универсальность пользователей A, B, C. Мы записываем репутацию пользователей на трех сайтах в векторной форме:
Мы бы посчитали A более округлым, чем B (их репутация распределена равномерно по двум сайтам, но у A более высокая репутация). Кроме того, мы считаем, что C более округлый, чем B (у них одинаковая общая репутация, но C имеет равномерный разброс по большому количеству сайтов). Неясно, следует ли считать A более округленным, чем C, или наоборот. ,
Пусть , , будут вышеупомянутыми векторами репутации соответственно.xA xB xC
Мы хотим измерить «округлость» пользователя функцией вектора его репутации . Согласно вышесказанному, мы бы хотели, чтобы наша функция удовлетворяла и .f(x) f f(xA)>f(xB) f(xC)>f(xB)
Любая которая вогнута и увеличивается , сделает свое дело.f(x)
Два общих примера выпуклых функций - это «дробная норма»
для .0<p<1
Взяв , рассчитаемp=1/2
Согласно норме, пользователь А будет считаться наиболее округлым из трех с небольшим запасом по сравнению с пользователем С.1/2
Другой выбор для - это (масштабированная) энтропия Шеннонаf
где .c=∑ixi
Если взять за масштабированную энтропию Шеннона, то мы вычислимf
f ( x B ) = 30 log ( 2 ) ≈ 20,8 f ( x C ) = 30 log ( 3 ) ≈ 33,0
Измеряемая по масштабированной энтропии Шеннона, мы бы сказали, что C - самая округлая из трех, а A - вторая по округленности.
РЕДАКТИРОВАТЬ: я первоначально сказал, что функция должна быть выпуклой; обратное верно.f(x)
EDIT2: добавлен пример в свете комментария whuber.
источник
Это действительно очень интересный вопрос (на самом деле, я влюблен в идею моделирования сайтов обмена стека в целом).
Что касается универсальности, одним из способов оценки этого является использование тегов, на которые, как правило, отвечают конкретные пользователи, и их распределение по сайтам. Примеры могут сделать это более понятным.
Я являюсь членом TeX, StackOverflow, CrossValidated и AskUbuntu. Теперь я действительно помогаю только здесь и StackOverflow, и только о R на Stackoverflow. Итак, чтобы определить правильность округления, я бы посмотрел на a) количество тегов, которые имеют два общих сайта (для определения сходства между сайтами), и степень, в которой пользователь отвечает на вопросы на сайтах, которые имеют мало или совсем не имеют общих тегов.
Если, например, кто-то вносит вклад в теги Python в StackOverflow и готовит, этот человек более разносторонний, чем тот, кто отвечает на вопросы статистического программного обеспечения (например) по вопросам переполнения и статистики здесь.
Я надеюсь, что это несколько полезно.
источник
Если вы определите «округлость» как «участие во многих различных сайтах обмена стека», я бы вычислил некоторую метрику вклада для каждого сайта. Вы можете использовать общее количество сообщений, или среднее количество сообщений в день, или, возможно, репутацию. Затем посмотрите на распределение этой метрики по всем сайтам и вычислите ее асимметрию некоторым способом, который имеет смысл.
Другими словами, «всесторонне развитый» человек - это тот, кто вносит свой вклад во многие разные сайты, а «недостаточно хорошо округленный» человек - это тот, кто вносит основной вклад в один сайт. Вы можете еще больше улучшить это, масштабируя свою метрику с общим количеством пользователей по всем сайтам. то есть тот, кто внес большой вклад в разные сайты, должен считаться более всесторонним, чем тот, кто ничего не сделал для какого-либо сайта. Человек, который никогда не использовал SE, не очень хорошо округлен!
источник
Уже много хороших ответов, так почему еще один? Это главным образом для того, чтобы привлечь внимание к интересным идеям, обсуждаемым здесь в кафе n-Category . В то время как разнообразие в экологии (и в других местах) в основном рассматривает только численность, следует также взглянуть на то, насколько похожи / различны разные виды.
Представление вида (или чего-либо подобного, например, сайтов SE ...) в виде точек в метрическом пространстве приводит к обобщению энтропии в метрические пространства, см., Например, «Максимальная энтропия метрического пространства» Тома Ленстера, Эмили Рофф . Те же идеи можно использовать на сайтах SE, рассматривая теги как точки в метрическом пространстве.
источник