Я недавно прочитал совет, что вы должны использовать медиану, а не средство для устранения выбросов. Пример: следующая статья http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
имеет 16 отзывов на данный момент:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Поскольку они используют Среднее, статья получает 4 звезды, но если бы они использовали Медиану, она получила бы 5 звезд.
Разве медиана не является «справедливым» судьей?
Эксперимент показывает, что ошибка медианы всегда больше средней. Медиана хуже?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Ответы:
Проблема в том, что вы не определили, что значит иметь хороший или справедливый рейтинг. Вы предлагаете в комментарии к ответу @ Кевина, что вам не нравится, если один плохой отзыв удаляет элемент. Но если сравнивать два элемента, у одного из которых есть «идеальный отчет», а у другого - один плохой обзор, возможно, эту разницу следует отразить.
Существует целый (многомерный) континуум между медианой и средним. Вы можете заказать голоса по значению, а затем взять средневзвешенное значение с весами в зависимости от позиции в этом порядке. Среднее значение означает, что все веса равны, медиана соответствует только одной или двум записям в середине, получая ненулевой вес, усеченное среднее соответствует тому, что все, кроме первой и последней пары, имеют одинаковый вес, но вы также можете решить взвесить й из n образцов с весом 1k n илиexp(-(2k-1-n)211+(2k−1−n)2 , чтобы бросить что-то случайное там. Может быть, такое средневзвешенное значение, при котором выбросы получают меньший вес, но все же ненулевое количество, может сочетать хорошие свойства медианы и среднего?exp(−(2k−1−n)2n2)
источник
Ответ, который вы получите, зависит от вопроса, который вы задаете.
Среднее и среднее ответят на разные вопросы. Поэтому они дают разные ответы. Дело не в том, что один «справедливее» другого. Медианы часто используются с сильно искаженными данными (такими как доход). Но даже там иногда лучше всего. И иногда вы не хотите НИКАКОГО измерения центральной тенденции.
Кроме того, всякий раз, когда вы даете меру центральной тенденции, вы должны давать некоторую меру распространения. Наиболее распространенными парами являются среднее стандартное отклонение и медиана-межквартильный диапазон. В этих данных давать медиану 5, я думаю, вводит в заблуждение или, по крайней мере, неинформативно. Медиана также будет 5, если каждый голос был 5.
источник
Если единственными вариантами выбора являются целые числа в диапазоне от 1 до 5, можно ли вообще считать выброс?
источник
Это зависит от используемой вами функции стоимости.
MSE минимизируется по среднему значению. Поэтому, если вы используете MSE, медиана всегда будет хуже, чем средняя.
НО, если бы вы использовали абсолютную ошибку, среднее было бы хуже!
Хорошее объяснение этому можно найти здесь: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
Выбор зависит от вашей проблемы и предпочтений. Если вы не хотите, чтобы выбросы оказывали большое влияние на положение «центральной точки», то выбирайте медиану. Если вы заботитесь о выбросах, вы выбираете среднее.
источник
Просто быстрая мысль:
Если вы предполагаете, что каждый рейтинг составлен из скрытой непрерывной переменной, тогда вы можете определить медиану этой базовой непрерывной переменной, представляющей интерес, в качестве значения интереса, а не среднего значения этого базового распределения. Там, где распределение симметрично, тогда среднее значение и медиана в конечном итоге будут оценивать одни и те же величины. Там, где распределение искажено, медиана будет отличаться от среднего. В этом случае, на мой взгляд, медиана будет больше соответствовать тому, что мы считаем типичной величиной. Это помогает понять, почему средний доход и средние цены на жилье обычно указываются, а не средние.
Однако, когда у вас есть небольшое количество дискретных значений, медиана работает плохо.
Возможно, вы могли бы использовать некоторую процедуру оценки плотности и затем взять медиану этого, или использовать некоторую интерполированную медиану.
источник
Преимущество использования медианы для звездных рейтингов состоит в том, что умные пользователи (знающие об использовании медианы) не будут «играть» в систему:
Если рациональный пользователь считает, что надлежащий рейтинг должен составлять 4 звезды, но в настоящее время он имеет 4,5 звезды, то лучший способ получить четыре звезды (при условии, что было более шести голосов) - это проголосовать за 1 звезду в системе среднего рейтинга. ,
В то время как в срединной системе рациональный выбор пользователя состоит в том, чтобы просто проголосовать именно за то количество звезд, которое, по мнению пользователя, должен иметь продукт.
Это своего рода второй ценовой аукцион для звездных рейтинговых систем.
источник
Несколько хороших ответов все еще оставляют место для дальнейших комментариев.
Во-первых, никто не возражал против идеи, что медиана предназначена для устранения выбросов, но я это уточню. Предполагаемый смысл очевиден, но для реальных данных легче быть более сложным. Самое большее, медиана предназначена для того, чтобы игнорировать или игнорировать выбросы, но даже это не гарантируется. Например, с оценками 1 1 1 5 5 5 медиана и среднее согласуются на 3, поэтому все может показаться хорошим. Но дополнительные 5 уменьшат медиану до 5, а дополнительные 1 приведут медиану к 1. Среднее значение сместится примерно на 0,286 в каждом случае. Следовательно, среднее здесь более устойчиво, чем медианное. Пример можно отклонить как необычный, но это не возмутительно. Дело не оригинальное, естественно. Одним из мест, где он сделан, является Мостеллер, Ф. и Тьюки, Дж. У. 1977. Анализ данных и регрессия. Рединг, Массачусетс: Аддисон-Уэсли, с. 34-35.
Во-вторых, обрезанные средства были упомянуты, и идея заслуживает большего толчка. Среднее значение и медиана не обязательно должны быть строгими альтернативами, поэтому аналитик должен выбрать (проголосовать за) один или другой. Вы можете рассмотреть все возможные усеченные средства на основе усечения определенного количества значений в каждом хвосте . В таблице показано # количество значений, включенных в расчет среднего значения:
Основная картина здесь в том, что вы можете выбрать свою ставку дисконтирования (игнорируйте столько значений в каждом хвосте, сколько подозреваете) в качестве своего рода страховки от риска быть выключенным из-за экстремальных значений. То, что я вижу, - это довольно плавный градиент между средним и медианным, который здесь ожидается, потому что все возможные значения 1, 2, 3, 4, 5 присутствуют в данных. Ожидается большой скачок в последовательности с изолированным выбросом.
С обрезанными средствами нет обязанности обрезать равные числа в каждом хвосте, но я не буду на этом останавливаться.
В-третьих, пример - обзоры Amazon. Контекст всегда уместен в руководстве, как вы хотите, чтобы данные суммировались . В случае обзоров Amazon лучший ответ - прочитать отзывы! Как высокие, так и низкие оценки могут быть ложными (косвенно: автор этой книги - мой друг) и / или не иметь отношения к вашему решению (явно: повторный продавец относился ко мне плохо), для меня нет очевидного Вывод о том, как суммировать такие данные, и, на самом деле, показать вам, что Amazon является максимально информативным.
В-четвертых, и самое элементарное, но также и фундаментальное из всех, кто заставляет вас выбирать? Иногда следует сообщать среднее и медиану (и, как уже говорилось, график распределения).
источник