Как найти доверительные интервалы для рейтингов?

32

В книге Эвана Миллера « Как не сортировать по среднему рейтингу » предлагается использовать нижнюю границу доверительного интервала для получения разумного совокупного «балла» для оцениваемых предметов. Тем не менее, он работает с моделью Бернулли: рейтинги либо большие, либо большие.

Какой разумный доверительный интервал следует использовать для модели оценки, которая присваивает дискретный балл от до звезд, предполагая, что количество оценок для элемента может быть небольшим?1k

Я думаю, что я могу видеть, как адаптировать центр интервалов Уилсона и Агрести-Кулла как

p~=i=1nxi+zα/22p0n+zα/22

где либо либо (возможно, лучше) это средний рейтинг по всем пунктам. Однако я не уверен, как адаптировать ширину интервала. Моя (пересмотренная) лучшая догадка будетp0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

с , но я не могу оправдать себя чем-то большим, чем махать рукой в ​​качестве аналогии Агрести-Кулла, принимая это заn~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

Существуют ли стандартные доверительные интервалы, которые применяются? (Обратите внимание, что у меня нет подписок на какие-либо журналы или легкий доступ к университетской библиотеке; во что бы то ни стало, дайте соответствующие ссылки, но, пожалуйста, добавьте фактический результат!)

Питер Тейлор
источник
4
Поскольку текущие ответы (возможно, из вежливости) обошли вокруг этой проблемы, я хотел бы отметить, что это приложение является ужасным злоупотреблением пределами доверия. Не существует теоретического обоснования для использования LCL для ранжирования средних (и множество причин, почему LCL на самом деле хуже, чем само среднее для ранжирования). Таким образом, этот вопрос основан на некорректном подходе, и, возможно, поэтому он привлек сравнительно мало внимания.
whuber
2
Приятной особенностью этого конкретного вопроса является то, что он содержит достаточно контекста для нас, чтобы игнорировать реальный вопрос и сосредоточиться на том, что оказалось более важным лежащим в основе.
Карл
1
Я рад, что вы изменили измененное название по своему вкусу, Питер. Мое оригинальное редактирование было сделано не для того, чтобы быть корыстным, а чтобы заголовок отражал текст вопроса. Вы последний арбитр того, что вы действительно имеете в виду.
whuber

Ответы:

23

Как сказал Карл Броман в своем ответе, байесовский подход, вероятно, будет намного лучше, чем использование доверительных интервалов.

Проблема с доверительными интервалами

Почему использование доверительных интервалов может не сработать? Одна из причин заключается в том, что если у вас мало оценок для элемента, тогда ваш доверительный интервал будет очень широким, поэтому нижняя граница доверительного интервала будет небольшой. Таким образом, товары без большого количества оценок окажутся в нижней части вашего списка.

Интуитивно, однако, вы, вероятно, хотите, чтобы элементы без большого количества оценок были близки к среднему элементу, поэтому вы хотите покачивать свой оценочный рейтинг этого элемента в сторону среднего рейтинга по всем элементам (то есть вы хотите подтолкнуть свой предполагаемый рейтинг к предыдущему ). , Это именно то, что делает байесовский подход.

Байесовский подход I: нормальное распределение по рейтингам

Один из способов приблизить оценочный рейтинг к предыдущему, как в ответе Карла, использовать оценку в виде :wR+(1w)C

  • R - среднее значение по рейтингам предметов.
  • C - это среднее значение по всем пунктам (или тому, перед чем вы хотите уменьшить свой рейтинг).
  • Обратите внимание , что формула является лишь взвешенной комбинацией и .RC
  • w=vv+m - это вес, присвоенный , где - количество отзывов о пиве, а - некоторый постоянный «пороговый» параметр.Rvm
  • Обратите внимание , что при очень велико, то есть, когда у нас есть много оценки для текущего элемента, то очень близко к 1, так что наш рейтинг по оценкам очень близка к , и мы обращаем мало внимания на предшествующем уровне . Когда мала, однако, очень близко к 0, поэтому расчетная оценка ставит много веса на предшествующем уровне .vwRCvwC

Эта оценка может фактически быть дана байесовской интерпретацией как апостериорная оценка средней оценки элемента, когда индивидуальные оценки получены из нормального распределения, сосредоточенного вокруг этого среднего значения.

Тем не менее, если предположить, что рейтинги исходят из нормального распределения, есть две проблемы:

  • Нормальное распределение непрерывно , но рейтинги дискретны .
  • Оценки для предмета не обязательно соответствуют унимодальной гауссовой форме. Например, возможно, ваш предмет очень поляризован, поэтому люди склонны либо давать ему очень высокий рейтинг, либо очень низкий рейтинг.

Байесовский подход II: мультиномиальное распределение по рейтингам

Поэтому вместо того, чтобы предполагать нормальное распределение рейтингов, давайте предположим, что распределение многочленов . То есть, учитывая некоторый конкретный элемент, есть вероятность что случайный пользователь даст ему 1 звезду, вероятность что случайный пользователь даст ему 2 звезды, и так далее.p1p2

Конечно, мы понятия не имеем, что это за вероятности. Поскольку мы получаем все больше и больше оценок для этого элемента, мы можем догадаться, что близко к , где - это количество пользователей, которые дали ему 1 звезду, а - общее количество пользователей, которые оценили предмет, но когда мы только начинаем, у нас ничего нет. Таким образом, мы помещаем Dirichlet prior в эти вероятности.p1n1nn1n Dir(α1,,αk)

Что это за дирихле приор? Мы можем рассматривать каждый параметр как «виртуальный счетчик» числа раз, когда какой-то виртуальный человек давал элемент, звездочкой. Например, если , и все остальные равны 0, то мы можем думать об этом как о том, что два виртуальных человека дали звезду элемента 1, а один виртуальный человек дал элемент 2 звезды. Поэтому, прежде чем мы получим реальных пользователей, мы можем использовать этот виртуальный дистрибутив для оценки рейтинга элемента.αiiα1=2α2=1αi

[Одним из способов выбора параметров было бы установить равным общей доле голосов звезд. (Обратите внимание, что параметры не обязательно являются целыми числами.)]α i i α iαiαiiαi

Затем, как только появятся реальные рейтинги, просто добавьте их к виртуальным счетам вашего Dirichlet. Всякий раз, когда вы хотите оценить рейтинг вашего элемента, просто возьмите среднее значение по всем рейтингам элемента (как его виртуальные оценки, так и его фактические оценки).

raegtin
источник
1
Подход 2 работает идентично подходу 1, не так ли, но с другим обоснованием?
Питер Тейлор
2
@ Петр: о, правда! Не понял, пока не упомянул об этом =). (Если все, что вы хотите сделать, это взять среднее значение апостериорного значения, они идентичны. Я полагаю, что апостериорный Дирихле может быть полезен, если вы хотите вычислить другой тип оценки, например, какую-то меру полярности, хотя это может быть немного редким.)
raegtin
1
В подходе 1, как вы обычно выбираете ? m
Джейсон С
15

Такая ситуация требует байесовского подхода. Есть простые подходы к байесовскому ранжированию оценок здесь (выигрышных частности к комментариям, которые интересны) и здесь , а затем еще комментарии к этим здесь . Как один из комментариев в первой из этих ссылок указывает:

Best of BeerAdvocate (BA) ... использует байесовскую оценку:

взвешенный ранг (WR) = (v / (v + m)) × R + (m / (v + m)) × C

где:
R = среднее
количество отзывов для пива v = количество отзывов для пива
m = минимальные отзывы, которые необходимо перечислить (в настоящее время 10)
C = среднее значение по списку (в настоящее время 2,5)

Карл
источник
2
Недостатком метода Beer Advocate является то, что он не учитывает изменчивость. Тем не менее, я предпочитаю эту линию мышления идее нижнего предела кондиции.
Карл