Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .
Теперь из-за большого размера выборки Книги А «среднее значение стабилизировалось» до 4,25. Теперь для 100 человек может оказаться, что если больше людей прочитают Книгу B, средний рейтинг может упасть до 4 или 4,25.
- Как следует интерпретировать сравнение средств из разных образцов и каковы наилучшие выводы, которые можно / нужно сделать?
Например, можем ли мы действительно сказать, что Книга Б лучше, чем Книга А.
t-test
mean
sample-size
кандидат наук
источник
источник
Ответы:
Вы можете использовать t-тест, чтобы оценить, есть ли различия в средствах. Различные размеры выборки не создают проблем для t-теста и не требуют интерпретации результатов с особой тщательностью. В конечном счете, вы можете даже сравнить одно наблюдение с бесконечной популяцией с известным распределением, средним значением и SD; например, кто-то с IQ 130 умнее, чем 97,7% людей. Однако следует отметить, что для данного (т. Е. Общего размера выборки) мощность максимизируется, если группы равны; При очень неравных размерах групп вы не получаете столько дополнительного разрешения при каждом дополнительном наблюдении.N n
Чтобы прояснить мою точку зрения о мощи, вот очень простая симуляция, написанная для R:
Обратите внимание, что во всех случаях , но что в первом случае & , во втором случае & , а в последнем случае и . Кроме того, обратите внимание, что стандартизированная средняя разница / процесс создания данных был одинаковым во всех случаях. Тем не менее, в то время как тест был «значимым» в 70% случаев для образца 50–50, мощность составила 56% при 75–25 и только 33% при размерах группы 90–10.N=100 n1=50 n2=50 n1=75 n2=25 n1=90 n2=10
Я думаю об этом по аналогии. Если вы хотите знать площадь прямоугольника, а периметр фиксирован, то область будет максимальной, если длина и ширина равны (т. Е. Если прямоугольник является квадратом ). С другой стороны, по мере расхождения длины и ширины (по мере удлинения прямоугольника) площадь уменьшается.
источник
set.seed()
функция гарантирует , вы получите одинаковую производительность. Дайте мне знать, если все еще слишком сложно следовать.В дополнение к ответу, упомянутому @gung со ссылкой на t-тест, звучит так, что вас могут заинтересовать байесовские рейтинговые системы (например, вот обсуждение ). Веб-сайты могут использовать такие системы для ранжирования элементов заказа, которые различаются по количеству полученных голосов. По существу, такие системы работают, назначая оценку, которая является составной частью среднего рейтинга всех элементов плюс среднее значение выборки оценок для конкретного объекта. По мере увеличения количества оценок вес, назначенный среднему значению для объекта, увеличивается, а вес, назначенный среднему значению для всех предметов, уменьшается. Возможно, проверьте байесовские средние .
Конечно, все может стать намного сложнее, если вы решите широкий круг вопросов, таких как фальсификация голосования, изменения во времени и т. Д.
источник