Взгляните на этот отрывок из «Руководства по обучению», Palgrave, 2012, Стеллы Коттрелл, стр. 155:
Процентное внимание Обратите внимание, когда проценты даны.
Предположим, вместо этого приведенное выше утверждение гласит:60% людей предпочитали апельсины; 40% сказали, что предпочитают яблоки.
Это выглядит убедительно: числовые величины даны. Но есть разница между 60% и 40% значительным ? Здесь нам нужно знать, сколько людей спросили. Если спросить 1000 человек, из которых 600 предпочитают апельсины, число будет убедительным. Однако, если спросить только 10 человек, 60% просто означает, что 6 человек предпочитают апельсины. «60%» звучит убедительно, а «6 из 10» - нет. Как ответственный читатель, вы должны следить за процентами, используемыми для того, чтобы недостаточное количество данных выглядело впечатляюще.
Как называется эта характеристика в статистике? Я хотел бы прочитать больше об этом.
Ответы:
Я хотел бы привести еще один интуитивный пример.
Предположим, я говорю вам, что могу предсказать исход любого броска монеты. Вы не верите и хотите проверить мои способности.
Вы проверили 5 раз, и я все понял правильно. Вы верите, что у меня есть особые способности? Возможно, нет. Потому что я могу получить их все случайно. ( В частности, предположим , что монета является справедливой монеты, и каждый эксперимент не зависит, то я могу получить все права с , не сверхдержава. Знакомства Shufflepants в ссылку на шутку об этом).0,55≈ 0,03
С другой стороны, если вы проверяли меня много раз, то вряд ли я смогу получить его случайно. Например, если вы тестировали раз, вероятность того, что я все правильно составляет .0,5 100 ≈ 0100 0,5100≈ 0
Статистическая концепция называется статистической силой, из Википейды
Возвращаясь к примеру о сверхдержаве при подбрасывании монет, по сути, вы хотите запустить проверку гипотез.
Теперь, как вы можете видеть в числовом примере (проверьте меня 5 раз против 100 раз), статистическая мощность зависит от размера выборки.
Больше читать здесь . (более технический и основанный на t-тесте).
Интерактивный инструмент для понимания статистической силы можно найти здесь . Обратите внимание, статистическая мощность изменяется с размером выборки!
источник
Думайте об этом с точки зрения пропорций. Скажем, предпочтение апельсина - это успех, а предпочтение яблоку - неудача. Таким образом, ваш средний показатель успеха равен или в этом случае .6μ = количество успеховN
Стандартная ошибка этой величины оценивается как . Для небольшого размера выборки (т. 10) стандартная ошибка составляет но для размера выборки 1000 стандартная ошибка составляет . Так что, как было отмечено в комментариях, «размер выборки имеет значение». ≈.155≈.0155μ ( 1 - μ )N-----√ ≈ .155 ≈ .0155
источник
Эта концепция является следствием закона больших чисел . Из Википедии ,
Результаты от небольшой выборки могут быть дальше от ожидаемого значения, чем от большей выборки. Итак, как указано в вопросе, следует быть осторожным с результатами, рассчитанными на небольших выборках. Идея также хорошо объяснена в этом видео на YouTube .
источник
Мы находимся в ситуации оценки количества популяции по количеству выборки. В этом случае мы используем выборочные пропорции для оценки пропорций населения, но этот принцип значительно более общий.
Поскольку мы берем все большие и большие выборки (используя случайную выборку), средние значения выборки будут иметь тенденцию сходиться к среднему значению совокупности. (Это закон больших чисел.)
Однако, что мы действительно хотим иметь некоторое представление о том, как далеко мы можем быть (например, могут быть представлены шириной доверительного интервала для пропорции или пределом погрешности, который обычно составляет половину такой ширины) ,
В результате мы более уверены в точности нашей оценки, когда выборка велика - если мы повторим наш эксперимент снова, другие подобные средства будут близки к текущему - они все более плотно объединяются, и поскольку (в данном случае) наша оценка объективна, они объединяются вокруг значений, которые мы пытаемся оценить. Одиночное среднее значение становится все более информативным о том, где может быть среднее значение популяции.
источник
Практическое правило для «подсчета» статистики, например подсчета количества людей, которым нравятся апельсины, или подсчета количества «щелчков» в счетчике Гейгера из-за радиоактивного затухания, заключается в том, что погрешность для подсчета примерно равна квадрату Корень ожидаемого значения счета. Подсчет статистики известен как статистика Пуассона.
Квадратный корень из 6 равен 2,4, поэтому допустимая погрешность составляет около 40% (2,4 / 6). Квадратный корень из 600 равен 24, поэтому допустимая погрешность составляет около 4% (24/600). Вот почему подсчет 600 более важен, чем подсчет 6. Относительная ошибка составляет одну десятую.
Я немного неаккуратен в определении погрешности. Это действительно значение 1-сигма, и оно не является жестким отсечением, но это диапазон, в котором вы ожидаете, что большинство (68%) измерений будет лежать. Таким образом, если вы ожидаете 6 едоков апельсина, вы ожидаете, что ряд опросов даст вам в основном цифры в диапазоне от 4 до 8, например, 6,6,5,6,7,2,4,6,3,5,6, 6,7,6,10,8,6,5,6,6,9,3,7,8.
источник
У меня нет имени, которое вы ищете, но проблема не является статистической. Психологически то, как люди обрабатывают числа в нашем мозге, придает больший вес (авторитет) большим числам, чем меньшим, потому что величина (физический размер) визуально так же важна, как и репрезентативная ценность. Таким образом, 600/1000 кажется более достоверным, чем 6/10. Вот почему покупатели предпочитают видеть скидку 10%! для значений меньше 100 и «Сэкономьте 10 долларов!» для значений свыше 100 (называется «Правило 100»). Это о том, как наш мозг реагирует на восприятие.
Удивительный взгляд на этот и другие виды явлений обсуждает Ник Коленда в своем онлайн-трактате « Огромное руководство по психологии ценообразования ».
источник
Хотя фактическая погрешность важна, причина, по которой она звучит более убедительно, заключается в более эвристическом (эмпирическом) опыте с людьми. Фактическая погрешность подтверждает, что эта эвристика имеет свои достоинства.
Если выборка 6 для и 4 против, это может быть 50/50, если один человек меняет свой голос, или один человек был записан по ошибке. На шестой стороне только два человека. Все знают два хлопья, все знают, что образец может быть собран вишней: вы спрашивали только официанток, и больше никого. Или вы только опросили 10 профессоров колледжей в залах университета. Или вы спросили 10 богатых людей за пределами Saks Fifth Avenue.
Даже математическая погрешность предполагает истинную случайность и не учитывает предвзятость выбора, предвзятость самоотбора или что-либо еще, люди могут интуитивно понять это.
Напротив, результат 600 против 400 имеет на 200 человек больше с одной стороны, чем с другой, и 100 человек должны изменить свое мнение. Эти цифры очень трудно найти (но не невозможно) из-за какой-то случайности того, где вы опрашивали, как вы заставляли людей соглашаться, как люди понимали или интерпретировали вопрос и т. Д.
Это более убедительно не из-за математического доказательства того, что так должно быть, а потому, что из опыта мы знаем, что толпы из 1000 гораздо более склонны к разным мнениям (по любому вопросу), чем группа из 10 человек (если вы не сделали этого тайно). ваш опрос на съезде политической партии или митинг ККК или что-то еще, что может привлечь одностороннюю толпу).
Математика точно определяет только то, что мы уже знаем интуицией; что случайным образом набрать один или два случайных голоса из 10 легче, чем случайным образом набрать 100 или 200 случайных голосов из 1000.
источник
Что-то, что не было упомянуто, должно смотреть на проблему с байесовской точки зрения.
Обратите внимание, что хотя эти графики похожи на david25272, они представляют собой нечто совершенно иное .
источник
Краткий ответ:
По сути, более убедительно иметь 600 из 1000, чем шесть из 10, потому что при равных предпочтениях вероятность того, что 6 из 10 произойдет случайно , гораздо выше.
Давайте сделаем предположение - что доля тех, кто предпочитает апельсины и яблоки, на самом деле равна (то есть 50% каждый). Назовите это нулевой гипотезой. Учитывая эти равные вероятности, вероятность двух результатов:
(Для простоты я предполагаю бесконечную популяцию, из которой можно брать неограниченное количество образцов).
Простой вывод
Один из способов получить этот результат - просто перечислить потенциальные способы объединения людей в наших примерах:
Для десяти человек это просто:
Подумайте о том, чтобы выбрать 10 случайных людей из бесконечной популяции людей с одинаковыми предпочтениями в отношении яблок или апельсинов. При одинаковых предпочтениях легко перечислить все возможные комбинации из 10 человек:
Вот полный список.
r - это число результатов (люди, которые предпочитают апельсины), C - количество возможных способов того, что многие люди предпочитают апельсины, и p - итоговая вероятность того, что многие люди предпочитают апельсины в нашей выборке.
(p - это просто C, деленное на общее количество комбинаций. Обратите внимание, что существует 1024 способа упорядочения этих двух предпочтений в целом (т.е. от 2 до степени 10).
(В общем, мы говорим о n C r комбинациях результатов r из выборки из n человек. Существуют онлайн-калькуляторы, которые можно использовать для проверки этих чисел.)
Этот список позволяет нам дать нам вероятности выше, используя только деление. Существует 21% шансов получить 6 человек в выборке, которые предпочитают апельсины (210 из 1024 комбинаций). Шанс получить шесть или более человек в нашей выборке составляет 38% (сумма всех выборок с шестью или более людьми или 386 из 1024 комбинаций).
Графически вероятности выглядят так:
С увеличением числа число потенциальных комбинаций быстро растет.
Для выборок всего из 20 человек существует 1 048 576 возможных образцов, причем все с равной вероятностью. (Примечание: я показал только каждую вторую комбинацию ниже).
Есть еще только один образец, где все 20 человек предпочитают апельсины. Комбинации, которые показывают смешанные результаты, гораздо более вероятны, просто потому, что существует гораздо больше способов объединения людей в выборках.
Смещенные образцы гораздо более маловероятны, просто потому что есть меньше комбинаций людей, которые могут привести к этим образцам:
Если в каждой выборке всего 20 человек, совокупная вероятность того, что 60% или более (12 или более) человек в нашей выборке предпочитают апельсины, снижается до 25%.
Распределение вероятностей становится все тоньше и выше:
С 1000 человек цифры огромны
Мы можем распространить приведенные выше примеры на более крупные выборки (но числа растут слишком быстро, чтобы можно было перечислить все комбинации), вместо этого я вычислил вероятности в R:
Совокупная вероятность того, что 600 или более из 1000 человек предпочитают апельсины, составляет всего 1,364232e-10.
Распределение вероятностей теперь намного более сконцентрировано вокруг центра:
[
(Например, для расчета вероятности 600 из 1000 человек, предпочитающих апельсины при использовании R,
dbinom(600, 1000, prob=0.5)
это равно 4,633908e-11, а вероятность 600 или более человек1-pbinom(599, 1000, prob=0.5)
равна 1,364232e-10 (менее 1 на миллиард).источник
Это потому, что большее число обеспечивает большую точность. Например, если вы выберете 1000 случайных людей из любой точки планеты, и 599 из них - мужчины против 10 случайных людей с 6 мужчинами, первое будет более точным. Точно так же, если вы предположите, что население составляет 7 миллиардов человек, и рассчитаете число мужчин, вы получите более точное число, которое, очевидно, будет более убедительным, чем при наличии только 1000 человек.
источник