Объясняя среднее, медиану, моду в терминах непрофессионала

10

Как бы вы объяснили понятие среднего, медианы и формы списка чисел и почему они важны для человека, обладающего только базовыми арифметическими навыками? Не будем упоминать асимметрию, CLT, центральную тенденцию, их статистические свойства и т. Д.

Я объяснил кому-то, что это просто быстрый и грязный способ «суммировать» список чисел. Но, оглядываясь назад, это вряд ли освещает.

Есть мысли или примеры из реального мира?

Concerned_Citizen
источник
Они являются «центральной тенденцией», то есть «наиболее вероятным исходом» в разных областях. Интенсивность, порядок и частота, в частности. В реальном мире также есть вариации - поэтому такие вещи, как стандартное отклонение, межквартильный (или квантильный) диапазон и интермодальный диапазон также весьма полезны, поскольку они указывают на «тенденцию к изменению» или «типичное изменение в результатах».
EngrStudent
Вы можете привести пример, что есть машина, генерирующая числа в случайном порядке. Вы собираете все числа, которые он генерирует в списке. Теперь вы хотите представить его своим друзьям, не указывая каждый номер в списке. Таким образом, вы ищете меры, которые могут помочь вам описать это. Среднее значение / Медиана / Режим - это три аналогичных показателя, которые обеспечивают понимание основных свойств машины.
Кевин Пей
@KevinPei Но что значит «значит» в данном случае? Среднее / Срединное / Модное мало что объясняет в надуманном, автономном примере.
Concerned_Citizen
1
Найти среднее значение - это проблема нахождения точки поворота, уравновешивающей качели после того, как дети (того же веса) встали на нее в произвольном количестве и в произвольных положениях на балке. Найти медиану - это та же задача, говорят, что только дети сгруппированы в двух положениях: «на этой» или «той» стороне.
ttnphns
Вы не можете объяснить это без понятия распределения. Только с базовыми арифметическими навыками вы должны рисовать картинки.
Аксакал

Ответы:

6

Спасибо за этот простой, но глубокий вопрос о фундаментальных статистических понятиях среднего, среднего и модуса. Есть несколько замечательных методов / демонстраций, доступных для объяснения и понимания интуитивного, а не арифметического понимания этих концепций, но, к сожалению, они не широко известны (или, насколько мне известно, преподаются в школе).

Жадный:

1. Точка равновесия: имеется в виду как точка опоры

Лучший способ понять концепцию - это думать о ней как о точке равновесия на равномерном стержне. Представьте себе серию точек данных, таких как {1,1,1,3,3,6,7,10}. Если каждая из этих точек отмечена на равномерном стержне и в каждой точке размещены одинаковые веса (как показано ниже), то точка опоры должна быть помещена в среднее значение данных для баланса стержня.

введите описание изображения здесь

Эта наглядная демонстрация также приводит к арифметической интерпретации. Арифметическое обоснование этого заключается в том, что для того, чтобы точка опоры уравновесилась, общее отрицательное отклонение от среднего значения (с левой стороны точки опоры) должно равняться общему положительному отклонению от среднего значения (с правой стороны). Следовательно, среднее действует как точка балансировки в распределении.

Это визуальное представление позволяет сразу понять среднее значение, поскольку оно относится к распределению точек данных. Другое свойство среднего значения, которое становится очевидным из этой демонстрации, состоит в том, что среднее значение всегда будет находиться между минимальным и максимальным значениями в распределении. Кроме того, эффект выбросов может быть легко понят - то, что наличие выбросов будет сдвигать точку уравновешивания и, следовательно, влиять на среднее значение.

2. Перераспределение (справедливая доля) стоимости

Еще один интересный способ понять среднее значение - думать о нем как о значении перераспределения . Эта интерпретация требует некоторого понимания арифметики, лежащей в основе вычисления среднего значения, но она использует антропоморфическое качество, а именно социалистическую концепцию перераспределения, для интуитивного понимания концепции среднего.

Расчет среднего значения включает суммирование всех значений в распределении (наборе значений) и деление суммы на количество точек данных в распределении.

x¯=(i=1nxi)/n

Один из способов понять обоснование этого расчета - думать о каждой точке данных как о яблоках (или о каком-то другом элементе, который может быть использован). Используя тот же пример, что и раньше, в нашей выборке восемь человек: {1,1,1,3,3,6,7,10}. У первого человека есть одно яблоко, у второго - одно яблоко и так далее. Теперь, если кто-то хочет перераспределить количество яблок так, чтобы оно было «справедливым» для всех, вы можете использовать среднее значение распределения, чтобы сделать это. Другими словами, вы можете дать каждому четыре яблока (то есть среднее значение), чтобы распределение было справедливым / равным. Эта демонстрация дает интуитивное объяснение вышеприведенной формулы: деление суммы распределения на количество точек данных эквивалентно делению всего распределения на равные части всех точек данных.

3. Визуальная мнемоника

Следующие визуальные мнемоники обеспечивают уникальную интерпретацию среднего значения:

введите описание изображения здесь

Это мнемоника для интерпретации среднего значения выравнивания . Высота перекладины А является средним значением высот четырех букв.

введите описание изображения здесь

И это еще одна мнемоника для интерпретации среднего значения точки баланса . Положение точки опоры примерно соответствует среднему положению М, Е и удвоенной N.

медиана

Когда интерпретация среднего значения как точки уравновешивания на стержне понята, медиана может быть продемонстрирована путем расширения той же идеи: уравновешивающей точки на ожерелье .

Замените стержень на веревочку, но сохраняйте данные маркировки и веса. Затем на концах прикрепите вторую нитку, длиннее первой, чтобы образовать петлю [как ожерелье], и накройте петлю поверх хорошо смазанного шкива.

введите описание изображения здесь

Предположим сначала, что веса различны. Шкив и петля балансируются, когда одинаковое количество грузов находится на каждой стороне. Другими словами, цикл «балансирует», когда медиана является самой низкой точкой.

Обратите внимание, что если один из весов перемещается вверх по циклу, создавая выброс, цикл не перемещается. Это физически демонстрирует принцип, согласно которому медиана не подвержена влиянию выбросов.

Режим

Режим, вероятно, является самым простым понятием для понимания, так как он включает в себя основную математическую операцию: подсчет. Тот факт , что он равен наиболее часто встречающиеся точки данных приводят к аббревиатуре: « М ост-часто О ccurring Д ата Е lement».

Режим также можно рассматривать как наиболее типичное значение в наборе. (Хотя более глубокое понимание «типичного» привело бы к репрезентативному или среднему значению. Однако целесообразно приравнивать «типичный» к моде, основанной на очень буквальном значении слова «типичный».)


Источники:

  • Медиана - это точка равновесия - Линч, The College Matmatics Journal (2009)
  • Делаем статистику запоминающейся: новые мнемоники и мотивации - Меньше, Статистическое образование, JSM (2011)
  • Об использовании мнемоники для преподавания статистики - Меньше, Статистика с использованием моделей и приложения, 6 (2), 151-160 (2011)
  • Что значит среднее? - Watier, Lamontagne and Chartier, журнал статистики образования, том 19, номер 2 (2011)
  • Типичные? Детские и педагогические идеи о среднем - Рассел и Мокрос, ICOTS 3 (1990) ОБЩАЯ СПРАВКА: http://www.amstat.org/publications/jse/v22n3/lesser.pdf
Вишал
источник
Только что наткнулся на эту статью сегодня, которая проливает некоторый свет на это: priceonomics.com/how-the-average-triumphed-over-the-median
Vishal
1
Анонимный пользователь также предложил следующую общую ссылку: amstat.org/publications/jse/v22n3/lesser.pdf
- Восстановить Монику
3

Я должен задаться вопросом, достижимы ли ваши критерии, поскольку вы, кажется, хотите максимальной эффективности и объяснительной силы при минимальных материалах. Но простой пример, такой как

1 1 2 2 2 3 3 4 5 6 15

позволяет немедленно вычислить моду (2), медиану (3) и среднее значение (44/11) = 4 и, таким образом, показывает, что они могут быть разными.

Затем вы могли бы объяснить, что идеи наиболее распространенной ценности, среднего значения и среднего значения различны. И ввести осложнения путем

  1. изменение значений для отображения режима может быть неоднозначным

  2. используя пример с четным числом значений, чтобы объяснить соглашение для вычисления медианы

  3. различные значения в хвостах, чтобы подчеркнуть, что происходит со средним, и почему, а почему нет, это может быть желательно.

  4. используя более простые примеры, в которых два или три из среднего, медианного и модного режима совпадают.

Я не упомянул центральную тенденцию в моем учении, кроме как сказать, что это термин в разных литературах. Я предпочитаю говорить об уровне и о том, как он может быть определен количественно. И наоборот, я не думаю, что возможен какой-либо серьезный анализ данных, если у людей нет минимального ощущения асимметрии, как более обычной, чем симметрия.

Ник Кокс
источник
Да, корректировка значений изменит сводную статистику, но все же, что означает «сам по себе»?
Concerned_Citizen
1
1
Что такое красный ? Нам не всегда нужно знать определения, чтобы использовать идеи. Знание красного цвета, вероятно, требует физики, физиологии и психологии, но я никогда не нуждался в этом. Я много знаю о том, как работает среднее, но на одном фундаментальном уровне его определение - это просто его формула.
Ник Кокс
1
@NickCox очень честный и очень верный. но мой опыт в колледже все еще довольно недавний, и я помню слишком много проблем, когда я слепо вычислял ответ, не понимая, что я рассчитал или почему я это сделал
shadowtalker
1
@ssdecontrol Это никогда не перестает происходить полностью ...
Ник Кокс
3

Вот как я их объясняю:

(Арифметическое) среднее - это точка, которая принимает во внимание весь набор данных и располагается где-то «в середине». Пусть они подумают о облаке точек или о сгустке в пространстве: среднее значение - это центр масс этого облака точек.

Медиана является точкой , которая имеет «одинаковое количество очков со всех сторон» (где , очевидно , понятие «стороны» не вполне определенным в измерениях 2+). Это представляет другой вид «середины», и на самом деле более интуитивный вид в некотором смысле. Думая о том же самом шарике в пространстве, становится ясно, что если шарик будет однобоким, то среднее будет смещено. Но эта однобокость может быть достигнута одним из двух способов: либо вы добавляете больше точек в одной области, либо увеличиваете разброс точек в этой области. Если вы увеличите разброс точек в одной области без увеличения количества точек, то медиана все равно будет иметь одинаковое количество точек «со всех сторон» и не будет сдвигаться соразмерно среднему значению.

y=(1,2,3,4,5)y=(1,2,3,4,99)mean(y)=median(y)mean(y)>median(y), Но я рекомендую сначала начать с геометрического / визуального объяснения «на основе блобов»: по моему опыту, проще начать с графической демонстрации с маханием рукой, а затем перейти к конкретным игрушечным примерам. Я считаю, что большинство людей (включая меня) не ориентированы на нумерацию, и начинание с числового объяснения - это путаница. Вы всегда можете вернуться и научить более точным определениям позже.

Режим является точкой , что, если точки случайным образом выборки из этого сгустка, скорее всего, появится (признание того, что это помадки для непрерывных данных). Это может быть, но не обязательно, находиться вблизи среднего значения или медианы.

После того, как вы объяснили эти понятия, то вы можете перейти на более «статистический выглядящий» демо:

демонстрация

Сплошная линия означает среднее. Пунктирная линия - это медиана. Пунктирная линия - это режим. Среднее значение представляет положения точек данных вдоль оси x, а медиана отражает только количество точек данных с обеих сторон. Режим - это просто точка наибольшей вероятности, которая отличается как от среднего значения, так и от медианы.

Код R:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
shadowtalker
источник
Хорошие объяснения, но на самом деле это предполагает гораздо больше, чем «базовые арифметические навыки»: здесь вызываются геометрическое мышление, элементарная механика, случайная выборка, теория вероятностей (включая функцию плотности). Это комментарий, не предназначенный для сокрушительной критики, так как я считаю, что этот вопрос непростой задачей.
Ник Кокс
@NickCox хорошие моменты наверняка. Но теперь, когда я думаю об этом, я использую их, потому что все они, в свою очередь, могут быть объяснены без математики (например, объяснение «увидели» в комментариях к основному вопросу ttnphns), или они уже понятны на некотором уровне многими людьми. Плотность немного достижима, но я не думаю, что вам когда-либо нужно туда идти
shadowtalker
(@ttnphns: пометить вас на случай, если вы захотите взвесить. Это не позволит мне пометить вас обоих в одном комментарии)
shadowtalker
Плотность не так уж сложна. Большинство людей должны вспомнить плотность из физики и плотность населения из географии или просто общие знания.
Ник Кокс
@NickCox Я думал, что ты это имел ввиду, имея в виду элементарную механику. И кроме демо плотности я тоже не вижу, как здесь нужна случайная выборка. Во всяком случае, я предполагал, что камнем преткновения станет то, что студенту, не являющемуся техническим специалистом, понравится идея облака точек. Может быть, принять это в чате?
Shadowtalker
2

« Среднее », « медиана » и « мода » являются «центральной тенденцией», то есть «наиболее вероятным исходом» в разных областях. Все они "лучшие ставки" в разных "играх".

Вероятность и статистика - это поле, которое было частично построено игроками ( ссылка , ссылка ). Когда вы отправляетесь на скачки или покерный стол, вы хотите знать некоторые науки, которые помогут вам победить. Они тоже это сделали и написали об этом, так что вам не придется изобретать это самостоятельно.

В скачках вы хотите выбрать победителя. У вас нет информации о будущем, но вы знаете некоторую информацию о прошлом. Вы знаете, как быстро бегала каждая лошадь в последних гонках. Если вы хотите оценить, насколько быстро они могут пробежать в следующей гонке, вы можете вычислить и сравнить среднее, то есть среднее, время гонки.

Другой центральной тенденцией является «медиана» - центр отсортированного списка. Что, если я добавлю ужасную опечатку в ваш список гонок, и это значение будет в 1000 раз длиннее всех остальных. Это испортит вашу оценку. Вы можете не ставить на победившую лошадь. Как вы решаете это? Вы можете вручную найти это одно значение или использовать «медиану».

Что, если вы играете в карты, например, в « блэкджек », и пытаетесь выяснить, нужна ли вам еще одна карта с учетом предыдущих карт. Карта, которую вы ищете, не 3.14, потому что номера карт являются целыми числами. Как вы определяете, какая ваша лучшая ставка, когда «среднее» или «медиана» не имеет смысла? В этом случае вы хотите сделать ставку на «режиме» - наиболее вероятной карте, которая выйдет из колоды дилеров.

Во всех трех случаях центральная тенденция - это просто еще один способ сказать «лучшая ставка».

Если вы хотите учитывать не только центральную тенденцию в своих ставках, то есть хотите ли вы делать ставки, чтобы иметь возможность уменьшить последствия проигрыша при максимальном выигрыше, тогда вы должны смотреть на «тенденции изменения». Такие вещи, как стандартное отклонение, интервалы между квантилями или альтернативные моды и их частоты, все используются для минимизации максимальных потерь при максимизации вероятных выигрышей.

EngrStudent
источник
0

Я думаю, что полезно объяснить эту концепцию при рассмотрении нескольких средних, медиан и мод. Эти ценности не существуют сами по себе в вакууме.

Например, вот как я бы объяснил, значит.

Допустим, у вас есть 2 ящика с арбузами (ящик 1 и 2). Он изолирован, поэтому вы не можете видеть арбузы внутри и, следовательно, не знаете их размеров. Тем не менее, вы знаете общий вес арбузов в каждом ящике, и каждый содержит одинаковое количество арбузов. Исходя из этого, вы можете рассчитать средние веса каждого ящика арбузов (M1 и M2).

Теперь, когда у вас есть два разных средних значения M1 и M2, вы можете сделать грубое сравнение отдельных содержимого. Если M1> M2, то случайно выбранные арбузы из ящика 1 могут быть более тяжелыми, чем один, выбранный из ящика 2.

Конечно, я хотел бы комментировать эту точку зрения.

Concerned_Citizen
источник