Как бы вы объяснили понятие среднего, медианы и формы списка чисел и почему они важны для человека, обладающего только базовыми арифметическими навыками? Не будем упоминать асимметрию, CLT, центральную тенденцию, их статистические свойства и т. Д.
Я объяснил кому-то, что это просто быстрый и грязный способ «суммировать» список чисел. Но, оглядываясь назад, это вряд ли освещает.
Есть мысли или примеры из реального мира?
mean
descriptive-statistics
median
mode
Concerned_Citizen
источник
источник
Ответы:
Спасибо за этот простой, но глубокий вопрос о фундаментальных статистических понятиях среднего, среднего и модуса. Есть несколько замечательных методов / демонстраций, доступных для объяснения и понимания интуитивного, а не арифметического понимания этих концепций, но, к сожалению, они не широко известны (или, насколько мне известно, преподаются в школе).
Жадный:
1. Точка равновесия: имеется в виду как точка опоры
Лучший способ понять концепцию - это думать о ней как о точке равновесия на равномерном стержне. Представьте себе серию точек данных, таких как {1,1,1,3,3,6,7,10}. Если каждая из этих точек отмечена на равномерном стержне и в каждой точке размещены одинаковые веса (как показано ниже), то точка опоры должна быть помещена в среднее значение данных для баланса стержня.
Эта наглядная демонстрация также приводит к арифметической интерпретации. Арифметическое обоснование этого заключается в том, что для того, чтобы точка опоры уравновесилась, общее отрицательное отклонение от среднего значения (с левой стороны точки опоры) должно равняться общему положительному отклонению от среднего значения (с правой стороны). Следовательно, среднее действует как точка балансировки в распределении.
Это визуальное представление позволяет сразу понять среднее значение, поскольку оно относится к распределению точек данных. Другое свойство среднего значения, которое становится очевидным из этой демонстрации, состоит в том, что среднее значение всегда будет находиться между минимальным и максимальным значениями в распределении. Кроме того, эффект выбросов может быть легко понят - то, что наличие выбросов будет сдвигать точку уравновешивания и, следовательно, влиять на среднее значение.
2. Перераспределение (справедливая доля) стоимости
Еще один интересный способ понять среднее значение - думать о нем как о значении перераспределения . Эта интерпретация требует некоторого понимания арифметики, лежащей в основе вычисления среднего значения, но она использует антропоморфическое качество, а именно социалистическую концепцию перераспределения, для интуитивного понимания концепции среднего.
Расчет среднего значения включает суммирование всех значений в распределении (наборе значений) и деление суммы на количество точек данных в распределении.
Один из способов понять обоснование этого расчета - думать о каждой точке данных как о яблоках (или о каком-то другом элементе, который может быть использован). Используя тот же пример, что и раньше, в нашей выборке восемь человек: {1,1,1,3,3,6,7,10}. У первого человека есть одно яблоко, у второго - одно яблоко и так далее. Теперь, если кто-то хочет перераспределить количество яблок так, чтобы оно было «справедливым» для всех, вы можете использовать среднее значение распределения, чтобы сделать это. Другими словами, вы можете дать каждому четыре яблока (то есть среднее значение), чтобы распределение было справедливым / равным. Эта демонстрация дает интуитивное объяснение вышеприведенной формулы: деление суммы распределения на количество точек данных эквивалентно делению всего распределения на равные части всех точек данных.
3. Визуальная мнемоника
Следующие визуальные мнемоники обеспечивают уникальную интерпретацию среднего значения:
Это мнемоника для интерпретации среднего значения выравнивания . Высота перекладины А является средним значением высот четырех букв.
И это еще одна мнемоника для интерпретации среднего значения точки баланса . Положение точки опоры примерно соответствует среднему положению М, Е и удвоенной N.
медиана
Когда интерпретация среднего значения как точки уравновешивания на стержне понята, медиана может быть продемонстрирована путем расширения той же идеи: уравновешивающей точки на ожерелье .
Замените стержень на веревочку, но сохраняйте данные маркировки и веса. Затем на концах прикрепите вторую нитку, длиннее первой, чтобы образовать петлю [как ожерелье], и накройте петлю поверх хорошо смазанного шкива.
Предположим сначала, что веса различны. Шкив и петля балансируются, когда одинаковое количество грузов находится на каждой стороне. Другими словами, цикл «балансирует», когда медиана является самой низкой точкой.
Обратите внимание, что если один из весов перемещается вверх по циклу, создавая выброс, цикл не перемещается. Это физически демонстрирует принцип, согласно которому медиана не подвержена влиянию выбросов.
Режим
Режим, вероятно, является самым простым понятием для понимания, так как он включает в себя основную математическую операцию: подсчет. Тот факт , что он равен наиболее часто встречающиеся точки данных приводят к аббревиатуре: « М ост-часто О ccurring Д ата Е lement».
Режим также можно рассматривать как наиболее типичное значение в наборе. (Хотя более глубокое понимание «типичного» привело бы к репрезентативному или среднему значению. Однако целесообразно приравнивать «типичный» к моде, основанной на очень буквальном значении слова «типичный».)
Источники:
источник
Я должен задаться вопросом, достижимы ли ваши критерии, поскольку вы, кажется, хотите максимальной эффективности и объяснительной силы при минимальных материалах. Но простой пример, такой как
1 1 2 2 2 3 3 4 5 6 15
позволяет немедленно вычислить моду (2), медиану (3) и среднее значение (44/11) = 4 и, таким образом, показывает, что они могут быть разными.
Затем вы могли бы объяснить, что идеи наиболее распространенной ценности, среднего значения и среднего значения различны. И ввести осложнения путем
изменение значений для отображения режима может быть неоднозначным
используя пример с четным числом значений, чтобы объяснить соглашение для вычисления медианы
различные значения в хвостах, чтобы подчеркнуть, что происходит со средним, и почему, а почему нет, это может быть желательно.
используя более простые примеры, в которых два или три из среднего, медианного и модного режима совпадают.
Я не упомянул центральную тенденцию в моем учении, кроме как сказать, что это термин в разных литературах. Я предпочитаю говорить об уровне и о том, как он может быть определен количественно. И наоборот, я не думаю, что возможен какой-либо серьезный анализ данных, если у людей нет минимального ощущения асимметрии, как более обычной, чем симметрия.
источник
Вот как я их объясняю:
(Арифметическое) среднее - это точка, которая принимает во внимание весь набор данных и располагается где-то «в середине». Пусть они подумают о облаке точек или о сгустке в пространстве: среднее значение - это центр масс этого облака точек.
Медиана является точкой , которая имеет «одинаковое количество очков со всех сторон» (где , очевидно , понятие «стороны» не вполне определенным в измерениях 2+). Это представляет другой вид «середины», и на самом деле более интуитивный вид в некотором смысле. Думая о том же самом шарике в пространстве, становится ясно, что если шарик будет однобоким, то среднее будет смещено. Но эта однобокость может быть достигнута одним из двух способов: либо вы добавляете больше точек в одной области, либо увеличиваете разброс точек в этой области. Если вы увеличите разброс точек в одной области без увеличения количества точек, то медиана все равно будет иметь одинаковое количество точек «со всех сторон» и не будет сдвигаться соразмерно среднему значению.
Режим является точкой , что, если точки случайным образом выборки из этого сгустка, скорее всего, появится (признание того, что это помадки для непрерывных данных). Это может быть, но не обязательно, находиться вблизи среднего значения или медианы.
После того, как вы объяснили эти понятия, то вы можете перейти на более «статистический выглядящий» демо:
Сплошная линия означает среднее. Пунктирная линия - это медиана. Пунктирная линия - это режим. Среднее значение представляет положения точек данных вдоль оси x, а медиана отражает только количество точек данных с обеих сторон. Режим - это просто точка наибольшей вероятности, которая отличается как от среднего значения, так и от медианы.
Код R:
источник
« Среднее », « медиана » и « мода » являются «центральной тенденцией», то есть «наиболее вероятным исходом» в разных областях. Все они "лучшие ставки" в разных "играх".
Вероятность и статистика - это поле, которое было частично построено игроками ( ссылка , ссылка ). Когда вы отправляетесь на скачки или покерный стол, вы хотите знать некоторые науки, которые помогут вам победить. Они тоже это сделали и написали об этом, так что вам не придется изобретать это самостоятельно.
В скачках вы хотите выбрать победителя. У вас нет информации о будущем, но вы знаете некоторую информацию о прошлом. Вы знаете, как быстро бегала каждая лошадь в последних гонках. Если вы хотите оценить, насколько быстро они могут пробежать в следующей гонке, вы можете вычислить и сравнить среднее, то есть среднее, время гонки.
Другой центральной тенденцией является «медиана» - центр отсортированного списка. Что, если я добавлю ужасную опечатку в ваш список гонок, и это значение будет в 1000 раз длиннее всех остальных. Это испортит вашу оценку. Вы можете не ставить на победившую лошадь. Как вы решаете это? Вы можете вручную найти это одно значение или использовать «медиану».
Что, если вы играете в карты, например, в « блэкджек », и пытаетесь выяснить, нужна ли вам еще одна карта с учетом предыдущих карт. Карта, которую вы ищете, не 3.14, потому что номера карт являются целыми числами. Как вы определяете, какая ваша лучшая ставка, когда «среднее» или «медиана» не имеет смысла? В этом случае вы хотите сделать ставку на «режиме» - наиболее вероятной карте, которая выйдет из колоды дилеров.
Во всех трех случаях центральная тенденция - это просто еще один способ сказать «лучшая ставка».
Если вы хотите учитывать не только центральную тенденцию в своих ставках, то есть хотите ли вы делать ставки, чтобы иметь возможность уменьшить последствия проигрыша при максимальном выигрыше, тогда вы должны смотреть на «тенденции изменения». Такие вещи, как стандартное отклонение, интервалы между квантилями или альтернативные моды и их частоты, все используются для минимизации максимальных потерь при максимизации вероятных выигрышей.
источник
Я думаю, что полезно объяснить эту концепцию при рассмотрении нескольких средних, медиан и мод. Эти ценности не существуют сами по себе в вакууме.
Например, вот как я бы объяснил, значит.
Допустим, у вас есть 2 ящика с арбузами (ящик 1 и 2). Он изолирован, поэтому вы не можете видеть арбузы внутри и, следовательно, не знаете их размеров. Тем не менее, вы знаете общий вес арбузов в каждом ящике, и каждый содержит одинаковое количество арбузов. Исходя из этого, вы можете рассчитать средние веса каждого ящика арбузов (M1 и M2).
Теперь, когда у вас есть два разных средних значения M1 и M2, вы можете сделать грубое сравнение отдельных содержимого. Если M1> M2, то случайно выбранные арбузы из ящика 1 могут быть более тяжелыми, чем один, выбранный из ящика 2.
Конечно, я хотел бы комментировать эту точку зрения.
источник