Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит?
Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу объяснить это. Но когда вы объясняете явления реального мира, как вы понимаете разницу и ее применимость в «реальном мире», так сказать.
Допустим, мы моделируем инвестиции в акции, используя случайные числа (бросая кубик или используя лист Excel, не имеет значения). Мы получаем некоторую «отдачу от инвестиций», связывая каждый экземпляр случайной величины с «некоторым изменением» в доходности. Например.:
Свертывание 1 означает изменение в размере 0,8 на 1 долл. США при инвестировании, 5 - изменение 1,1 на 1 долл. США и т. Д.
Теперь, если эта симуляция будет выполняться примерно 50 раз (или 20 или 100), мы получим некоторые значения и окончательную стоимость инвестиций. Итак, что же на самом деле говорит нам «дисперсия», если мы рассчитываем ее по вышеуказанному набору данных? Что можно увидеть - если дисперсия окажется 1.7654 или 0.88765 или 5.2342, что это вообще означает? Что я мог наблюдать за этими инвестициями? Какие выводы я могу сделать - в терминах мирян.
Пожалуйста, не стесняйтесь дополнить вопрос стандартным отклонением! Хотя я чувствую, что это «легче» понять, но что-то, что способствовало бы тому, чтобы оно было «интуитивно» понятным, было бы очень цениться!
источник
Ответы:
Я бы, вероятно, использовал аналогию, которую я научил, чтобы дать «непрофессионалам», представляя концепцию смещения и дисперсии: аналогия в дартс. Смотри ниже:
Особое изображение выше взято из Энциклопедии машинного обучения , и ссылка на изображение - это «Введение в практику статистики» Мура и МакКейба .
РЕДАКТИРОВАТЬ:
Вот упражнение, которое я считаю довольно интуитивным: возьмите колоду карт (из коробки) и бросьте колоду с высоты около 1 фута. Попросите вашего ребенка забрать карточки и вернуть их вам. Затем, вместо того, чтобы бросить колоду, бросьте ее как можно выше и дайте картам упасть на землю. Попросите вашего ребенка забрать карточки и вернуть их вам.
Относительное веселье, которое они испытывают во время двух испытаний, должно дать им интуитивное чувство дисперсии :)
источник
Раньше я шутками учил статистику непрофессионалу, и обнаружил, что они многому учатся.
Предположим, что для дисперсии или стандартного отклонения довольно полезна следующая шутка:
шутка
Однажды два статистика ростом 4 фута и 5 футов должны пересечь реку СРЕДНЕЙ глубины 3 фута. Тем временем приходит третий статистик и говорит: «Чего вы ждете? Вы можете легко перейти реку»
Я предполагаю, что неспециалист знает о «среднем» сроке. Вы также можете задать им тот же вопрос, что они пересекут реку в этой ситуации?
Чего им не хватает, так это «дисперсии», чтобы решить «что делать в ситуации?»
Это все о ваших навыках презентации. Однако, шутки очень помогают непрофессионалу, который хочет понять статистику. Я надеюсь, что это помогает!
источник
Я бы сосредоточился на стандартном отклонении, а не на дисперсии; Разница в неправильном масштабе.
Так же как среднее значение является типичным значением, SD является типичным (абсолютным) отличием от среднего значения. Это мало чем отличается от сложения распределения в среднем и взятия среднего значения.
источник
Я не согласен со многими ответами, призывающими людей просто думать о дисперсии как о распространении. Как отмечают умные люди (Нассим Талеб), когда люди думают о дисперсии как о распространении, они просто предполагают, что это СУЩЕСТВУЕТ.
Дисперсия - это описание того, насколько далеки члены от среднего, И оно оценивает важность каждого наблюдения по этому же расстоянию. Это означает, что наблюдения далеко, судят более важно. Отсюда квадраты.
Я думаю, что дисперсию непрерывной равномерной переменной легче всего представить. Каждому наблюдению можно нарисовать квадрат. Укладка этих квадратов создает пирамиду. Разрежьте пирамиду пополам, чтобы половина веса была с одной стороны, а половина - с другой. Лицо, где вы режете это дисперсия.
источник
Может быть, это могло бы помочь. Я заранее прошу прощения, что как любитель, я могу ошибаться.
Представьте, что вы просите 1000 человек правильно угадать, сколько бобов находится в банке с желейными бобами. Теперь представьте, что вам не обязательно интересно знать правильный ответ (который может быть полезен), но вы хотите лучше понять, как люди оценивают ответ.
Неприятие могло быть объяснено непрофессионалу как распространение различных ответов (от самого высокого до самого низкого). Вы можете продолжить, добавив, что, если достаточное количество людей будет допрошено, правильный ответ должен лежать где-то посередине распространенных «оценок».
Теперь я обращаюсь к некоторым из моих более уважаемых коллег для вынесения решения
источник
Я сидел, пытаясь разгадать дисперсию, и вещь, которая, наконец, заставила его защелкнуться, стала смотреть на это графически.
Скажем, вы рисуете числовую линию с четырьмя точками, -7, -1, 1 и 7. Теперь нарисуйте воображаемую ось Y с теми же четырьмя точками вдоль измерения Y, и используйте пары XY, чтобы нарисовать квадрат для каждой пары. очков. Вы получите четыре отдельных квадрата, состоящих из 49, 1, 1 и 49 квадратов меньшего размера каждый. Каждый из них вносит вклад в общую сумму квадратов, которая сама по себе может быть представлена в виде большого квадрата 10 x 10 с общим числом 100 меньших квадратов.
Дисперсия - это размер среднего квадрата, способствующий увеличению этого квадрата. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Таким образом, 25 будет дисперсией. Стандартным отклонением будет длина одной из сторон этого среднего квадрата или 5.
Очевидно, что эта аналогия не охватывает весь нюанс понятия дисперсии. Есть много вещей, которые нужно объяснить, например, почему мы часто используем знаменатель n-1 для оценки параметра совокупности вместо простого использования n. Но в качестве основной концепции, к которой нужно привязать остальную часть подробного понимания различий, просто нарисовать его, чтобы я мог видеть, что это очень помогло. Это помогает понять, что мы имеем в виду, когда говорим, что дисперсия - это среднеквадратичное отклонение от среднего. Это также помогает понять, какое отношение SD имеет к этому среднему.
источник
Имейте много практики, обучающей мирян стандартным отклонениям и отклонениям.
TL; DR; Это что-то вроде среднего расстояния от среднего. (что немного сбивает с толку и вводит в заблуждение в такой краткой версии. Поэтому прочитайте статью полностью)
Я предполагаю, что неспециалист знает о среднем. Я говорю о важности знания SD и оценки ошибок (см. PS ниже). Тогда я обещаю, что никакие знания по математике или сакральной статистике не будут использоваться - только сухие рассуждения и чистая логика.
Проблема. Допустим, у нас есть термометр (я выбираю измерительное устройство в зависимости от того, что ближе к слуховому).
Мы сделали N измерений той же температуры, и термометр показал нам что-то вроде 36,5, 35,9, 37,0, 36,6, ... (см. Рис.). Мы знаем, что реальная температура была одинаковой, но термометр нам лжет чуть-чуть при каждом измерении.
Как мы можем оценить, сколько эта маленькая мразь нам лжет?
Мы можем рассчитать среднее значение (см. Красную линию на рисунке ниже). Можем ли мы в это поверить? Даже после усреднения достаточно ли точности для наших нужд?
Самый простой подход . Мы можем взять самую дальнюю точку, вычислить расстояние между ней и средним (красная линия) и сказать, что именно так нам и соответствует термометр, потому что это максимальная ошибка, которую мы видим. Можно предположить, что это не лучшая оценка. Если мы посмотрим на картинку, то большинство точек находятся на среднем уровне, как мы можем определить только одну точку? На самом деле можно практиковать нумерацию причин, почему такая оценка является грубой и обычно плохой.
Дисперсия . Тогда ... давайте возьмем все расстояния и посчитаем среднее расстояние !
Кстати, как рассчитать расстояние? Когда вы слышите «расстояние» на английском (испанский? Датский?), Оно переводится как «вычитать» в математике. Таким образом, мы начинаем нашу формулу с где - среднее значение, а - одно из измерений.(xi−x¯) x¯ xi
Тогда можно представить, что формула среднего расстояния будет суммировать все и делить на N:
Но есть проблема. Мы можем легко увидеть, например. 36,4 и 36,8 находятся на одинаковом расстоянии от 36,6. но если мы поместим значения в формулу выше, мы получим -0.2 и +0.2, а их сумма будет равна 0, а это не то, что нам нужно.
Как избавиться от знака? (В этот момент непрофессионалы обычно говорят: «Примите абсолютное значение» и получите предположение, что «получение абсолютного значения немного искусственно, как по-другому?»). Мы можем возвести в квадрат значения! Тогда формула становится:
Эта формула называется «Дисперсия» в статистике. И гораздо лучше оценивать разброс значений нашего термометра (или чего-либо еще), чем брать только максимальное расстояние.
Стандартное отклонение . Но все же есть еще одна проблема. Посмотрите на формулу дисперсии. Квадраты делают наши единицы измерения ... квадратными. Если термометр измеряет температуру в ° C (или ° F), то наша оценка погрешности измеряется в (или ). Как нейтрализовать квадраты? - Используйте квадратный корень!°C2 °F2
Итак, здесь мы приходим к формуле стандартного отклонения, которая обычно обозначается как . И это лучший способ оценить точность нашего устройства.σ
На этом этапе непрофессионал довольно ясно понимает, как мы сюда попадаем и как работает стандартное отклонение / дисперсия. С этого момента я обычно перехожу к правилу 68–95–99.7, описывающему также выборку и популяцию, стандартную ошибку и условия стандартного отклонения и т. Д.
PS Важность знания SD разговора пример:
Допустим, у вас есть какое-то измерительное устройство, которое стоит 1 000 000 $ . И это дает вам ответ: 42. Как вы думаете, один заплатил 1 000 000 $ за 42? Phooey! Один заплатил 1000 000 за точность этого ответа. Потому что Value - ничего не стоит, не зная его Error. Вы платите за ошибку, а не за стоимость. Вот хороший пример из жизни.
В обычной жизни в большинстве случаев мы используем линейку для измерения расстояния. Линейка дает вам точность около одного миллиметра (если вы не в США). Что если вам нужно выйти за миллиметр и измерить что-то с точностью до 0,1 мм? - Вы, вероятно, использовали бы штангенциркуль. Теперь легко проверить, что самая дешевая линейка (но все еще с точностью до миллиметра) стоит центов, в то время как хороший суппорт стоит десятую часть долларов. 2 величины цены за 1 величину точности. И это очень обычно из того, сколько вы платите за ошибку.
источник
Я думаю, что ключевая фраза, которую следует использовать при объяснении как дисперсии, так и стандартного отклонения, - это «мера разброса» . На самом базовом языке дисперсия и стандартное отклонение говорят нам, насколько хорошо распределены данные. Чтобы быть немного более точным, хотя все еще обращаясь к неспециалисту, они говорят нам, насколько хорошо данные распределены по среднему значению. Попутно обратите внимание, что среднее является «мерой местоположения» . Чтобы завершить объяснение для неспециалиста, следует подчеркнуть, что стандартное отклонение выражается в тех же единицах, что и данные, с которыми мы работаем, и именно по этой причине мы берем квадратный корень из дисперсии. т.е. два связаны.
Я думаю, что это краткое объяснение поможет. В любом случае, это похоже на объяснение вводного учебника.
источник
Я рассматриваю дисперсию распределения как момент инерции с осью, которая в среднем распределения и каждой массы равна 1. Эта интуиция сделала бы абстрактную концепцию конкретной.
Первый момент - среднее значение распределения, а второй момент - дисперсия.
Ссылка: первый курс вероятности 8-е издание
источник
Я бы назвал это средним положительным отличием от общего среднего.
источник