Как ваш любимый дилетант объясняет сложную статистическую концепцию?

36

Мне действительно нравится слушать простые объяснения сложных проблем. Какая ваша любимая аналогия или анекдот, объясняющий сложную статистическую концепцию?

Мое любимое объяснение Мюррея коинтеграции с использованием пьяницы и ее собаки. Мюррей объясняет, как два случайных процесса (странствующий пьяница и ее собака Оливер) могут иметь единичные корни, но все же быть родственными (объединенными), поскольку их совместные первые различия являются стационарными.

Пьяный выходит из бара, собираясь бесцельно бродить в случайном порядке. Но она периодически произносит «Оливер, где ты?», И Оливер прерывает его бесцельное блуждание лаять. Он слышит ее; она слышит его. Он думает: «О, я не могу позволить ей уйти слишком далеко; она меня заблокирует». Она думает: «О, я не могу позволить ему уйти слишком далеко; он разбудит меня посреди ночи своим лаем». Каждый оценивает, насколько далеко находится другой, и движется, чтобы частично закрыть этот разрыв.

братчи
источник

Ответы:

18

Значение p является мерой того, насколько смущают данные нулевая гипотеза

Николас Максвелл, Data Matters: концептуальная статистика для случайного мира Emeryville CA: Key College Publishing, 2004.

Фрэнк Харрелл
источник
15
  1. Если вы вырезали свое распределение (гистограмму) из дерева и попытались уравновесить его на своем пальце, точка равновесия была бы средним значением, независимо от формы распределения.

  2. Если вы поместите палку в середину графика рассеяния и прикрепите ее к каждой точке данных с помощью пружины, то точкой покоя палочки будет ваша линия регрессии. [1]

[1] технически это будет регрессия главных компонентов. вам бы пришлось заставить пружины двигаться только «вертикально», чтобы быть наименьшими квадратами, но пример в любом случае иллюстративен.

Нил Макгиган
источник
2
Усилие пружины пропорционально деформации, так что это не регрессия наименьших квадратов!
Шаббычеф
1
Хорошая попытка! Зависит от весны. Например, если константа пружины равна 1 / сигма, прекрасно работает;)
Нил Макгиган
2
L1Y
L1L1
12

Я использовал прогулку пьяницы раньше для случайной прогулки, а пьяницу и ее собаку для коинтеграции; они очень полезны (частично потому что они забавны).

Один из моих любимых распространенных примеров - парадокс дня рождения ( статья в Википедии ), который иллюстрирует некоторые важные понятия вероятности. Вы можете смоделировать это с комнатой, полной людей.

Кстати, я настоятельно рекомендую «Учебную статистику: мешок с уловками» Эндрю Гельмана для некоторых примеров креативных способов преподавания статистических концепций (см. Оглавление ). Также посмотрите на его статью о курсе, который он преподаёт по преподаванию статистики: «Курс по обучению статистике на уровне университета» . И на "Обучении Байеса аспирантам в Политологии, Социологии, Общественном здравоохранении, Образовании, Экономике, ..." .

Для описания байесовских методов использование недобросовестной монеты и многократное ее переворачивание является довольно распространенным / эффективным подходом.

Шейн
источник
1
Нет такой вещи, как нечестная монета: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Тим
11

Мне нравится демонстрировать вариацию выборки и, по существу, центральную предельную теорему в упражнении «в классе». Все в классе, скажем, 100 учеников записывают свой возраст на листе бумаги. Все листы бумаги одинакового размера и сложены одинаковым образом после того, как я вычислил среднее значение. Это население, и я рассчитываю средний возраст. Затем каждый ученик случайным образом выбирает 10 листов бумаги, записывает возраст и возвращает их в сумку. (S) он вычисляет среднее значение и передает сумку следующему студенту. В конце концов у нас есть 100 выборок из 10 студентов, каждая из которых оценивает среднее значение численности населения, которое мы можем описать с помощью гистограммы и некоторой описательной статистики.

Затем мы повторим демонстрацию на этот раз, используя набор из 100 «мнений», которые повторяют некоторые вопросы «да / нет» из недавних опросов, например, если бы выборы в (британский генерал) были назначены завтра, вы бы подумали голосовать за Британскую национальную партию. Студенты их образец 10 из этих мнений.

В конце мы продемонстрировали вариацию выборки, центральную предельную теорему и т. Д. Как с непрерывными, так и с двоичными данными.

Грэм Куксон
источник
10

Определенно проблема Монти Холла. http://en.wikipedia.org/wiki/Monty_Hall_problem

Стивен Тернер
источник
1
+1 эта проблема исказила мой мозг, когда я впервые прочитал и подумал об этом - и решение довольно простое, но многое говорит о вероятности.
Шарпи
1
Я считаю, что проблема Монти Холла - это не просто объяснение вероятности простым дилетантом. Я понимаю это, но мне все еще трудно обернуть голову вокруг этого, не говоря уже о том, чтобы понять это достаточно хорошо, чтобы объяснить это людям, не занимающимся статистикой, и попросить их чему-то научиться ... Во всяком случае, вы не указываете ли проблема это ваша сложная концепция или объяснение вашего непрофессионала . -1 пока не сделаешь.
naught101
2
Самый простой способ объяснить проблему Монти Холла - представить себе ту же проблему, но с 1000 дверями - у 999 из них есть коза позади них, и только у 1 из них есть машина позади нее. Скажем, вы выбираете дверь, и ведущий игрового шоу открывает 998 других дверей и спрашивает вас, хотите ли вы изменить свое решение на ту, которую он не открыл. Зная, что он не мог открыть дверь, когда за ней находилась машина, вам пришлось бы переключиться на другую дверь (или быть до смешного уверенным, что вы были правы в своем первоначальном выборе).
Berk U.
10

1) Хорошая демонстрация того, как «случайное» необходимо определить для определения вероятности определенных событий:

Какова вероятность того, что случайная линия, проведенная по кругу, будет длиннее радиуса?

Вопрос полностью зависит от того, как вы рисуете свою линию. Возможности, которые вы можете описать в реальном мире для круга, нарисованного на земле, могут включать:

Нарисуйте две случайные точки внутри круга и проведите линию через них. (Смотрите, где падают две мухи / камни ...)

Выберите фиксированную точку на окружности, затем случайную точку в другом месте круга и присоединитесь к ней. (По сути это кладка палки по кругу под переменным углом через заданную точку и случайную, например, где падает камень.)

Нарисуйте диаметр. Случайно выберите точку вдоль нее и проведите через нее перпендикуляр. (Катите палку по прямой линии, чтобы она лежала по кругу.)

Относительно легко показать кого-то, кто может сделать некоторую геометрию (но не обязательно статистику), ответ на вопрос может варьироваться довольно широко (от 2/3 до 0,866 или около того).

(1210)

3) Объяснение, почему медицинский диагноз может показаться неверным. Тест на болезнь foo, который на 99,9% точен при выявлении тех, у кого он есть, но 0,1% ложно-положительного диагноза тех, у кого его нет, может показаться неправильным действительно так часто, когда распространенность заболевания действительно низкая ( например, 1 на 1000), но многие пациенты проверяются на это.

Это тот, который лучше всего объяснить действительными числами - представьте, что 1 миллион человек проходят тестирование, поэтому у 1000 человек заболевание, 999 правильно идентифицированы, но 0,1% из 999 000 - это 999, которым говорят, что они есть, но нет. Таким образом, половина тех, кому говорят, что у них это есть, на самом деле нет, несмотря на высокий уровень точности (99,9%) и низкий уровень ложных срабатываний (0,1%). Второй (в идеале другой) тест затем выделит эти группы.

[Между прочим, я выбрал числа, потому что с ними легко работать, конечно, они не должны прибавлять до 100%, поскольку показатели точности / ложных срабатываний являются независимыми факторами в тесте.]

AdamV
источник
2
Я думаю, что ваш первый пример относится к парадоксу Бертрана. Очень хорошая иллюстрация различных способов определения вероятностного пространства!
ЧЛ
9

Книга Сэма Сэвиджа « Порок средних» полна хороших непонятных объяснений статистических концепций. В частности, у него есть хорошее объяснение неравенства Дженсена. Если график вашего дохода от инвестиций выпуклый, т.е. он «улыбается вам», то случайность в вашу пользу: ваш средний доход больше, чем ваш средний доход.

Джон Д. Кук
источник
6

Бехар и др. Имеют коллекцию из 25 аналогий для преподавания статистики. Вот два примера:

2.9 Все модели являются теоретическими: Во Вселенной нет совершенных сфер. Кажется, что наиболее распространенной геометрической формой во вселенной является сфера. Но сколько математически совершенных сфер существует во вселенной? Ответ - нет. Ни Земля, ни Солнце, ни бильярдный шар не являются идеальной сферой. Итак, если нет истинных сфер, что хорошего в формулах для определения площади или объема сферы? Так же и со статистическими моделями в целом и, в частности, с нормальным распределением. Хотя одним из наиболее распространенных примеров является распределение по высоте, если бы мы имели в своем распоряжении рост каждого взрослого на планете, профиль гистограммы не соответствовал бы гауссовой кривой колокола, даже если данные были расслоены по полу, раса или любая другая характеристика.

2.25 Остатки не должны содержать информацию: Остатки мусора - это то, что остается после удаления всей информации из данных. Поскольку они не должны содержать никакой информации, мы рассматриваем их как «мусор». Необходимо убедиться, что мы не выбрасываем мусор, который имеет значение (информацию) и который можно использовать для лучшего объяснения поведения зависимой переменной.

Другие примеры включают

  • «Влияние размера образца на сравнение обработок: увеличение бинокля»
  • «Размер выборки в зависимости от численности населения: ложка для дегустации супа»

Ссылки

  • Бехар Р., Грима П. и Марко-Альмагро Л. (2012). Двадцать пять аналогий для объяснения статистических концепций. Американский статистик, (только что принят).
Джером англим
источник
3

Веселый вопрос.

Кто-то узнал, что я работаю в области биостатистики, и они спросили меня (в основном): «Разве статистика не является способом лжи?»

(Что возвращает цитату Марка Твена о лжи, проклятой лжи и статистике.)

Я пытался объяснить, что статистика позволяет нам со 100-процентной точностью сказать, что, учитывая предположения и данные, что вероятность такого-то была именно такой-то.

Она не была впечатлена.

оборота Майк Данлавей
источник
1
«Позволяет нам сказать со 100% точностью, насколько велика наша нехватка точности»
naught101
Если не прямое опровержение, то ответ @ Jeromy подсказывает, почему следует отказаться от понятия «100% точность».
rolando2