Как бы вы объяснили статистическую значимость людям без статистического фона?

11

Справочная информация:
мне пришлось провести анализ данных для клиента (своего рода юриста), который был абсолютным новичком в статистике. Он спросил меня, что означает термин «статистическая значимость», и я действительно попытался объяснить это… но так как я не очень хорош в объяснении вещей, я потерпел неудачу;)

Daniel Ryback
источник

Ответы:

15

Различия случаются в результате случайности.

Когда мы считаем, что что-то является статистически значимым, мы считаем, что разница больше, чем это можно обоснованно объяснить как случайность.

Чарльз
источник
Мне нравится использовать случайность, но я думаю, что это вводит в заблуждение с точки зрения того, как обычно используется тест значимости. Например, большой размер выборки означает, что вы почти всегда получите значимость из-за «случайных» базовых различий. Довольно широко распространено мнение, что эти результаты можно назвать «статистически значимыми», хотя их разумно объясняют случайно.
Настой
@Flask: в каком смысле эти базовые различия обусловлены случайностью?
Scortchi - Восстановить Монику
@ Scortchi Если рандомизация была выполнена, то различия могут быть случайными. Смотрите здесь . Даже если это было выполнено, что-то может привести к смещению позже. Смотрите здесь . Если рандомизация не была выполнена, то это может быть связано с случайностью или предвзятостью следователя или по ряду причин.
Настой
1
Полезный ответ за исключением того, что он применяется только к тестам на различия.
rolando2
2
+1 Это отличный ответ, потому что он избегает тайн р-значений, вероятностей, распределений, нулевых гипотез и т. Д. И подходит к сути таким образом, который применим к тому, с чем будет иметь дело большинство юристов. То, что это не может быть исчерпывающим, не относится к делу: детали и варианты могут быть рассмотрены позже. Если настаивать на том, чтобы улучшить это, основное изменение, которое я бы сделал, состояло в том, чтобы подчеркнуть, что убеждения о статистической значимости основаны на данных : это отличало бы это описание от, скажем, теологических убеждений.
whuber
3

ПРИМЕЧАНИЕ: в этом ответе я хочу подчеркнуть, что статистическая значимость является полезным инструментом, но также отличается от истины.

Возьмите колоду из 52 карт. Если мой клиент невиновен, то это обычная колода карт, 13 сердец. Если мой клиент лжет, это фиксированная колода, и все 52 карты - сердца.

Я рисую первую карту, и это сердце. Ага, виноват! Ну, очевидно, здравый смысл говорит нам, что это не так: был шанс один из четырех, что это случится, даже если он был невиновен. У нас нет статистической значимости только от просмотра одной карты.

Итак, мы берем вторую карту. Еще одно сердце. Хммм ... определенно виновен тогда! Что ж, в оставшихся 51 карточке оставалось еще 12 сердец, так что не исключено. Математика (13/52 * 12/51 = 0,0588) говорит нам, что это происходит примерно в 6% случаев, даже если она невинна. Для большинства ученых это все равно не считается.

Возьмите третью карту, еще одно сердце! Три в ряд. Шансы на это могут быть (13/52 * 12/51 * 11/50 = 0,01294), поэтому чуть более 1% времени это может произойти случайно.

В большей части науки 5% используется в качестве порогового значения. Поэтому, если у вас нет других доказательств, кроме этих трех карт, у вас есть статистически значимый результат, что он виновен.

Важным моментом является то, что чем больше карт вам разрешено смотреть, тем больше уверенности в его вине, что является другим способом сказать, чем выше становится статистическая значимость.

ПРИМЕЧАНИЕ: у вас никогда не будет доказательств его вины, если вам не разрешено просматривать 14 карт. С обычной колодой карт теоретически возможно нарисовать 13 сердец подряд, но 14 невозможно. [Помимо педантов: предположим, что цифры на карточках не видны; все карты - одна из четырех возможных мастей, и это все.]

ПРИМЕЧАНИЕ: у вас есть доказательства его невиновности в тот момент, когда вы берете любую карту, кроме сердца. Это потому, что было только два возможных пакета: нормальный или все сердца. В реальной жизни все сложнее, и математика тоже усложняется.

Кстати, если ваш клиент не является игроком в карты, попробуйте монополию: каждый иногда выбрасывает дабл-шесть; но если кто-то катит дважды шесть каждый раз, когда вы становитесь подозрительными. Статистика просто позволяет нам точно указать, насколько мы должны быть подозрительными.

Даррен Кук
источник
3

Мой собственный совет не говорить о следующих вещах:

  1. р-значение,
  2. тест-статистика,
  3. Вероятность того, что все случится случайно, одна.

Не будь слишком строг к себе с адвокатом. Это образованный человек, который провел по крайней мере один семестр в университетском классе по статистике, и с ним ничего не осталось. Это та же самая история практически для всех других неученых, с которыми я работал - статистическая значимость не сохраняется . Это слишком неестественная концепция.

Я призываю вас объяснить статистическую значимость с точки зрения доказательств . Классические статистики закодировали данные по шкале от 0 до 1, где меньшие значения составляют больше доказательств, а 0,05 - это то место, где обычно проводится линия.

Бен Огорек
источник
Имхо идея сиг. может придерживаться не ученых; то, что часто считают неестественным, это техническое определение, если люди заходят так далеко. Что касается доказательств, то, конечно, речь идет о доказательствах: вопрос в том, как статистически иметь дело с доказательствами, чтобы прийти к решению о сиге.
rolando2
Мне нравится ваш оптимизм, но я не согласен с тем, что для типичного человека очевидно, что статистическая значимость связана с доказательствами. Я думаю, что они видят в этом что-то вроде переключения при перевороте, когда ваш набор данных становится достаточно большим, и все вычисленные числа теперь как-то «действительны». Вы утверждаете, что непрофессионалу важно знать, как количественно оцениваются доказательства, поэтому будьте готовы поговорить о вероятностях, рассчитанных по гипотезе, которую вы, вероятно, не считали верной с самого начала.
Бен Огорек
Ах, но если вы говорите о доказательствах, вы входите в байесовскую землю.
Артур Б.
1
Я не думаю, что байесовцы владеют «доказательствами» (концепцией), хотя они, безусловно, формализовали их. Я бы сказал, что небольшое значение р является доказательством чего-либо.
Бен Огорек
1

«Статистически значимый» означает, что что-то могло произойти случайно, но это маловероятно. Вместо этого гораздо более вероятно, что есть какая-то причина. Вы должны сделать это более конкретным с примером, который имеет отношение к вашему клиенту, так как это объяснение настолько абстрактно.

Например, если адвокат Энн выиграла в среднем гораздо больше дел, чем Билл, это могло произойти случайно. Однако, если Энн выиграла в статистически значимом большем количестве дел, тогда гораздо более вероятно, что есть что-то, что могло бы помочь объяснить, почему Энн выиграла больше дел, чем Билл. Мы не знаем причину. Возможно, Энн - лучший адвокат, или Билл намеренно выбирает более сложные дела.

Джонатан
источник
0

Сохраняйте это простым и кратким!

Значение p определяется как вероятность получения результатов, столь же или более экстремальных, как и значение, которое мы наблюдали, предполагая, что значение null истинно. Если значение p достаточно мало, то значение null, скорее всего, неверно. Мы произвольно выбираем отсечение для того, что мы считаем «достаточно маленьким» (альфа), и для всех значений p, которые падают ниже альфы, мы отклоняем нуль.

Вот как я объясняю это моему классу вступительной статистики.

TrynnaDoStat
источник
Но что, если у вас нет возможности выбрать правдоподобную нулевую гипотезу (т. Е. Никогда не бывает абсолютно равных двух групп людей, но у вас также нет достаточной информации, чтобы предсказать что-либо лучше, чем mean1 = mean2)? Объяснение статистической значимости без упоминания ограничений может нанести вред.
Настой
0

Я постараюсь.

Сначала вы вычисляете p-значение на основе средних данных и того, насколько переменными являются эти данные. Чем больше переменная, тем меньше вероятность получить небольшое значение p. С другой стороны, если, например, вы сравниваете две группы, чем больше разница между их средними, тем меньше значение p.

Кроме того, изменчивость данных может быть несколько компенсирована наличием большего количества данных. Отображение двух наборов данных с одинаковой разницей между двумя средними и одинаковой степенью изменчивости. В этом случае набор с большим размером выборки будет иметь меньшее значение p.

Тестовая часть просто проверяет, является ли значение p ниже некоторого числа. Обычно люди используют .05, но это произвольный социальный обычай. Многие люди думают, что нет смысла использовать произвольное число, но это очень распространено по историческим причинам.

Также имейте в виду, что только потому, что ваш тест значимости говорит, что есть разница между двумя группами, не означает, что вы знаете, почему есть такая разница. С другой стороны, если тест говорит, что нет существенной разницы, это может быть просто потому, что ваша изменчивость была слишком большой, и у вас не было достаточно данных, чтобы получить низкое значение p, это не значит, что фактической разницы нет.

Редактировать:

Подводя итог, более низкое значение р означает больше доказательств против прогноза:

Отличие от прогнозируемого результата -> Вниз p-значение

Больше данных -> Вниз p-значение

Больше изменчивости -> Up p-значение

Пониженное значение р означает больше доказательств того, что прогноз неверен. Каждое предсказание в истории было показано ложным с точностью до десятичного знака.

колба
источник
0

Статистическая значимость - это концепция, используемая для обоснования принятия или отклонения данной гипотезы. Учитывая набор данных, аналитик может вычислить статистику и определить величину различных отношений между различными переменными.

Работа статистики состоит в том, чтобы определить, содержат ли данные достаточно данных, чтобы вы могли сделать вывод, что вычисленная статистика или взаимосвязи, наблюдаемые между переменными, могут быть интерпретированы как истинные утверждения или если результаты, наблюдаемые в данных выборки, просто случайны. Это делается путем определения некоторой выборочной статистики, которая будет демонстрировать определенные характеристики, если нулевая гипотеза верна, но не если нулевая гипотеза ложна. Чем больше релевантная статистика выборки демонстрирует характеристики, ожидаемые при нулевой гипотезе, тем сильнее статистическое свидетельство того, что нулевая гипотеза верна. Точно так же, чем меньше выборочная статистика демонстрирует характеристики, ожидаемые при нулевой гипотезе, тем слабее статистическое свидетельство того, что нулевая гипотеза верна.

Количество, в котором выборочная статистика демонстрирует характеристики, ожидаемые при нулевом значении, зависит от степени, но для того, чтобы сделать вывод, что нулевая гипотеза принята или отклонена, должна быть некоторая произвольная отсечка. Таким образом, значение отсечения выбрано. Если выборочная статистика находится в пределах или на одной стороне от предельного значения, то говорят, что она соответствует характеристикам, ожидаемым при нулевой гипотезе, и, таким образом, результат может считаться статистически значимым для данного предельного значения (например, при 5% альфа). уровень). Если соответствующая выборочная статистика попадает на другую сторону от предельного значения, то говорят, что она не соответствует характеристикам, ожидаемым при нулевой гипотезе, и, таким образом, результат не считается статистически значимым для данного предельного значения.

tjnel
источник
Но как часто действительно определенная группа населения заранее определяет, к чему должны относиться результаты. Обычно приводятся аргументы для применения результата за пределами изученной популяции, которая была уникальной выборкой. Насколько эта уникальность предметов / каких-либо вопросов неизвестна во многих обстоятельствах. Исключение может быть производственным контроль качества, но тестирование значения используется гораздо более широко , чем это. Я только хочу подчеркнуть ограничения процедуры, которые были исключены из моего собственного образования.
Настой
@ Фласк, это хорошая мысль. Я отредактировал свой ответ, чтобы попытаться сделать его более общим.
tjnel