Справочная информация:
мне пришлось провести анализ данных для клиента (своего рода юриста), который был абсолютным новичком в статистике. Он спросил меня, что означает термин «статистическая значимость», и я действительно попытался объяснить это… но так как я не очень хорош в объяснении вещей, я потерпел неудачу;)
statistical-significance
inference
communication
Daniel Ryback
источник
источник
ПРИМЕЧАНИЕ: в этом ответе я хочу подчеркнуть, что статистическая значимость является полезным инструментом, но также отличается от истины.
Возьмите колоду из 52 карт. Если мой клиент невиновен, то это обычная колода карт, 13 сердец. Если мой клиент лжет, это фиксированная колода, и все 52 карты - сердца.
Я рисую первую карту, и это сердце. Ага, виноват! Ну, очевидно, здравый смысл говорит нам, что это не так: был шанс один из четырех, что это случится, даже если он был невиновен. У нас нет статистической значимости только от просмотра одной карты.
Итак, мы берем вторую карту. Еще одно сердце. Хммм ... определенно виновен тогда! Что ж, в оставшихся 51 карточке оставалось еще 12 сердец, так что не исключено. Математика (13/52 * 12/51 = 0,0588) говорит нам, что это происходит примерно в 6% случаев, даже если она невинна. Для большинства ученых это все равно не считается.
Возьмите третью карту, еще одно сердце! Три в ряд. Шансы на это могут быть (13/52 * 12/51 * 11/50 = 0,01294), поэтому чуть более 1% времени это может произойти случайно.
В большей части науки 5% используется в качестве порогового значения. Поэтому, если у вас нет других доказательств, кроме этих трех карт, у вас есть статистически значимый результат, что он виновен.
Важным моментом является то, что чем больше карт вам разрешено смотреть, тем больше уверенности в его вине, что является другим способом сказать, чем выше становится статистическая значимость.
ПРИМЕЧАНИЕ: у вас никогда не будет доказательств его вины, если вам не разрешено просматривать 14 карт. С обычной колодой карт теоретически возможно нарисовать 13 сердец подряд, но 14 невозможно. [Помимо педантов: предположим, что цифры на карточках не видны; все карты - одна из четырех возможных мастей, и это все.]
ПРИМЕЧАНИЕ: у вас есть доказательства его невиновности в тот момент, когда вы берете любую карту, кроме сердца. Это потому, что было только два возможных пакета: нормальный или все сердца. В реальной жизни все сложнее, и математика тоже усложняется.
Кстати, если ваш клиент не является игроком в карты, попробуйте монополию: каждый иногда выбрасывает дабл-шесть; но если кто-то катит дважды шесть каждый раз, когда вы становитесь подозрительными. Статистика просто позволяет нам точно указать, насколько мы должны быть подозрительными.
источник
Мой собственный совет не говорить о следующих вещах:
Не будь слишком строг к себе с адвокатом. Это образованный человек, который провел по крайней мере один семестр в университетском классе по статистике, и с ним ничего не осталось. Это та же самая история практически для всех других неученых, с которыми я работал - статистическая значимость не сохраняется . Это слишком неестественная концепция.
Я призываю вас объяснить статистическую значимость с точки зрения доказательств . Классические статистики закодировали данные по шкале от 0 до 1, где меньшие значения составляют больше доказательств, а 0,05 - это то место, где обычно проводится линия.
источник
«Статистически значимый» означает, что что-то могло произойти случайно, но это маловероятно. Вместо этого гораздо более вероятно, что есть какая-то причина. Вы должны сделать это более конкретным с примером, который имеет отношение к вашему клиенту, так как это объяснение настолько абстрактно.
Например, если адвокат Энн выиграла в среднем гораздо больше дел, чем Билл, это могло произойти случайно. Однако, если Энн выиграла в статистически значимом большем количестве дел, тогда гораздо более вероятно, что есть что-то, что могло бы помочь объяснить, почему Энн выиграла больше дел, чем Билл. Мы не знаем причину. Возможно, Энн - лучший адвокат, или Билл намеренно выбирает более сложные дела.
источник
Сохраняйте это простым и кратким!
Значение p определяется как вероятность получения результатов, столь же или более экстремальных, как и значение, которое мы наблюдали, предполагая, что значение null истинно. Если значение p достаточно мало, то значение null, скорее всего, неверно. Мы произвольно выбираем отсечение для того, что мы считаем «достаточно маленьким» (альфа), и для всех значений p, которые падают ниже альфы, мы отклоняем нуль.
Вот как я объясняю это моему классу вступительной статистики.
источник
Я постараюсь.
Сначала вы вычисляете p-значение на основе средних данных и того, насколько переменными являются эти данные. Чем больше переменная, тем меньше вероятность получить небольшое значение p. С другой стороны, если, например, вы сравниваете две группы, чем больше разница между их средними, тем меньше значение p.
Кроме того, изменчивость данных может быть несколько компенсирована наличием большего количества данных. Отображение двух наборов данных с одинаковой разницей между двумя средними и одинаковой степенью изменчивости. В этом случае набор с большим размером выборки будет иметь меньшее значение p.
Тестовая часть просто проверяет, является ли значение p ниже некоторого числа. Обычно люди используют .05, но это произвольный социальный обычай. Многие люди думают, что нет смысла использовать произвольное число, но это очень распространено по историческим причинам.
Также имейте в виду, что только потому, что ваш тест значимости говорит, что есть разница между двумя группами, не означает, что вы знаете, почему есть такая разница. С другой стороны, если тест говорит, что нет существенной разницы, это может быть просто потому, что ваша изменчивость была слишком большой, и у вас не было достаточно данных, чтобы получить низкое значение p, это не значит, что фактической разницы нет.
Редактировать:
Подводя итог, более низкое значение р означает больше доказательств против прогноза:
Отличие от прогнозируемого результата -> Вниз p-значение
Больше данных -> Вниз p-значение
Больше изменчивости -> Up p-значение
Пониженное значение р означает больше доказательств того, что прогноз неверен. Каждое предсказание в истории было показано ложным с точностью до десятичного знака.
источник
Статистическая значимость - это концепция, используемая для обоснования принятия или отклонения данной гипотезы. Учитывая набор данных, аналитик может вычислить статистику и определить величину различных отношений между различными переменными.
Работа статистики состоит в том, чтобы определить, содержат ли данные достаточно данных, чтобы вы могли сделать вывод, что вычисленная статистика или взаимосвязи, наблюдаемые между переменными, могут быть интерпретированы как истинные утверждения или если результаты, наблюдаемые в данных выборки, просто случайны. Это делается путем определения некоторой выборочной статистики, которая будет демонстрировать определенные характеристики, если нулевая гипотеза верна, но не если нулевая гипотеза ложна. Чем больше релевантная статистика выборки демонстрирует характеристики, ожидаемые при нулевой гипотезе, тем сильнее статистическое свидетельство того, что нулевая гипотеза верна. Точно так же, чем меньше выборочная статистика демонстрирует характеристики, ожидаемые при нулевой гипотезе, тем слабее статистическое свидетельство того, что нулевая гипотеза верна.
Количество, в котором выборочная статистика демонстрирует характеристики, ожидаемые при нулевом значении, зависит от степени, но для того, чтобы сделать вывод, что нулевая гипотеза принята или отклонена, должна быть некоторая произвольная отсечка. Таким образом, значение отсечения выбрано. Если выборочная статистика находится в пределах или на одной стороне от предельного значения, то говорят, что она соответствует характеристикам, ожидаемым при нулевой гипотезе, и, таким образом, результат может считаться статистически значимым для данного предельного значения (например, при 5% альфа). уровень). Если соответствующая выборочная статистика попадает на другую сторону от предельного значения, то говорят, что она не соответствует характеристикам, ожидаемым при нулевой гипотезе, и, таким образом, результат не считается статистически значимым для данного предельного значения.
источник