Есть идеи, почему мы не используем значимые цифры в статистике? Что-то вроде того, что мы используем оценки, поэтому правила о точности не применяются;)?
Пример того, как внимание к значимым цифрам действительно имеет значение, представлен на stats.stackexchange.com/questions/113314 , где OP получил заметно отличающиеся результаты регрессии, прослеживаемые в различиях в точности, с которой данные вводились в процедуры регрессии.
whuber
Ответы:
19
Значимые цифры используются в некоторых областях (я узнал о них в химии), чтобы указать степень значимой точности, которая существует в числе. Это также важная тема в статистике, поэтому мы постоянно сообщаем об этом - мы просто сообщаем об этом в другой форме. В частности, мы сообщаем доверительные интервалы , которые указывают уровень точности оценки (такой как среднее значение).
После того как вы указали 95% -й доверительный интервал для оценки, например , вы можете указать количество цифр для своего среднего значения, например, , и проблем не будет. На самом деле, статистик Эндрю Гельман рекомендовал перечислить как минимум четыре (2009, стр. 4) . 0,50129519823975923(−0.12,1.12)0.50129519823975923
(Последняя часть - язык в щеке, извините за мою непочтительность ;-).
gung - Восстановить Монику
2
+1. Кажется, большое количество цифр вызывает непочтительные ответы: посмотрите последние несколько строк моего ответа на аналогичный вопрос на другом сайте SE.
whuber
@gung Как вы решили представлять конечные точки CI с двумя десятичными знаками?
user765195
@ user765195, я сделал эти цифры. На самом деле не относится ни к чему.
gung - Восстановить Монику
@gung Я хотел спросить, какова точность конечных точек КИ? Сколько цифр допустимо, скажем, когда вы вычисляете КИ Уилсона для биномиальной пропорции?
user765195
12
Одна из причин ограничения количества цифр, сообщаемых во многих оценках, p-значениях и т. Д., Основана на восприятии. Сообщение о чем-то вроде p = 0.04872429 подразумевает уровень точности в результатах, который заставляет их восприниматься как более точные .
По сути, использование большого количества цифр в отчетах о статистических результатах является слишком большой попыткой скрыть ваши выводы в незаслуженном авторитете.
Я думаю, что это действительно зависит от требуемого уровня достоверности, для 95% подходит меньшее количество цифр значимости, в отличие от 99,999% или выше, например, используемых ЦЕРН для многих их результатов.
Для дальнейшего пояснения статья Википедии о точности и точности послужит хорошим чтением для оригинального плаката.
Роберт Джонс
Это хороший момент, но даже когда certain = .05 округление в определенных вычислениях может оказать большое влияние на результат.
timothy.s.lau
1
Вы говорите о округлении ваших данных до некоторого числа значащих цифр или округлении вашего окончательного ответа? Если вы округлите свои данные, вы можете попасть в ситуации, в которых вы выбросили шум, который необходимо использовать для статистических расчетов.
Ответы:
Значимые цифры используются в некоторых областях (я узнал о них в химии), чтобы указать степень значимой точности, которая существует в числе. Это также важная тема в статистике, поэтому мы постоянно сообщаем об этом - мы просто сообщаем об этом в другой форме. В частности, мы сообщаем доверительные интервалы , которые указывают уровень точности оценки (такой как среднее значение).
После того как вы указали 95% -й доверительный интервал для оценки, например , вы можете указать количество цифр для своего среднего значения, например, , и проблем не будет. На самом деле, статистик Эндрю Гельман рекомендовал перечислить как минимум четыре (2009, стр. 4) . 0,50129519823975923(−0.12,1.12) 0.50129519823975923
источник
Одна из причин ограничения количества цифр, сообщаемых во многих оценках, p-значениях и т. Д., Основана на восприятии. Сообщение о чем-то вроде p = 0.04872429 подразумевает уровень точности в результатах, который заставляет их восприниматься как более точные .
По сути, использование большого количества цифр в отчетах о статистических результатах является слишком большой попыткой скрыть ваши выводы в незаслуженном авторитете.
источник
Я думаю, что это действительно зависит от требуемого уровня достоверности, для 95% подходит меньшее количество цифр значимости, в отличие от 99,999% или выше, например, используемых ЦЕРН для многих их результатов.
источник
Вы говорите о округлении ваших данных до некоторого числа значащих цифр или округлении вашего окончательного ответа? Если вы округлите свои данные, вы можете попасть в ситуации, в которых вы выбросили шум, который необходимо использовать для статистических расчетов.
источник