Количество значащих цифр для отчета

12

Существует ли более научный способ определения количества значащих цифр, сообщаемых для среднего значения или доверительного интервала в ситуации, которая является довольно стандартной - например, первый год обучения в колледже.

Я видел количество значащих цифр в таблице : почему мы не используем значащие цифры и количество значащих цифр в квадратной форме , но они, похоже, не решают проблему.

На моих уроках я пытаюсь объяснить своим ученикам, что тратить чернила, чтобы сообщить 15 значащих цифр, когда они имеют столь широкую стандартную ошибку в своих результатах, - мое интуитивное чувство состояло в том, что оно должно быть округлено примерно до порядка . Это не слишком отличается от того, что говорится в ASTM - Отчет о результатах испытаний со ссылкой на E29, где они говорят, что он должен быть между и .0,05 σ 0,5 σ0,25σ0,05σ0,5σ

РЕДАКТИРОВАТЬ:

Когда у меня есть набор чисел, как xпоказано ниже, сколько цифр я должен использовать, чтобы напечатать среднее значение и стандартное отклонение?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

ВОПРОС: Подробно объясните, какова точность (когда есть вектор чисел двойной точности) для среднего и стандартного отклонения в этом, и напишите простую педагогическую функцию R, которая выведет среднее значение и стандартное отклонение для значительного числа цифр, которые отражается в векторе x.

Шон
источник
Я не понимаю, почему «Количество значащих цифр в таблице» не в полной мере отвечает на ваш вопрос: в какой момент этот вопрос упущен?
whuber
Мне нравится ваш ответ на этот вопрос @whuber, но мне бы хотелось немного подробнее.
Шон
1
Но подробно о чем? В любом случае звучит так, будто ваш вопрос действительно является точной копией этого вопроса , и вы хотели бы видеть улучшения его ответов. Я прав? Кстати, если вы ищете педагогическое руководство, я хотел бы указать вам на один (специализированный) пример, который я разместил по адресу gis.stackexchange.com/questions/8650 относительно представления географических координат: идея заключается в том, чтобы связать числа значимых цифры с объектами, размеры которых большинство читателей легко и интуитивно поймут. Подобный подход может хорошо работать в других приложениях.
whuber
1
@whuber да, вы правы, и мне нравится этот пример. Я предполагаю, что я ищу больше деталей о том, как точность связана со стандартным отклонением. Например, в R, x <- норма (30); значит , (х); sd (x) # здесь ясно, что sd составляет около 1, но в R среднее значение выводится по умолчанию с точностью до 7 цифр. сд (х) / 30 составляет около 0,18. Спасибо
Шон
В R(а также почти во всех программах) печать контролируется глобальным значением (см. options(digits=...)), А не соображениями точности.
whuber

Ответы:

9

Руководство по неопределенности в измерениях (GUM) рекомендует сообщать о неопределенности не более чем из двух цифр и сообщать о результате с количеством значащих цифр, необходимых для его соответствия неопределенности. Смотрите Раздел 7.2.2 ниже

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

Следующий код был моей попыткой реализовать эту рекомендацию в R. Noe, что R может не сотрудничать с попытками сохранить конечные нули в выходных данных, даже если они значительны.

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)
Том
источник
Для полноты: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
ромбододекаэдр
@ rhombidodecahedron не должен ли неопределенность иметь только одну значимую цифру здесь? 82 ± 3 (× 10²)
JFS
@jfs рекомендация гласит использование двух значащих цифр в неопределенности, не так ли?
ромбододекаэдр
@rhombidodecahedron в ответе говорится "не более 2" . Критерии в GUM для меня неясны. В таблице 3 из arxiv.org/pdf/1301.1034.pdf предлагается 1 значащая цифра для отчета менее чем за 7 измерений.
JFS
Пример кода не соответствует предложенному правилу GUM. Если val = 8165.666и unc = 338.9741, измерение следует указывать как val = 8.17(34)*10^3(не val = 8170с unc = 340указанным), чтобы прояснить, что значимы только две цифры неопределенности.
Divenex
6

Если вы показываете доверительный интервал, а также значение статистики, то нет проблем с указанием столько значащих цифр, сколько вы хотите, так как в этом случае большое количество значащих цифр не подразумевает ложную точность, так как доверительный интервал дает признак вероятной фактической точности (вероятный интервал будет лучше). По сути, речь идет о том, чтобы сделать таблицу аккуратной, лаконичной и удобочитаемой, поэтому, по сути, вряд ли найдется простое правило, подходящее для всех случаев.

Воспроизводимость важна в научных исследованиях, поэтому в идеале должна быть возможность воспроизвести результаты для любого числа значимых фигур (независимо от того, имеют ли они практическое значение или нет). Округление до небольшого числа значащих цифр может снизить уверенность в повторении исследования, поскольку ошибки могут быть замаскированы округлением результатов, поэтому в некоторых обстоятельствах возможны недостатки округления.

Еще одна причина, по которой не следует заходить слишком далеко, заключается в том, что другие могут лишить вас возможности продолжить обучение, не повторяя его на самом деле. Например, я мог бы опубликовать статью, в которой сравниваются различные алгоритмы машинного обучения с использованием теста Фридмана, который зависит от ранжирования различных алгоритмов на наборе эталонных наборов данных. Если статистика для отдельных классификаторов в каждом наборе данных будет представлена ​​рядом значащих цифр в зависимости от их стандартных ошибок, это, несомненно, создаст много очевидных связей в рейтинге. Это означает, что (i) читатель / рецензент статьи не сможет повторить тест Фридмана на основании результатов, приведенных в документе, и (ii) кто-то другой не сможет оценить свой алгоритм по наборам эталонных данных и использовать Friedman тест, чтобы положить его в контексте результатов моего исследования.

Дикран Сумчатый
источник
4

Конечно, любое решение, принятое объективно или субъективно, будет сильно зависеть от того, что вы измеряете, и от того, насколько точен ваш инструмент измерения. Последнее является лишь частью наблюдаемой вариации и не всегда легко распознать или найти существующие доказательства. Таким образом, я сильно подозреваю, что не существует объективного, универсально применимого решения. Вы просто должны использовать свой мозг и принимать лучшие решения в каждой ситуации.

DL Dahly
источник