Количество значащих цифр, чтобы положить в таблицу?

Существует ли обоснованное правило для количества значимых цифр для публикации?

Вот несколько конкретных примеров / вопросов:

Есть ли способ связать количество значащих цифр с коэффициентом вариации? Например, если оценка составляет 12,3, а CV - 50%, означает ли это, что информация, представленная «.3», приближается к нулю?
Если доверительный интервал имеет диапазон порядков величины, если они все еще имеют одинаковое количество значащих цифр, например:

12,3 (1,2, 123,4) против 12 (1,2, 120)
Должно ли число значащих цифр в оценке ошибки быть таким же или меньшим, чем число значащих цифр в среднем?

tables Дэвид Лебауэр
источник

Если вы можете, не используйте таблицу :) Графика, IMO, почти всегда легче читается, чем таблица (за исключением нескольких цифр, он, очевидно, исключение). Журналы и их рецензенты не всегда согласны, к сожалению ....

JMS

@JMS Хорошо, но таблицы полезны для суммирования подробных характеристик статистических единиц (перекрестно классифицированных по интересам фактора, например, клинический диагноз или что-то еще), с переменными различных типов (непрерывные, номинальные и порядковые) и других полученных результатов. из статистического моделирования как такового (матрицы путаницы, коэффициента регрессии и т. д.), которое не вписывается в рисунки (или не всегда, если вы думаете о подходе Гельмана для отображения коэффициента регистра в виде точечных диаграмм). Нам нужны оба; вопрос в том, когда нам действительно нужен рисунок вместо таблицы, ИМО.

ЧЛ

@chi Fair. Я говорил почти всегда :). Такие вещи, как большие n-way таблицы, невозможно (полностью) воспроизвести графически. Это зависит от форума, я бы сказал. Конечно, таблицы имеют преимущество в том, что они полны, но действительно ли ваш читатель впитывает всю эту дополнительную информацию? Если в графике слишком много параметров, я бы сказал, что таблицу часто, по крайней мере, трудно читать. Тем не менее, я думаю, что полные результаты должны быть доступны (онлайн, приложение и т. Д.), Если только для воспроизводимости. В этом случае я также хотел бы данные и код, хотя! Wantered OT, извините ..

JMS

Также я думаю, что коэффициенты регрессии и матрицы путаницы (корреляция, ковариация, ...) обычно лучше подходят для графического отображения, точечных графиков или аналогичных для первого и тепловых карт или графиков для второго.

JMS

@JMS Я согласен с вашей точкой зрения, но в этом случае есть ограничение по цифре, в некоторых других случаях это плата за цифру. Кроме того, в этом случае, если читатели просматривают таблицу и сосредотачиваются на представленных рисунках, то они не будут тратить время, пытаясь выяснить смысл эзотерической фигуры. Но я полностью поддерживаю воспроизводимость, и пока я в этом участвую, я мог бы (если смогу обойти это) добавить визуализацию таблицы в прикрепленный код.

Дэвид Лебауэр

Ответы:

Я сомневаюсь, что есть универсальное правило, поэтому я не собираюсь ничего придумывать. Я могу поделиться этими мыслями и причинами их возникновения:

Когда сводки отражают сами данные - максимум, минимум, статистику заказов и т. Д. - используйте то же количество значащих цифр, которое использовалось для записи данных. Это обеспечивает последовательное представление по всему документу относительно точности данных.
Когда итоги имеют более высокую точность, чем данные, запишите значения таким образом, чтобы это отражало дополнительную точность . Например, среднее $n$ значения имеет $\sqrt{n}$ раз точность отдельных значений: примерно, включают одну дополнительную значимую цифру для $3 \le n \le 30$ , два для $30 \lt n \le 300$ и т. д. (Очевидно, это округление по шкале логарифма-10.)

Обратите внимание, что резюме не предоставляет полезной информации в этом отношении.

Некоторые оценки могут быть получены с большой точностью. Они не должны быть округлены, чтобы соответствовать чему-то другому. Например, среднее значение 1 000 000 целых чисел может составлять 10,977 со стандартной ошибкой 0,00301. Мое решение написать среднее значение для трех десятичных разрядов (и 4-5 сигн-фиг) было основано на порядке величины SE, что указывает на то, что последняя цифра является частично надежной. Решение записать SE в три сиг-фига (пять десятичных знаков) более произвольно: два сиг-фига будут работать; один, вероятно, не будет; четыре сиг-фига также подойдут и будут соответствовать 4-5 сигам в среднем; более четырех фиговых фиг было бы излишним. (Можно оценить стандартную ошибку самого SE в терминах четвертого момента данных и использовать ее для определения подходящего количества округлений, но большинство из нас не идут на такие проблемы ...)
Подайте сигнал читателю, когда вы делаете существенное округление . Будьте особенно осторожны, когда в отчете обсуждается сам статистический тест . Причина в том, что люди могут использовать вашу работу, чтобы проверить свои собственные расчеты. Иногда даже небольшая разница может выявить ошибку. Вы не хотите создавать проблемы, потому что вы округлили 123 до 120, а кто-то еще, проверяя работу, получает 123 и подозревает, что один из вас допустил ошибку.
Будьте последовательны . Вы можете потерять некоторых читателей, если вы укажете значение 123 в какой-то момент, а затем укажите его как 120.
Не будь смешным . (Я автоматически подозреваю некомпетентность, когда сталкиваюсь с отчетами, которые дают статистические результаты по 15 сиг-фикам, например, когда в данных есть только два сиг-фига.)

Whuber
источник

Мой очень большой +1, потому что действительно много хороших советов. В том же духе я хотел бы показать студентам, что бессмысленно обобщать данные, собранные в ходе опросов (или голосований), в% с большим количеством десятичных знаков без учета размера выборки (что влияет на стандартную ошибку).

ЧЛ

Я бы предложил 12 (1.2, 123.4). Пропустите .3, так как это почти бессмысленно, но многие люди, когда они видят (1.2, 120), предположят, что последний «0» в 120 является значимым.

AVB
источник

Почему вы предлагаете опускать десятичную дробь для интересующей статистики, если вы согласны показывать их в КИ (т. Е. Если для 12 это бессмысленно, почему имеет смысл для 123.4)?

ЧЛ

@ CHL: это не имеет особого смысла, но пропуск его может вводить в заблуждение. Если я введу 123.4, кто-то вроде вас увидит лишние цифры и просто проигнорирует их, никакого вреда. Если я введу 120, многие читатели подумают, что это с точностью до 3 цифр - плохо.

AVB

до сих пор не ясно, почему вы рекомендуете 123,4 вместо 123 (почему пропускаете .3, но не .4 в этом примере?)

David LeBauer