Количество значащих цифр, чтобы положить в таблицу?

13

Существует ли обоснованное правило для количества значимых цифр для публикации?

Вот несколько конкретных примеров / вопросов:

  • Есть ли способ связать количество значащих цифр с коэффициентом вариации? Например, если оценка составляет 12,3, а CV - 50%, означает ли это, что информация, представленная «.3», приближается к нулю?

  • Если доверительный интервал имеет диапазон порядков величины, если они все еще имеют одинаковое количество значащих цифр, например:

    12,3 (1,2, 123,4) против 12 (1,2, 120)

  • Должно ли число значащих цифр в оценке ошибки быть таким же или меньшим, чем число значащих цифр в среднем?

Дэвид Лебауэр
источник
Если вы можете, не используйте таблицу :) Графика, IMO, почти всегда легче читается, чем таблица (за исключением нескольких цифр, он, очевидно, исключение). Журналы и их рецензенты не всегда согласны, к сожалению ....
JMS
3
@JMS Хорошо, но таблицы полезны для суммирования подробных характеристик статистических единиц (перекрестно классифицированных по интересам фактора, например, клинический диагноз или что-то еще), с переменными различных типов (непрерывные, номинальные и порядковые) и других полученных результатов. из статистического моделирования как такового (матрицы путаницы, коэффициента регрессии и т. д.), которое не вписывается в рисунки (или не всегда, если вы думаете о подходе Гельмана для отображения коэффициента регистра в виде точечных диаграмм). Нам нужны оба; вопрос в том, когда нам действительно нужен рисунок вместо таблицы, ИМО.
ЧЛ
@chi Fair. Я говорил почти всегда :). Такие вещи, как большие n-way таблицы, невозможно (полностью) воспроизвести графически. Это зависит от форума, я бы сказал. Конечно, таблицы имеют преимущество в том, что они полны, но действительно ли ваш читатель впитывает всю эту дополнительную информацию? Если в графике слишком много параметров, я бы сказал, что таблицу часто, по крайней мере, трудно читать. Тем не менее, я думаю, что полные результаты должны быть доступны (онлайн, приложение и т. Д.), Если только для воспроизводимости. В этом случае я также хотел бы данные и код, хотя! Wantered OT, извините ..
JMS
Также я думаю, что коэффициенты регрессии и матрицы путаницы (корреляция, ковариация, ...) обычно лучше подходят для графического отображения, точечных графиков или аналогичных для первого и тепловых карт или графиков для второго.
JMS
@JMS Я согласен с вашей точкой зрения, но в этом случае есть ограничение по цифре, в некоторых других случаях это плата за цифру. Кроме того, в этом случае, если читатели просматривают таблицу и сосредотачиваются на представленных рисунках, то они не будут тратить время, пытаясь выяснить смысл эзотерической фигуры. Но я полностью поддерживаю воспроизводимость, и пока я в этом участвую, я мог бы (если смогу обойти это) добавить визуализацию таблицы в прикрепленный код.
Дэвид Лебауэр

Ответы:

19

Я сомневаюсь, что есть универсальное правило, поэтому я не собираюсь ничего придумывать. Я могу поделиться этими мыслями и причинами их возникновения:

  • Когда сводки отражают сами данные - максимум, минимум, статистику заказов и т. Д. - используйте то же количество значащих цифр, которое использовалось для записи данных. Это обеспечивает последовательное представление по всему документу относительно точности данных.

  • Когда итоги имеют более высокую точность, чем данные, запишите значения таким образом, чтобы это отражало дополнительную точность . Например, среднееN значения имеет N раз точность отдельных значений: примерно, включают одну дополнительную значимую цифру для 3N30, два для 30<N300и т. д. (Очевидно, это округление по шкале логарифма-10.)

    Обратите внимание, что резюме не предоставляет полезной информации в этом отношении.

    Некоторые оценки могут быть получены с большой точностью. Они не должны быть округлены, чтобы соответствовать чему-то другому. Например, среднее значение 1 000 000 целых чисел может составлять 10,977 со стандартной ошибкой 0,00301. Мое решение написать среднее значение для трех десятичных разрядов (и 4-5 сигн-фиг) было основано на порядке величины SE, что указывает на то, что последняя цифра является частично надежной. Решение записать SE в три сиг-фига (пять десятичных знаков) более произвольно: два сиг-фига будут работать; один, вероятно, не будет; четыре сиг-фига также подойдут и будут соответствовать 4-5 сигам в среднем; более четырех фиговых фиг было бы излишним. (Можно оценить стандартную ошибку самого SE в терминах четвертого момента данных и использовать ее для определения подходящего количества округлений, но большинство из нас не идут на такие проблемы ...)

  • Подайте сигнал читателю, когда вы делаете существенное округление . Будьте особенно осторожны, когда в отчете обсуждается сам статистический тест . Причина в том, что люди могут использовать вашу работу, чтобы проверить свои собственные расчеты. Иногда даже небольшая разница может выявить ошибку. Вы не хотите создавать проблемы, потому что вы округлили 123 до 120, а кто-то еще, проверяя работу, получает 123 и подозревает, что один из вас допустил ошибку.

  • Будьте последовательны . Вы можете потерять некоторых читателей, если вы укажете значение 123 в какой-то момент, а затем укажите его как 120.

  • Не будь смешным . (Я автоматически подозреваю некомпетентность, когда сталкиваюсь с отчетами, которые дают статистические результаты по 15 сиг-фикам, например, когда в данных есть только два сиг-фига.)

Whuber
источник
2
Мой очень большой +1, потому что действительно много хороших советов. В том же духе я хотел бы показать студентам, что бессмысленно обобщать данные, собранные в ходе опросов (или голосований), в% с большим количеством десятичных знаков без учета размера выборки (что влияет на стандартную ошибку).
ЧЛ
0

Я бы предложил 12 (1.2, 123.4). Пропустите .3, так как это почти бессмысленно, но многие люди, когда они видят (1.2, 120), предположят, что последний «0» в 120 является значимым.

AVB
источник
Почему вы предлагаете опускать десятичную дробь для интересующей статистики, если вы согласны показывать их в КИ (т. Е. Если для 12 это бессмысленно, почему имеет смысл для 123.4)?
ЧЛ
@ CHL: это не имеет особого смысла, но пропуск его может вводить в заблуждение. Если я введу 123.4, кто-то вроде вас увидит лишние цифры и просто проигнорирует их, никакого вреда. Если я введу 120, многие читатели подумают, что это с точностью до 3 цифр - плохо.
AVB
до сих пор не ясно, почему вы рекомендуете 123,4 вместо 123 (почему пропускаете .3, но не .4 в этом примере?)
David LeBauer