Почему бы не использовать T-распределение для оценки среднего значения при большой выборке?

17

Курсы по базовой статистике часто предлагают использовать нормальное распределение для оценки среднего значения параметра совокупности, когда размер выборки n велик (обычно более 30 или 50). T-распределение Стьюдента используется для выборок меньшего размера, чтобы учесть неопределенность в стандартном отклонении выборки. Когда размер выборки велик, стандартное отклонение выборки дает хорошую информацию о стандартном отклонении популяции, позволяя оценить нормальное распределение. Я понимаю.

Но зачем использовать оценку, когда вы можете точно определить свой доверительный интервал? Независимо от размера выборки, какой смысл использовать нормальное распределение, если это просто оценка того, что вы можете получить именно с помощью Т-распределения?

Pertinax
источник
@Glen_b Да, это будут интервальные оценки. Относительно этих интервалов: «Вы должны использовать таблицу t-распределения при рабочих проблемах, когда стандартное отклонение совокупности (σ) неизвестно и размер выборки мал (n <30)» (из web.pdx.edu/~stipakb/ скачать / PA551 / NormalVersusTdistribution.doc). Почему люди не используют Т-распределение все время, когда стандартное отклонение популяции не известно (даже если n> 30)?
Pertinax

Ответы:

15

Просто чтобы прояснить отношение к названию, мы используем не t-распределение для оценки среднего значения (по крайней мере, в смысле точечной оценки), а для того, чтобы построить интервал для него.

Но зачем использовать оценку, когда вы можете точно определить свой доверительный интервал?

Это хороший вопрос (до тех пор, пока мы не слишком настаиваем на «точно», поскольку предположения для этого точно распределен по t, на самом деле не будут выполняться).

«Вы должны использовать таблицу t-распределения при рабочих проблемах, когда стандартное отклонение популяции (σ) неизвестно и размер выборки мал (n <30)»

Почему люди не используют Т-распределение все время, когда стандартное отклонение популяции не известно (даже если n> 30)?

Я считаю этот совет - в лучшем случае - потенциально вводящим в заблуждение. В некоторых ситуациях, t-распределение все еще должно использоваться, когда степени свободы намного больше, чем это.

Где нормаль - разумное приближение, зависит от множества вещей (и так зависит от ситуации). Однако, поскольку (с компьютерами) совсем не сложно просто использовать t , даже если df очень большой, вам придется задуматься, почему нужно беспокоиться о том, чтобы сделать что-то другое при n = 30.

Если размеры выборки действительно велики, это не окажет заметного влияния на доверительный интервал, но я не думаю, что n = 30 всегда достаточно близко к «действительно большому».


tn

Glen_b - Восстановить Монику
источник
2
n=30α=5%
1
@ StéphaneLaurent Для большинства целей это должно быть хорошо в 5%, но такие суждения очень сильно зависят от человека. Существуют ситуации, с которыми я столкнулся только сегодня, когда такого уровня ошибки может быть достаточно, чтобы иметь значение.
Glen_b
2
@ StéphaneLaurent Вы можете получить приличную информацию от Johnson, VE (2013). Пересмотренные стандарты для статистических данных . Слушания Национальной Академии Наук , 110 (48): 19313–19317. Эта статья вписывается в статью « Почему большинство опубликованных результатов исследований являются ложной критикой исследований» ( а-ля « Как наука идет не так» )
Алексис
4
@ StéphaneLaurent Ваша статья отвечает на мой вопрос. Для справки, грубый перевод его заключения: «Использование нормального распределения в качестве приближения к t-распределению Стьюдента является исключительно продуктом технологических ограничений 20-го века. Эти ограничения исчезли с современным статистическим программным обеспечением, и больше нет любая причина использовать эти неконсервативные приближения ".
Pertinax
2
@TheThunderChimp Предостережение: если дисперсия населения известна (например, оценка доли населения - среднее значение дихотомической переменной), тогда подходит стандартное нормальное ( z ), а не t- распределение.
Алексис
7

Это исторический анахронизм. В статистике их много.

Если у вас не было компьютера, было бы сложно использовать t-дистрибутив и намного проще использовать обычный дистрибутив. Как только размер выборки становится большим, их два распределения становятся похожими (другой вопрос - насколько большой «большой»).

Джереми Майлз
источник
1
Это кажется довольно поверхностным ответом на более глубокий вопрос.
Алексис
2
Не уверен, что вы имеете в виду. Вы не думаете, что это причина? (Самый голосующий ответ подтверждает то же самое, хотя и более красноречиво и детально.)
Джереми Майлз
1
Я понизил голос, потому что твой ответ звучит для меня так: Потому что история. Краткое резюме вашего вопроса.
Алексис
2
Спасибо, что сообщили мне - это приятнее, чем анонимное понижение, для которого я не знал причину.
Джереми Майлз
3
Исторически, один «использовал» эти распределения, просматривая значения в таблицах. Единственным способом, которым было бы проще использовать нормальное распределение, было бы то, что не нужно было выбирать столбец, соответствующий степеням свободы. Это вряд ли проблема. Что же предел использования в том , что в какой - то момент это не имеет никакого смысла , чтобы расширить таблицы в больших степеней свободы: книги стали бы слишком большим.
whuber
1

ex2n

VictorZurkowski
источник
1
При каких размерах числовые ошибки в оценке t перевешивают выгоды от его использования?
Иона
2
несомненно, вы можете вычислить t-значения с произвольной точностью, и поэтому они могут быть такими же точными, как и величины, с которыми вы сравниваете их.
Нил Г
«Другими словами,« точное »t-значение не является« точным », и в пределах ошибки аппроксимации значение совпадает со значением CDF для стандартной нормали». Я не уверен, что это надежное правило.
борец с тенью
2
25.9325×1016
1
Whuber, вы правы. Я использовал "числовую ошибку" неправильно. Я имел в виду все ошибки обработки чисел: числовая аппроксимация интегралов, числовые ошибки для работы с конечной точностью и числовые ошибки из-за усечения. Если бы можно было работать с бесконечной точностью, не было бы оправдания для замены t-распределения нормальным
VictorZurkowski