Почему бы не сообщить о значении дистрибутива начальной загрузки?

30

Когда кто-то загружает параметр, чтобы получить стандартную ошибку, мы получаем распределение параметра. Почему мы не используем среднее значение этого распределения в качестве результата или оценки для параметра, который мы пытаемся получить? Разве распределение не должно приближаться к реальному? Поэтому мы бы получили хорошую оценку «реальной» стоимости? Тем не менее, мы сообщаем об исходном параметре, который мы получили из нашего образца. Почему это?

Благодарность

Гильермо Перес
источник

Ответы:

24

Потому что загруженная статистика - это еще одна абстракция от вашего параметра населения. У вас есть ваш параметр населения, ваша выборочная статистика, и только на третьем слое у вас есть начальная загрузка. Загруженное среднее значение не является лучшей оценкой для вашего параметра населения. Это просто оценка оценки.

Как распределение начальной загрузки, содержащее все возможные комбинации начальной загрузки, сосредоточено вокруг выборочной статистики, так же, как выборочная статистика сосредотачивается вокруг параметра совокупности при тех же условиях. Эта статья здесь довольно хорошо суммирует эти вещи, и это одна из самых простых вещей, которые я смог найти. Для более подробных доказательств следуйте документам, на которые они ссылаются. Примечательными примерами являются Efron (1979) и Singh (1981)n

распределение следует распределению что делает его полезным при оценке стандартной ошибки выборочной оценки, при построении доверительных интервалов и при оценке смещение параметра. Это не делает его лучшей оценкой для параметра населения. Это просто предлагает иногда лучшую альтернативу обычному параметрическому распределению для распределения статистики.θBθ^θ^θ

Кристиан Дима
источник
13

Существует , по крайней мере один случай , когда люди действительно используют среднее значение распределения начальной загрузки: расфасовка (сокращенно самозагрузки агрегирования ).

Основная идея заключается в том, что если ваш оценщик очень чувствителен к возмущениям в данных (т. Е. Оценщик имеет высокую дисперсию и низкое смещение), то вы можете усреднить по множеству загрузочных выборок, чтобы уменьшить количество наложения конкретных примеров.

На странице, на которую я ссылаюсь, указывается, что это вносит некоторую погрешность в вашу оценку, поэтому среднее значение выборки часто имеет больше смысла, чем усреднение ваших выборок при начальной загрузке. Но если у вас есть что-то вроде дерева решений или классификатора ближайшего соседа, который может радикально измениться в ответ на небольшие изменения в данных, то это смещение может быть не такой большой проблемой, как переоснащение.

Дэвид Дж. Харрис
источник
1
Я не уверен, что понимаю ваш вопрос. Я на самом деле не использовал фразу «смещение параметра». Я также не совсем уверен, что вы подразумеваете под против в этом контексте. yθ
Дэвид Дж. Харрис
Я обычно вижу, что мешки используются для уменьшения дисперсии оценок ответа (т. Е. Его чувствительности к колебаниям в данных). Наиболее часто упакованные модели (например, деревья), как правило, не имеют четко определенных параметров, которые можно было бы легко сравнить по образцам начальной загрузки.
Дэвид Дж. Харрис
Спасибо, это именно то, что я тоже подумала. Мне кажется, что мешки не имеют большого смысла для чего-либо, кроме оценки ответа, поэтому в этом смысле они ограничены.
Момо,
10

Стоит отметить, что разницу между средним значением загруженных выборок и оценкой выборки иногда можно использовать как оценку смещения при оценке истинного параметра .θBθ^θ^θ

Джером англим
источник