Я просматривал многочисленные вопросы на этом сайте, касающиеся начальной загрузки и доверительных интервалов, но я все еще в замешательстве. Одна из причин моего замешательства, вероятно, заключается в том, что я недостаточно продвинут в своих знаниях статистики, чтобы понять многие ответы. Я на полпути к вводному курсу статистики, и мой математический уровень только около середины алгебры II, так что все, что превышает этот уровень, просто смущает меня. Если бы один из знающих людей на этом сайте мог бы объяснить эту проблему на моем уровне, это было бы чрезвычайно полезно.
Мы учились в классе, как брать повторные выборки с помощью метода начальной загрузки и использовать их для построения доверительного интервала для некоторой статистики, которую мы хотели бы измерить. Например, предположим, что мы берем выборку из большой совокупности и находим, что 40% говорят, что проголосуют за кандидата А. Мы предполагаем, что эта выборка является довольно точным отражением исходной совокупности, и в этом случае мы можем взять повторные выборки из это узнать что-то о населении. Таким образом, мы берем повторные выборки и находим (используя уровень достоверности 95%), что полученный доверительный интервал составляет от 35% до 45%.
Мой вопрос: что на самом деле означает этот доверительный интервал ?
Я продолжаю читать, что есть разница между (частыми) доверительными интервалами и (байесовскими) доверительными интервалами. Если я правильно понял, то вероятный интервал бы сказать , что есть 95% вероятность того, что в нашей ситуации истинный параметр находится в пределах заданного интервала (35% -45%), в то время как доверительный интервал будет сказать , что есть 95% , что в этом тип ситуации (но не обязательно в нашей конкретной ситуации) метод, который мы используем, будет точно сообщать, что истинный параметр находится в заданном интервале.
Предполагая, что это определение верно, мой вопрос: о каком «истинном параметре» мы говорим, когда используем доверительные интервалы, построенные с помощью метода начальной загрузки? Имеем ли мы в виду (а) истинный параметр исходного населения или (б) истинный параметр выборки ? Если (а), то мы бы сказали, что в 95% случаев метод начальной загрузки будет точно сообщать истинные утверждения об исходной популяции. Но как мы могли это знать? Разве весь метод начальной загрузки не основывается на предположениичто исходный образец является точным отражением населения, из которого он был взят? Если (б), то я вообще не понимаю значения доверительного интервала. Разве мы уже не знаем истинный параметр образца? Это простое измерение!
Я обсудил это с моей учительницей, и она мне очень помогла. Но я все еще в замешательстве.
источник
Вы говорите, что нет нужды находить доверительный интервал при повторной выборке при загрузке. Если вы удовлетворены статистикой (среднее значение выборки или пропорция выборки), полученной из загрузочных повторных выборок, не находите какой-либо доверительный интервал и, таким образом, нет вопроса о толковании. Но если вы не удовлетворены статистикой, полученной из загруженных повторных выборок или удовлетворены, но все же хотите найти доверительный интервал, то интерпретация для такого доверительного интервала такая же, как и любой другой доверительный интервал. Это потому, что когда ваши загруженные повторные выборки точно представляют (или предполагается, что так) исходную популяцию, тогда где нужен доверительный интервал? Статистика из загруженных повторных выборок является самим исходным параметром совокупности, но если вы не рассматриваете статистику как исходный параметр совокупности, то необходимо найти доверительный интервал. Итак, все зависит от того, как вы считаете. Допустим, вы вычислили 95% доверительный интервал из загрузочных повторных выборок. Теперь интерпретация такова: «В 95% случаев этот метод начальной загрузки точно приводит к доверительному интервалу, содержащему истинный параметр совокупности».
(Это то, что я думаю. Поправьте меня, если есть какие-либо ошибки).
источник
Мы имеем в виду истинный параметр исходного населения. Это можно сделать, предполагая, что данные были взяты случайным образом из исходной совокупности - в этом случае существуют математические аргументы, показывающие, что процедуры начальной загрузки дадут действительный доверительный интервал, по крайней мере, так как размер набора данных становится достаточно большим ,
источник