Я изучал загрузочный пакет в R, и хотя я нашел несколько хороших учебников по его использованию, мне еще предстоит найти что-то, что точно описывает то, что происходит "за кулисами". Например, в этом примере руководство показывает, как использовать стандартные коэффициенты регрессии в качестве отправной точки для регрессии начальной загрузки, но не объясняет, что на самом деле делает процедура начальной загрузки для получения коэффициентов регрессии начальной загрузки. Похоже, что происходит какой-то итерационный процесс, но я не могу понять, что именно происходит.
22
Ответы:
Есть несколько «разновидностей» или форм начальной загрузки (например, непараметрическая, параметрическая, остаточная повторная выборка и многие другие). Начальная загрузка в примере называется непараметрической начальной загрузкой или повторной выборкой регистра (см. Здесь , здесь , здесь и здесь для приложений в регрессии). Основная идея заключается в том, что вы рассматриваете свою выборку как популяцию и неоднократно вытягиваете из нее новые образцы с заменой . Все исходные наблюдения имеют одинаковую вероятность попадания в новую выборку. Затем вы вычисляете и сохраняете статистику (и), представляющую интерес, это может быть среднее значение, медиана или коэффициенты регрессии с использованием вновь созданной выборки., Это повторяется раз. На каждой итерации некоторые наблюдения из вашей исходной выборки составляются несколько раз, тогда как некоторые наблюдения могут не отображаться вообще. После n итераций у вас есть n сохраненных оценок начальной загрузки интересующей статистики (ий) (например, если n = 1000 и статистика интереса является средним значением, у вас есть 1000 загрузочных оценок среднего значения). И, наконец, вычисляются сводные статистические данные, такие как среднее значение, медиана и стандартное отклонение n оценок начальной загрузки.N N N n = 1000 N
Самозагрузка часто используется для:
Существует несколько методов для расчета доверительных интервалов на основе примеров начальной загрузки (в этом документе представлены пояснения и рекомендации). Один очень простой метод для вычисления 95-процентного доверительного интервала - это просто расчет эмпирического 2,5-го и 97,5-го процентилей выборок начальной загрузки (этот интервал называется интервалом начальной загрузки; см. Код ниже). Метод простого процентиля с интервалом редко используется на практике, так как существуют более эффективные методы, такие как скорректированная на смещение и ускоренная начальная загрузка (BCa). Интервалы BCa корректируются как для смещения, так и для асимметрии в распределении начальной загрузки.
Смещения просто оценивается как разница между средней из сохраненных выборок начальной загрузки и первоначальной оценки (ов).N
Давайте повторим пример с веб-сайта, но воспользуемся собственным циклом, включающим идеи, которые я изложил выше (рисуем несколько раз с заменой):
А вот наша сводная таблица:
Некоторые объяснения
boot
boot
вызовы "стандартная ошибка" - это стандартное отклонение загруженных оценокСравните это с выводом из
boot
:Сравните столбцы «bias» и «std. Error» со столбцом «sd» нашей собственной сводной таблицы. Наши 95% -ые доверительные интервалы очень похожи на доверительные интервалы, рассчитанные с
boot.ci
использованием метода процентилей (но не все: посмотрите на нижний предел параметра с индексом 9).источник
Вы должны сосредоточиться на функции, которая передается в
boot
качестве параметра «статистика», и заметить, как она построена.Аргумент «data» будет получать весь фрейм данных, но аргумент «i» будет получать выборку индексов строк, сгенерированных «boot» и взятых из 1: NROW (data). Как видно из этого кода, «i» затем используется для создания нового образца, который передается,
zeroinl
а затем возвращаются только выбранные части его результатов.Давайте представим, что «я» это {1,2,3,3,3,6,7,7,10}. Функция «[» будет возвращать только те строки с 3 копиями строки 3 и 2 копиями строки 7. Это будет основой для одного
zeroinl()
вычисления, а затем коэффициенты будут возвращеныboot
как результат этой копии процесса. Количество таких повторов контролируется параметром «R».Поскольку
statistic
в этом случае возвращаются только коэффициенты регрессии ,boot
функция вернет эти накопленные коэффициенты как значение «t». Дальнейшие сравнения могут быть выполнены другими функциями загрузочного пакета.источник