Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью начальной загрузки вместо (или вместе с) этого параметрического метода ».
Они не вдаваться в подробности, но , вероятно, рассуждали следующим образом : метод принимает данные следуют определенной параметрическое распределение . На самом деле распределение не совсем , но это нормально, если размер выборки достаточно велик. Поскольку в этом случае размер выборки слишком мал, давайте переключимся на (непараметрический) загрузчик, который не делает никаких предположений о распределении. Задача решена!D D
На мой взгляд, это не то, для чего нужен бутстрап. Вот как я это вижу: начальная загрузка может дать преимущество, когда более или менее очевидно, что данных достаточно, но нет решения в закрытой форме для получения стандартных ошибок, p-значений и аналогичной статистики. Классическим примером является получение КИ для коэффициента корреляции по выборке из двумерного нормального распределения: решение в замкнутой форме существует, но оно настолько запутанно, что начальная загрузка проще. Тем не менее, ничто не подразумевает, что бутстрап может как-то помочь избежать небольшого размера выборки.
Правильно ли мое восприятие?
Если вам интересен этот вопрос, у меня есть еще один, более конкретный вопрос о начальной загрузке:
Bootstrap: проблема переоснащения
PS Я не могу не поделиться одним вопиющим примером «бутстрапного подхода». Я не раскрываю имя автора, но он один из «квантов» старшего поколения, который написал книгу о количественных финансах в 2004 году. Пример взят из этого.
Рассмотрим следующую проблему: предположим, у вас есть 4 актива и 120 ежемесячных наблюдений за возвращением для каждого. Цель состоит в том, чтобы построить объединенный 4-мерный cdf годовых доходов. Даже для одного актива эта задача вряд ли достижима только с 10 ежегодными наблюдениями, не говоря уже об оценке 4-мерного cdf. Но не волнуйтесь, «бутстрап» поможет вам: возьмите все доступные 4-мерные наблюдения, произведите повторную выборку 12 с заменой и составьте их, чтобы построить единый «загруженный» 4-мерный вектор годовой доходности. Повторите это 1000 раз, и, о чудо, вы получили «образец самозагрузки» из 1000 годовых доходов. Используйте это как образец iid размером 1000 для оценки cdf или любого другого вывода, который можно извлечь из тысячелетней истории.
источник
Ответы:
Я помню, что читал, что использование процентного доверительного интервала для начальной загрузки эквивалентно использованию Z-интервала вместо T-интервала и использованию вместо для знаменателя. К сожалению, я не помню, где я читал это и не смог найти ссылку в моих быстрых поисках. Эти различия не имеют большого значения, когда n велико (а преимущества начальной загрузки перевешивают эти незначительные проблемы, когда велико), но при малых это может вызвать проблемы. Вот код R для моделирования и сравнения:n - 1 n nn n−1 n n
Мои результаты за один прогон:
Таким образом, мы можем видеть, что использование t-критерия и z-критерия (с истинным стандартным отклонением совокупности) дают частоту ошибок типа I, которая по существу равна как и планировалось. Неправильный z-тест (деление на выборочное стандартное отклонение, но с использованием критического значения Z вместо T) отклоняет ноль более чем в два раза чаще, чем следует. Теперь для начальной загрузки она отклоняет нулевое значение в 3 раза чаще, чем следовало бы (смотря, находится ли 0, истинное среднее значение, в интервале или нет), так что для этого небольшого размера выборки простая начальная загрузка не имеет правильного размера и поэтому делает не исправить проблемы (а это когда данные оптимально нормальные). Улучшенные интервалы начальной загрузки (BCa и т. Д.), Вероятно, будут лучше, но это должно вызвать некоторую обеспокоенность по поводу использования начальной загрузки в качестве панацеи для небольших выборок.α
источник
boot
пакет и предоставил ему все возможные интервалы: интервал нормального приближения первого порядка, базовый интервал начальной загрузки, стандартизированный интервал начальной загрузки, интервал начальной загрузки (который уже есть в вашем коде) и скорректированный процент начальной загрузки (BCa) интервал. Результаты были практически одинаковыми (показатели отклонения около .16-.17), за исключением студенческого интервала, который имел номинальный (.05) коэффициент отклонения (что имеет смысл, поскольку он больше похож на стандартный t-критерий).10,000 \times 10,000
итерации (что заняло еще пару минут) и иметь возможность проверять вещи. И ваш пример прекрасно показывает, что загрузчик может работать очень плохо с небольшими выборками, даже когда все «хорошо» (то есть данные на самом деле нормальные).Если вам предоставляется небольшой размер выборки (в качестве побочного эффекта то, что кажется «маленьким», зависит от некоего базового обычного правила в каждой области исследований), никакой начальной загрузки не поможет. Предполагая, что база данных содержит три наблюдения для каждой из двух исследуемых переменных, никакой вывод не будет иметь смысла. По моему опыту, непараметрический начальный загрузчик (1000 или 10000 повторений) хорошо работает при замене t-критерия, когда распределения выборки (не менее 10-15 наблюдений в каждом) искажены и, следовательно, предпосылки для обычного t-критерия не выполняются. Кроме того, независимо от количества наблюдений, непараметрическая начальная загрузка может быть обязательным выбором, когда данные имеют положительный перекос, как это всегда происходит для затрат на здравоохранение.
источник
Другие ответы критикуют производительность доверительных интервалов начальной загрузки, а не саму загрузку. Это другая проблема.
Если ваш контекст удовлетворяет условиям регулярности сходимости распределения начальной загрузки (сходимости по количеству загрузочных выборок), то метод будет работать, если вы используете достаточно большую загрузочную выборку.
Если вы действительно хотите найти проблемы с использованием непараметрической начальной загрузки, вот две проблемы:
(1) Проблемы с передискретизацией.
Одной из проблем с начальной загрузкой, как для небольших, так и для больших выборок, является этап повторной выборки. Не всегда возможно выполнить повторную выборку при сохранении структуры (зависимости, временной, ...) выборки. Примером этого является наложенный процесс .
Как бы вы повторили выборку при сохранении зависимости неизвестной структуры?
(2) Узкие выборки начальной загрузки и доверительные интервалы начальной загрузки для небольших выборок .
В небольших выборках минимум и максимум оценок для каждой подвыборки могут определять узкий интервал, тогда правая и левая конечные точки любых доверительных интервалов будут очень узкими (что противоречит интуитивному представлению малой выборки!) В некоторых моделях.
Предположим, что , где - это скорость. Используя вероятность профиля, вы можете получить приблизительный доверительный интервал (приблизительный доверительный интервал 95% - это интервал вероятности профиля уровня 0,147) следующим образом:λ > 0x1,x2∼Exp(λ) λ>0
Этот метод создает непрерывную кривую, из которой можно извлечь доверительный интервал. Максимальная оценка правдоподобия : . Путем повторной выборки есть только три возможных значения, которые мы можем получить для этой оценки, чей максимум и минимум определяют границы для соответствующих доверительных интервалов начальной загрузки. Это может выглядеть странно даже для больших выборок начальной загрузки (вы не сильно увеличите это число):А , = 2 / ( х 1 + х 2 )λ λ^=2/(x1+x2)
В этом случае, чем ближе и , тем уже распределение начальной загрузки и, следовательно, уже доверительный интервал (который может быть расположен далеко от реального значения). Этот пример, фактически, связан с примером, представленным @GregSnow, хотя его аргумент был более эмпирическим. Границы, которые я упоминаю, объясняют плохую производительность всех доверительных интервалов начальной загрузки, проанализированных @Wolfgang.х 2x1 x2
источник
Bootstrap хорошо работает с небольшими размерами выборки, обеспечивая правильность тестов (например, номинальный уровень значимости 0,05 близок к фактическому размеру теста), однако бутстреп магически не дает вам дополнительной мощности. Если у вас маленький образец, у вас мало силы, конец истории.
Параметрические (линейные модели) и полупараметрические (GEE) регрессии, как правило, имеют плохие свойства малых выборок ... первая из-за большой зависимости от параметрических допущений, вторая из-за увеличения надежных оценок стандартных ошибок в малых выборках. Самозагрузка (и другие тесты, основанные на повторной выборке) в этих условиях работает очень хорошо .
Для прогнозирования начальная загрузка даст вам лучшие (более честные) оценки внутренней достоверности, чем проверка с разделенной выборкой.
Самозагрузка часто дает вам меньше энергии в результате непреднамеренной коррекции процедур среднего вменения / горячей декки (например, при нечетком сопоставлении). Самозагрузка была ошибочно направлена на то, чтобы дать больше возможностей в сопоставленном анализе, где отдельные лица были пересчитаны для соответствия достаточному размеру кластера, давая загруженные сопоставленные наборы данных с большим чем набор данных анализа.n
источник