Начальная загрузка выполняется для того, чтобы получить более надежную картину распределения выборки, чем это предполагается в теории больших выборок. Когда вы начинаете загрузку, количество загружаемых образцов не ограничивается; на самом деле вы получите лучшее приближение к распределению выборки, чем больше загрузочных выборок вы берете. Оно является общим для использования bootsamples, хотя нет ничего магического этого числа. Кроме того, вы не запускаете тест на загрузочных примерах; у вас есть оценка распределения выборки - используйте ее напрямую. Вот алгоритм:B=10,000
- взять bootsample одного набора данных с помощью выборки загрузки-наблюдения с заменой. [Что касается комментариев ниже, один важный вопрос - это то, что представляет собой правильное «наблюдение за загрузкой» для использования в качестве примера загрузки. На самом деле, есть несколько законных подходов; Я упомяну два из них, которые являются надежными и позволяют отразить структуру ваших данных: когда у вас есть данные наблюдений (т. Е. Данные были отобраны по всем измерениям, загрузочное наблюдение может быть упорядоченным n-кортежем (например, строка из вашего набора данных.) Например, если у вас есть одна переменная предиктора и одна переменная ответа, вы должны выбрать n 1 ( x , y )n1n1 (x,y)упорядоченные пары. С другой стороны, при работе с экспериментальными данными значения переменных предикторов не отбирались, а экспериментальные единицы были назначены предполагаемым уровням каждой переменной предикторов. В таком случае вы можете выбрать y значений в пределах каждого из j уровней вашей переменной предиктора, а затем соединить эти y s с соответствующим значением этого уровня предиктора. Таким образом, вы не будете пробовать ]n1j yjyX
- соответствовать вашей модели регрессии и сохранить оценку уклона (назовите ее )β^1
- взять загрузочный образец другого набора данных путем выборки boot-наблюдения с заменойn2
- соответствовать другой регрессионной модели и сохранить оценку уклона (назовите ее )β^2
- сформируйте статистику из двух оценок (предложение: используйте разность наклона )β^1−β^2
- сохранить статистику и сбросить другую информацию, чтобы не тратить память
- повторите шаги 1 - 6, разB=10,000
- сортировать начальную выборку распределения различий наклона
- вычислить% от bsd, который перекрывает 0 (в зависимости от того, что меньше, правый хвост% или левый хвост%)
- умножьте этот процент на 2
Логика этого алгоритма в качестве статистического теста в основном похожа на классические тесты (например, t-тесты), но вы не предполагаете, что данные или полученные распределения выборок имеют какое-то конкретное распределение. (Например, вы не предполагаете нормальности.) Основное предположение, которое вы делаете, заключается в том, что ваши данные представляют население, которое вы выбрали / хотите обобщить. То есть выборочное распределение аналогично распределению населения. Обратите внимание, что если ваши данные не связаны с интересующим вас населением, вам просто не повезло.
Некоторые люди беспокоятся об использовании, например, регрессионной модели для определения наклона, если вы не готовы принять нормальность. Однако это беспокойство ошибочно. Теорема Гаусса-Маркова говорит нам, что оценка несмещена (т. Е. Центрирована на истинном значении), так что все в порядке. Отсутствие нормальности просто означает, что истинное распределение выборки может отличаться от теоретически положенного, и поэтому значения p являются недействительными. Процедура начальной загрузки дает вам возможность решить эту проблему.
Две другие проблемы, касающиеся начальной загрузки: если классические допущения соблюдены, начальная загрузка менее эффективна (т. Е. Имеет меньшую мощность), чем параметрический тест. Во-вторых, начальная загрузка работает лучше всего, когда вы исследуете около центра распределения: средние и средние значения хорошие, квартили не очень хорошие, начальная загрузка минимума или максимума обязательно терпит неудачу. Что касается первого пункта, вам, возможно, не нужно загружаться в вашей ситуации; Что касается второго пункта, начальная загрузка склона - это прекрасно.
Если у вас есть корреляция между ошибочными терминами, вам может потребоваться немного изменить эту процедуру, поэтому напишите, если это так.
Вы можете обобщить этот подход на основе, казалось бы, не связанных регрессий (SUR). Этот подход все еще позволяет произвольно отличаться коэффициентами для пересечения и наклона в двух наборах данных.
источник
Делать все в одной регрессии - это аккуратно, и предположение о независимости важно. Но вычисление точечных оценок таким способом не требует постоянной дисперсии. Попробуйте этот код R;
Мы получаем одинаковую оценку в любом случае. Оценки стандартной ошибки могут потребовать постоянной дисперсии (в зависимости от того, какую из них вы используете), но рассмотренная здесь начальная загрузка не использует оценочные стандартные ошибки.
источник