Что такое правило .632+ в начальной загрузке?

107

Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило .632+?

bootstrap russellpierce
источник

115

Я доберусь до оценки 0,632, но это будет несколько долгое развитие:

Предположим, что мы хотим предсказать с помощью используя функцию , где может зависеть от некоторых параметров, которые оцениваются с использованием данных , например, $Y$ $X$ $f$ $f$ $(\mathbf{Y}, \mathbf{X})$ $f(\mathbf{X}) = \mathbf{X}\mathbf{\beta}$

Наивной оценкой ошибки предсказания является где - некоторая функция потерь, например возведение в квадрат ошибок. Это часто называют ошибкой обучения. Efron et al. называет это очевидной частотой ошибок или частотой повторного замещения. Это не очень хорошо, так как мы используем наши данные чтобы соответствовать . Это приводит к вниз. Вы хотите знать, насколько хорошо ваша модель справляется с предсказанием новых значений.

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

L

$L$

(x_{i}, y_{i})

$(x_i,y_i)$

f

$f$

\bar{e r r}

$\overline{err}$

f

$f$

Часто мы используем перекрестную проверку как простой способ оценки ожидаемой ошибки прогнозирования для дополнительной выборки (насколько хорошо наша модель работает с данными, не входящими в наш обучающий набор?).

E r r = E [L (Y, f (X))]

$Err = \text{E}\left[ L(Y, f(X))\right]$

Популярный способ сделать это - сделать перекрестную проверку в кратном размере. Разделите ваши данные на групп (например, 10). Для каждой группы поместите вашу модель в оставшиеся группы и протестируйте ее в й группе. Наша перекрестно проверенная ошибка прогноза для дополнительной выборки - это просто среднее значение где - это некоторая индексная функция, которая указывает раздел, которому назначено наблюдение а - это прогнозируемое значение использующее данные, не в -й набор. $K$ $K$ $k$ $K-1$ $k$

E r r_{C V} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{- κ (i)} (x_{i}))

$Err_{CV} = \dfrac{1}{N}\sum_{i=1}^N L(y_i, f_{-\kappa(i)}(x_i))$

κ

$\kappa$

i

$i$

f_{- κ (i)} (x_{i})

$f_{-\kappa(i)}(x_i)$

x_{i}

$x_i$

κ (i)

$\kappa(i)$

Эта оценка приблизительно несмещенная для истинной ошибки предсказания , когда и имеет большую дисперсию , и является более дорогим в вычислительном отношении для увеличения . Итак, еще раз мы видим компромисс между отклонением и дисперсией в игре. $K=N$ $K$

Вместо перекрестной проверки мы могли бы использовать начальную загрузку для оценки ошибки прогнозирования для дополнительной выборки. Bootstrap resampling может использоваться для оценки распределения выборки любой статистики. Если наши обучающие данные , то мы можем подумать о том, чтобы взять загрузочных примеров (с заменой) из этого набора где каждый - это набор из выборок. Теперь мы можем использовать наши образцы начальной загрузки для оценки ошибки прогнозирования дополнительной выборки: где - это прогнозируемое значение в из модели, подходящей для $\mathbf{X} = (x_1,\ldots,x_N)$ $B$ $\mathbf{Z}_1,\ldots,\mathbf{Z}_B$ $\mathbf{Z}_i$ $N$

E r r_{b o o t} = \frac{1}{B} \sum_{b = 1}^{B} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{b} (x_{i}))

$Err_{boot} = \dfrac{1}{B}\sum_{b=1}^B\dfrac{1}{N}\sum_{i=1}^N L(y_i, f_b(x_i))$

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

b

$b$ й набор данных начальной загрузки. К сожалению, это не особенно хорошая оценка, потому что образцы начальной загрузки, используемые для получения могли содержать . оставляющий один, предлагает улучшение, имитируя перекрестную проверку, и определяется как: где - набор индексов для примеров начальной загрузки, которые не содержат наблюдения , аколичество таких образцов.

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

E r r_{b o o t (1)} = \frac{1}{N} \sum_{i = 1}^{N} \frac{1}{| C^{- i} |} \sum_{b \in C^{- i}} L (y_{i}, f_{b} (x_{i}))

$Err_{boot(1)} = \dfrac{1}{N}\sum_{i=1}^N\dfrac{1}{|C^{-i}|}\sum_{b\in C^{-i}}L(y_i,f_b(x_i))$

C^{- i}

$C^{-i}$

i

$i$

| C^{- i} |

$|C^{-i}|$

E r r_{b o o t (1)}

$Err_{boot(1)}$ решает проблему переоснащения, но все еще смещена (эта смещена вверх). Смещение связано с нечеткими наблюдениями в образцах начальной загрузки, которые являются результатом выборки с заменой. Среднее число отдельных наблюдений в каждой выборке составляет около (см. Этот ответ для объяснения того, почему в среднем каждая загрузочная выборка содержит примерно две трети наблюдений? ). Чтобы решить проблему смещения, Эфрон и Тибширани предложили оценку 0.632: где

0.632 N

$0.632N$

E r r_{.632} = 0.368 \bar{e r r} + 0.632 E r r_{b o o t (1)}

$Err_{.632} = 0.368\overline{err} + 0.632Err_{boot(1)}$

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$ Наивная оценка ошибки прогнозирования, часто называемая ошибкой обучения. Идея состоит в том, чтобы усреднить смещенную вниз оценку и смещенную вверх оценку.

Однако, если у нас есть функция прогнозирования с чрезмерным превышением (то есть ), то даже оценка 0,632 будет смещена вниз. Оценщик .632+ разработан для того, чтобы быть менее предвзятым компромиссом между и . с где - частота ошибок при отсутствии информации, оцененная путем оценки модели прогнозирования для всех возможных комбинаций целевые значения и предикторы . $\overline{err}=0$ $\overline{err}$ $Err_{boot(1)}$

E r r_{.632 +} = (1 - w) \bar{e r r} + w E r r_{b o o t (1)}

$Err_{.632+} = (1 - w) \overline{err} + w Err_{boot(1)}$

w = \frac{0.632}{1 - 0.368 R} and R = \frac{E r r_{b o o t (1)} - \bar{e r r}}{γ - \bar{e r r}}

$w = \dfrac{0.632}{1 - 0.368R} \quad\text{and}\quad R = \dfrac{Err_{boot(1)} - \overline{err}}{\gamma - \overline{err}}$

γ

$\gamma$

y_{i}

$y_i$

x_{i}

$x_i$

γ = \frac{1}{N^{2}} \sum_{i = 1}^{N} \sum_{j = 1}^{N} L (y_{i}, f (x_{j}))

$\gamma = \dfrac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N L(y_i, f(x_j))$ .

Здесь измеряет относительную скорость переоснащения. Если нет переобучения (R = 0, когда ) это равно оценке .632. $R$ $Err_{boot(1)} = \overline{err}$

bdeonovic
источник

2

Это хорошие вопросы, @rpierce, но они несколько отошли от центральной темы этой темы. Было бы лучше с точки зрения организации CV разместить их в новой ветке, чтобы людям было легче находить и использовать эту информацию впоследствии.

gung - Восстановить Монику

1

Вопрос 1: stats.stackexchange.com/questions/96764/…

russellpierce

1

Вопрос 2: en.wikipedia.org/wiki/Resampling_%28statistics%29#Jackknife via stats.stackexchange.com/questions/21023/bootstrap-vs-jackknife

russellpierce

1

@rpierce Мне жаль, если я немного усложнил свой вопрос. сравнивает соответствие вашей модели данным, используемым для ее соответствия. Так что для квадрата потери ошибок это будет просто

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}

$\dfrac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2$

bdeonovic

1

@rpierce, да! Я был немного общим, потому что я переписывал много этого материала из некоторых заметок.

bdeonovic

53

Вы найдете больше информации в разделе 3 этого ¹ документа. Но если подвести итог, если вы называете выборкой из чисел из отобранных случайным образом и с заменой, содержит в среднем приблизительно уникальных элементов. $S$ $n$ $\{1:n\}$ $S$ $(1-e^{-1})\,n \approx 0.63212056\, n$

Аргументация заключается в следующем. Мы заполняем путем выборки раз (случайным образом и с заменой) из . Рассмотрим конкретный индекс . $S=\{s_1,\ldots,s_n\}$ $i=1,\ldots,n$ $\{1:n\}$ $m\in\{1:n\}$

Затем:

P (s_{i} = m) = 1 / n

$P(s_i=m)=1/n$

а также

P (s_{i} \neq m) = 1 - 1 / n

$P(s_i\neq m)=1-1/n$

и это верно (интуитивно, поскольку мы производим выборку с заменой, вероятности не зависят от ) $\forall 1\leq i \leq n$ $i$

таким образом

P (m \in S) = 1 - P (m \notin S) = 1 - P (\cap_{i = 1}^{n} s_{i} \neq m) = 1 - \prod_{i = 1}^{n} P (s_{i} \neq m) = 1 - (1 - 1 / n)^{n} \approx 1 - e^{- 1}

$P(m\in S)=1-P(m\notin S)=1-P(\cap_{i=1}^n s_i\neq m)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;=1-\prod_{i=1}^n P(s_i\neq m)=1-(1-1/n)^n\approx 1-e^{-1}$

Вы также можете выполнить это небольшое моделирование, чтобы эмпирически проверить качество аппроксимации (которая зависит от ): $n$

n <- 100
fx01 <- function(ll,n){
    a1 <- sample(1:n, n, replace=TRUE)
    length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)

1. Брэдли Эфрон и Роберт Тибширани (1997). Улучшения в перекрестной проверке: метод начальной загрузки .632+ . Журнал Американской Статистической Ассоциации , Vol. 92, № 438, с. 548-560.

user603
источник

3

вот док для вас в ссылке - stat.washington.edu/courses/stat527/s14/readings/...

1

(+1) Очень хорошо. Я бы только сделал обозначение немного более стандартным. Данные: . IID случайных величин с . Результат: .

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

S_{1}, \dots, S_{n}

$S_1,\dots,S_n$

P (S_{i} = k) = \frac{1}{n} I_{{1, \dots, n}} (k)

$P(S_i=k)=\frac{1}{n}\;I_{\{1,\dots,n\}}(k)$

P (\cup_{i = 1}^{n} {S_{i} = k}) = 1 - P (\cap_{i = 1}^{n} {S_{i} \neq k}) = 1 - \prod_{i = 1}^{n} P {S_{i} \neq k} = 1 - (1 - 1 / n)^{n} \to 1 - 1 / e \approx 63.21 %

$P(\cup_{i=1}^n\{S_i=k\})=1-P(\cap_{i=1}^n\{S_i\neq k\})=1-\prod_{i=1}^n P\{S_i\neq k\}=1-(1-1/n)^n\to1-1/e\approx 63.21\%$

Дзен

4

@rpierce: Верно. «Очевидный» бит, который в настоящее время не упоминается в ответе, состоит в том, что .

1 - e^{- 1} \approx 0.63212056

$1-e^{-1}\approx0.63212056$

Ильмари Каронен

1

Этот ответ также хорош, на самом деле, принятый ответ плюс этот ответ фактически дают полный ответ на мой вопрос - но между двумя я чувствую, что ответ Бенджамина ближе к тому, что я искал в ответе. Это сказанное - я действительно желаю, чтобы было возможно принять оба.

Расселпирс

1

@rpierce: Процитирую Селин Дион: « Сказка стара как время / песня стара как рифма / Красота и чудовище». : P

Ник Стаунер

8

По моему опыту, в первую очередь основанном на моделировании, варианты начальной загрузки 0.632 и 0.632+ были необходимы только из-за серьезных проблем, вызванных использованием неправильного правила оценки точности, а именно пропорции, «классифицированной» правильно. Когда вы используете правильные (например, на основе отклонения или оценки Бриера) или полусобственные (например, -index = AUROC) правила подсчета очков, стандартный загрузчик оптимизма Эфрона-Гонга работает просто отлично. $c$

Фрэнк Харрелл
источник

3

Я не думаю, что понимаю большинство вещей, которые вы сказали здесь, Фрэнк. Вы хотели бы уточнить? Похоже, у вас есть что-то уникальное и важное, чтобы внести свой вклад.

Расселпирс

Рад расширить, если вы можете сформулировать конкретный вопрос.

Фрэнк Харрелл

1

Эти правила подсчета очков ... судили о качестве результата начальной загрузки? Не могли бы вы предоставить ссылку, которая описывает пропорцию "классифицированного" правила правильной оценки, у меня возникли проблемы с представлением, какой это может быть зверь. Из лучших результатов "Оптимизма Эфрона-Гонга" в Google подавляющее большинство, кажется, написаны вами ... чем это отличается от того, если я скажу "начальная загрузка" без квалификаторов? К какой статье Эффрона и Гонга я должен обратиться? Кажется, их несколько.

Расселпирс

3

См. Оригинальную статью о 0.632, в которой используется и определяется правильно классифицированная пропорция (Efron & Tibshirani JASA 92: 548; 1997). Бутстрап оптимизма - это вариант бутстрапа для оценки предвзятости. Это описано в Гун: JASA 85:20; 1990 г.

Фрэнк Харрелл,

2

Эти ответы очень полезны. Я не смог найти способ продемонстрировать это с помощью математики, поэтому я написал немного кода на Python, который работает довольно хорошо:

    from numpy import mean
    from numpy.random import choice

    N = 3000

    variables = range(N)

    num_loop = 1000
    # Proportion of remaining variables
    p_var = []

    for i in range(num_loop):
        set_var = set(choice(variables, N))
        p=len(set_var)/float(N)
        if i%50==0:
            print "value for ", i, " iteration ", "p = ",p
        p_var.append(p)

    print "Estimator of the proportion of remaining variables, ", mean(p_var)

Анил Нарассигуин
источник

Что такое правило .632+ в начальной загрузке?

Ответы: