Примечание: хотя я чувствую, что мой ответ, вероятно, правильный, я также чувствую сомнение из-за того, что я все это придумал, подумав об этой проблеме только после прочтения этого вопроса в течение 30-60 минут. Так что вам лучше скептически отнестись к этому и тщательно исследовать это, а не обманывать себя моим, возможно, чрезмерно уверенным стилем письма (я использую большие слова и причудливые греческие символы, не значит, что я прав).
Резюме
Это просто резюме. Все детали упомянуты в разделах и § 2 ниже.§1§2
Давайте предположим случай классификации (может быть расширен до регрессии, но для краткости опущен). По сути, наша цель - оценить погрешность леса деревьев. Как ошибка из пакета, так и перекрестная проверка в k-кратном порядке пытаются определить вероятность того, что:
- Лес дает правильную классификацию (перекрестная проверка в k-кратном порядке смотрит на это так).
Что идентично вероятности того, что:
- Большинство голосов лесных деревьев является правильным (OOBE смотрит на это так).
И оба идентичны. Единственное отличие состоит в том, что перекрестная проверка в k-кратном порядке и OOBE предполагают различный размер обучающих выборок. Например:
- При 10-кратной перекрестной проверке набор обучения составляет 90%, а набор тестирования - 10%.
- Тем не менее, в OOBE, если каждый мешок имеет образцов, так что n =nn= общее количество образцов во всем наборе образцов, это означает, что обучающий набор составляет практически около 66% (две трети), а набор для тестирования составляет около 33% ( одна треть).
Поэтому, на мой взгляд, единственная причина, по которой OOBE является пессимистичной оценкой ошибки леса, заключается только в том, что обычно обучается с меньшим количеством выборок, чем обычно с кросс-проверкой в k-кратном порядке (где обычно 10-кратное).
В связи с этим я также считаю, что 2-кратная перекрестная проверка будет более пессимистичной оценкой ошибки леса, чем OOBE, а 3-кратная перекрестная проверка будет примерно одинаково пессимистичной по отношению к OOBE.
1. Понимание ошибки из пакета
1.1 Общий взгляд на упаковку
Каждое дерево в RF растет из списка выборок, которые случайным образом взяты из обучающего набора X с заменой. Таким образом, n выборок могут иметь дубликаты, а если n = | X | затем можно обнаружить, что примерно одна треть выборок в X , вероятно, в конечном итоге не окажется в списке из n выборок, которые используются для выращивания данного дерева (это выборки из этого конкретного дерева вне пакета). Этот процесс независимо повторяется для каждого дерева, поэтому у каждого дерева есть свой набор образцов из пакета.nXnn=|X|Xn
1.2. Другой взгляд на упаковку
Теперь давайте немного по-другому опишем пакетирование с надеждой найти такое же описание, с которым, надеюсь, будет проще иметь дело.
Я делаю это, заявив , что дерево обучаются по пакетированным образцам в наборе X т ⊆ X . Тем не менее, это не совсем верно, поскольку набор X t не имеет дублированных выборок (именно так работают наборы), в то время как - с другой стороны - в списке n выборок могут быть дубликаты.tXt⊆XXtn
Следовательно, мы можем сказать, что дерево выращивается путем анализа выборок X t и ряда случайно выбранных дубликатов, взятых из X t , а именно: X t , 1 , X t , 2 , … , X t , r ⊆ X t , таких как что:
| X т | + r ∑ i = 1 | X т , я | = пtXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
Нетрудно видеть, что из этого набора множеств мы можем определить список из n- многих выборок, которые содержат дубликаты, просто добавляя элементы в каждый установите C i ∈ C в массив a . Таким образом, для любого 1 ≤ p ≤ n существует хотя бы одно значение i такое, что a [ p ] ∈ C iC={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci,
Мы также можем видеть, что список из выборок в массиве a является обобщением сумок, как я определил в разделе 1. Нетрудно видеть, что для некоторого конкретного определения X t, которое я определил в этом разделе ( § 2 ) , список образцов в массиве a может быть в точности идентичен списку образцов, как определено в разделе 1.naXt§2a
1.3. Упрощение упаковки
Вместо того, чтобы выращивать дерево помощью выборок в массиве a , мы будем наращивать их по списку экземпляров без дублирования, найденных только в X t .taXt
Я полагаю, что, если достаточно велико, дерево t , которое выращивается путем анализа выборок в X t , идентично другому дереву t ' , которое выращивается из образцов в массиве antXtt′a .
Моя причина в том, что вероятность дублирования выборок в Xt одинаково вероятна для других выборок в том же наборе. Это означает, что когда мы измеряем информационный прирост (IG) некоторого разделения, IG останется идентичным, так как энтропии также останутся идентичными.
И причина, по которой я полагаю, что энтропии не будут систематически изменяться для данного разделения, заключается в том, что эмпирически измеренная вероятность того, что образец имеет конкретную метку в некотором подмножестве (после применения разделения решения), также не изменится.
И причина, по которой вероятности не должны меняться, на мой взгляд, состоит в том, что все выборки в с равной вероятностью будут дублированы в d копий.Xtd
1.4 Измерение ошибок из пакета
OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. Понимание k-кратной перекрестной проверки
XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
KtK∖{Kt}
fK∖{Kt}
f
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
f