Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный джекнифинг по сравнению с начальной загрузкой, и могут ли результаты ножевого ножа обеспечить предварительное понимание перед разработкой более сложной начальной загрузки?
Некоторый контекст: друг использует алгоритм машинного обучения черного ящика ( MaxEnt ), чтобы классифицировать географические данные, которые являются «только присутствием» или «только положительными». Общая оценка модели обычно проводится с использованием перекрестной проверки и кривых ROC. Однако она использует выходные данные модели для получения единственного числового описания выходных данных модели и хотела бы, чтобы вокруг этого числа был доверительный интервал; Джекнифинг представляется разумным способом охарактеризовать неопределенность вокруг этого значения. Начальная загрузка не выглядит релевантной, потому что каждая точка данных является уникальным местоположением на карте, которое не может быть повторно выбрано с заменой. Сама программа моделирования могла бы в конечном итоге обеспечить то, что ей нужно; Тем не менее, меня интересует, может ли когда-нибудь пригодится джекнифинг.
Ответы:
Если вы берете джекнифинг не только для того, чтобы включить исключение, но и для любого рода повторной выборки без замены, такой как процедуры с кратным сгибом , я считаю это приемлемым вариантом и регулярно его использую, например, в Beleites et al. : Рамановская спектроскопическая классификация тканей астроцитомы: использование мягкой справочной информации. Anal Bioanal Chem, 2011, 400, 2801-2816k
см. также: доверительный интервал для перекрестной проверки точности классификации
Я избегаю LOO по нескольким причинам и вместо этого использую повторяющуюся / повторяющуюся схему кратности. В моей области (химия / спектроскопия / хемометрика) перекрестная проверка гораздо более распространена, чем проверка вне начальной загрузки. Для наших приложений для обработки данных / типов мы обнаружили, что кратная итеративная перекрестная проверка в кратном размере и итераций оценок производительности вне начальной загрузки имеют очень похожую общую ошибку [Beleites et al. : Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .я к я ⋅ кk i k i⋅k
Особое преимущество, которое я вижу при рассмотрении итеративных схем перекрестной проверки над начальной загрузкой, заключается в том, что я могу очень легко получить показатели неопределенности стабильности / модели, которые могут быть объяснены интуитивно, и в ней выделены две разные причины неопределенности дисперсии в измерении производительности, которые более тесно связаны в измерения вне начальной загрузки.x x или "Насколько устойчива моя модель против нарушения данных обучения путем обмена случаями?"хx Это как бы применимо и к самозагрузке, но не так напрямую.
Одна из рассуждений, которая заставляет меня пересекать валидацию / джекнифинг, заключается в проверке надежности модели: перекрестная валидация довольно прямо соответствует вопросам типа «Что произойдет с моей моделью, если я обменю случаев на новых случаев?» х
Обратите внимание, что я не пытаюсь получить доверительные интервалы, потому что мои данные по своей природе кластеризованы ( спектры пациентов), поэтому я предпочитаю сообщатьп р « н ыns np≪ns
(консервативный) биномиальный доверительный интервал с использованием средней наблюдаемой производительности и качестве размера выборки иnp
дисперсия я наблюдаю между итерациями кросса проверки. После сгибов каждый случай проверяется ровно один раз, хотя и разными суррогатными моделями. Таким образом, любое изменение, наблюдаемое между прогонами должно быть вызвано нестабильностью модели.к яi k i
Обычно, т. Е. Если модель хорошо настроена, 2. требуется только для того, чтобы показать, что она намного меньше, чем дисперсия в 1. и, следовательно, модель достаточно стабильна. Если 2. оказывается не пренебрежимо малым, настало время рассмотреть агрегированные модели: агрегирование моделей помогает только для дисперсии, вызванной нестабильностью модели, она не может уменьшить неопределенность дисперсии в измерении производительности, обусловленную конечным числом тестовых случаев. ,
Обратите внимание, что для построения доверительных интервалов производительности для таких данных я бы, по крайней мере, учел, что дисперсия, наблюдаемая между прогонами перекрестной проверки, представляет собой среднее из моделей этой нестабильности, т.е. я бы сказал, дисперсия нестабильности модели является наблюдаемая дисперсии между поперечинами прогонами проверки; плюс дисперсия из-за конечного числа случаев - для показателей эффективности классификации (попадание / ошибка) это биномиальное. Для непрерывных измерений я бы попытался вывести дисперсию из дисперсии прогона перекрестной проверки, , и оценить дисперсию типа нестабильности для моделей, полученную изк к ⋅ к кi k k⋅ k k
Преимущество Перекрёстной Проверки здесь является то , что вы получите четкое разделение между неопределенностью , вызванной моделью нестабильностью и неопределенностью , вызванной конечным числом тестов. Соответствующим недостатком является, конечно, то, что, если вы забудете принять во внимание конечное число реальных случаев, вы сильно недооцените истинную неопределенность. Однако это может произойти и для начальной загрузки (хотя и в меньшей степени).
Пока что рассуждения сосредоточены на измерении производительности для модели, которую вы выводите для данного набора данных. Если вы считаете , есть набор данных для данного приложения и данного образцом размера, есть третий вклад в дисперсию , которая принципиально не может быть измерена с помощью передискретизации проверки, смотрите , например , Bengio & Grandvalet: Нет несмещенная оценка дисперсии по К-Fold Креста -Валидация, Журнал исследований машинного обучения, 5, 1089-1105 (2004). У нас также есть цифры, показывающие эти три вклада в Beleites et al. : Планирование размера выборки для классификационных моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, что то, что здесь происходит, является результатом предположения о том, что повторная выборка похожа на разрушение полной новой выборки.
Это важно, если нужно сравнивать алгоритмы / стратегии / эвристики построения модели, а не строить конкретную модель для приложения и проверять правильность этой модели.
источник