Вопросы с тегом «bagging»

Бэггинг или бутстрап-агрегирование - это частный случай усреднения модели. При стандартном тренировочном наборе упаковка генерирует м m новые обучающие наборы путем начальной загрузки, а затем результаты использования некоторого метода обучения на м m сгенерированные наборы данных усредняются. Упаковка в мешки может стабилизировать результаты некоторых нестабильных методов, таких как деревья.

51
Случайный лес - это алгоритм повышения?

Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного...

33
Это современная методология регрессии?

Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование. Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется,...

17
Каковы теоретические гарантии упаковки

Я (примерно) слышал, что: пакетирование - это метод, позволяющий уменьшить дисперсию алгоритма предиктор / оценщик / обучение. Однако я никогда не видел формального математического доказательства этого утверждения. Кто-нибудь знает, почему это математически верно? Это просто кажется настолько...

17
Когда я не должен использовать ансамблевой классификатор?

В общем, в проблеме классификации, где цель состоит в том, чтобы точно предсказать членство в классах вне выборки, когда я не должен использовать ансамблевый классификатор? Этот вопрос тесно связан с тем, почему не всегда использовать ансамблевое обучение? , Этот вопрос спрашивает, почему мы не...

17
Повышение И Упаковка Деревьев (XGBoost, LightGBM)

Есть много постов в блогах, видео на YouTube и т. Д. Об идеях создания мешков или повышения деревьев. Мое общее понимание таково, что псевдокод для каждого из них: Bagging: Возьмите N случайных выборок x% выборок и y% функций Установите вашу модель (например, дерево решений) на каждый из N...

15
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

14
Какие алгоритмы упаковки являются достойными преемниками Random Forest?

Я бы сказал, что для повышения алгоритмов они развивались довольно хорошо. В начале 1995 года был представлен AdaBoost, затем через некоторое время это была Gradient Boosting Machine (GBM). Недавно, около 2015 года, был представлен XGBoost, который точен, справляется с переоснащением и стал...

14
Случайный лес и алгоритм дерева решений

Случайный лес - это набор деревьев решений, следующих концепции бэгинга. Когда мы переходим от одного дерева решений к следующему дереву решений, то как информация, полученная с помощью последнего дерева решений, переходит к следующему? Потому что, насколько я понимаю, нет ничего лучше обученной...

13
Почему бы не всегда использовать ансамблевое обучение?

Мне кажется, что ансамблевое обучение всегда даст лучшую прогностическую эффективность, чем с одной гипотезой обучения. Итак, почему бы нам не использовать их все время? Я думаю, возможно, из-за вычислительных ограничений? (даже тогда мы используем слабые предикторы, поэтому я не...

13
Случайный лес и усиление являются параметрическими или непараметрическими?

Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует...

11
Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение. Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и...

10
Почему в пакетах используются образцы начальной загрузки?

Пакетирование - это процесс создания N учащихся на N различных выборках начальной загрузки, а затем на основе их прогнозов. Мой вопрос: почему бы не использовать любой другой тип отбора проб? Зачем использовать образцы начальной...

10
Случайный лесной вероятностный прогноз против большинства голосов

Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно...