Может кто-нибудь сказать мне, что подразумевается под фразой «слабый ученик»? Это должна быть слабая гипотеза? Я запутался в отношениях между слабым учеником и слабым классификатором. Оба одинаковы или есть какая-то разница?
В алгоритме adaboost T=10
. Что подразумевается под этим? Почему мы выбираем T=10
?
classification
svm
terminology
adaboost
pac-learning
vrushali
источник
источник
Ответы:
«Слабый» ученик (классификатор, предиктор и т. Д.) - это тот, кто работает сравнительно плохо - его точность выше шанса, но едва ли. Часто, но не всегда, добавляется, что это просто в вычислительном отношении. Слабый ученик также предполагает, что многие экземпляры алгоритма объединяются (через повышение, упаковку и т. Д.) Вместе для создания «сильного» ансамблевого классификатора.
Это упоминается в оригинальной статье AdaBoost от Freund & Schapire:
но я думаю, что эта фраза на самом деле старше этого - я видел, как люди цитируют курсовую работу (?!) Майкла Кернса из 1980-х годов.
Классическим примером слабого ученика является пень принятия решения, одноуровневое дерево решений (1R или OneR - это другой часто используемый слабый ученик; он довольно похож). Было бы несколько странно называть SVM «слабым учеником», даже в ситуациях, когда он плохо работает, но было бы совершенно разумно называть единичный пень решения слабым учеником, даже если он сам по себе удивительно хорош.
Adaboost - это итерационный алгоритм, а обычно обозначает количество итераций или «циклов». Алгоритм начинается с обучения / тестирования слабого ученика на данных, взвешивая каждый пример в равной степени. Неправильно классифицированные примеры увеличивают свои веса в следующем раунде, в то время как правильно классифицированные веса уменьшают свои веса.
Я не уверен, что в есть что-то волшебное . В статье 1995 года указан как свободный параметр (т. Е. Вы устанавливаете его самостоятельно).T=10 T
источник
Слабый ученик - это ученик, который, независимо от того, каково распределение по обучающим данным, всегда будет лучше, чем случайность, когда он пытается маркировать данные. «Лучше, чем шанс» означает, что у нас всегда будет уровень ошибок менее 1/2.
Это означает, что алгоритм учащегося всегда собирается что-то выучить, не всегда полностью точный, т. Е. Он слабый и плохой, когда речь идет об изучении отношений между (входные данные) и (целевой).X Y
Но затем идет повышение , в котором мы начинаем с просмотра обучающих данных и генерируем некоторые распределения, затем находим некоторый набор слабых учеников (классификаторов) с низким уровнем ошибок, и каждый учащийся выводит некоторую гипотезу, . Это генерирует некоторый (метка класса) и в конце объединяет набор хороших гипотез для генерации окончательной гипотезы.Hx Y
Это в конечном итоге улучшает слабых учеников и превращает их в сильных учеников.
Для получения дополнительной информации: https://youtu.be/zUXJb1hdU0k .
источник
Слабый ученик - это то же самое, что слабый классификатор или слабый предсказатель. Идея в том, что вы используете классификатор, который, ну ... не так хорош, но, по крайней мере, лучше, чем случайный. Преимущество состоит в том, что классификатор будет устойчив в переоснащении. Конечно, вы используете не один, а большой набор из них, каждый из которых немного лучше, чем случайный. Точный способ, которым вы выбираете / комбинируете их, зависит от методологии / алгоритма, например, AdaBoost.
На практике в качестве слабого классификатора вы используете что-то вроде простого порога для одной функции. Если свойство превышает пороговое значение, вы прогнозируете, что оно принадлежит положительным, в противном случае вы решите, что оно принадлежит отрицательным. Не уверен насчет T = 10, поскольку здесь нет контекста, но я могу предположить, что это пример порогового значения некоторой функции.
источник