Я не понимаю точно, что подразумевается под размером узла. Я знаю, что такое узел принятия решения, но не знаю, какой это размер
Я не понимаю точно, что подразумевается под размером узла. Я знаю, что такое узел принятия решения, но не знаю, какой это размер
Я экспериментирую со случайными лесами с помощью scikit-learn, и я получаю отличные результаты моего тренировочного набора, но относительно плохие результаты на моем тестовом наборе ... Вот проблема (по мотивам покера), которую я пытаюсь решить: с учетом карманных карт игрока А, карманных карт...
Если я правильно понял, в алгоритме машинного обучения модель должна учиться на своем опыте, то есть когда модель дает неправильный прогноз для новых случаев, она должна адаптироваться к новым наблюдениям, и со временем модель становится все лучше , Я не вижу, что логистическая регрессия имеет эту...
Случайные леса используются для регрессии. Однако, насколько я понимаю, они назначают среднее целевое значение на каждом листе. Так как в каждом дереве есть только ограниченные листья, есть только определенные значения, которые цель может получить из нашей регрессионной модели. Таким образом, разве...
Является ли ER более эффективной реализацией (что-то вроде Extreme Gradient Boostingповышения градиента) - важно ли различие с практической точки зрения? Существует пакет R, который их реализует. Это новый алгоритм, который преодолевает «универсальную» реализацию (пакет RandomForest от R) не только...
Я работаю со многими алгоритмами: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear и rbf), KNN, LDA и XGBoost. Все они были довольно быстрыми, кроме SVM. Именно тогда я узнал, что для ускорения работы требуется масштабирование функций. Тогда я начал задаваться вопросом, должен ли я...
Я изучаю различные методы классификации для проекта, над которым я работаю, и заинтересован в попытках использовать «Случайные леса». Я стараюсь обучаться сам по себе, и буду признателен за любую помощь, предоставленную сообществом CV. Я разделил свои данные на тренировочные / тестовые наборы....
Я пытаюсь определить лучшую модель для прогнозирования цен на автомобили, используя цены и функции, доступные на сайтах, рекламируемых автомобилями. Для этого я использовал пару моделей из библиотеки scikit-learn и модели нейронной сети из pybrain и neurolab. Подход, который я использовал до сих...
После того как я построил (R) модель случайного леса в R, вызов rf$importanceпредоставляет мне две меры для каждой переменной-предиктора, %IncMSEи IncNodePurity. Является ли интерпретация того, что предикторные переменные с меньшими %IncMSEзначениями важнее, чем предикторные переменные с большими...
Я пытаюсь понять, как я могу получить важность функции категориальной переменной, которая была разбита на фиктивные переменные. Я использую Scikit-Learn, который не обрабатывает категориальные переменные для вас, как R или H2O. Если я разобью категориальную переменную на фиктивные переменные, я...
Случайные леса (RF) - это конкурентный метод моделирования / добычи данных. Модель RF имеет один выход - переменную выход / прогноз. Наивный подход к моделированию нескольких выходов с RFs должен был бы построить RF для каждой выходной переменной. Таким образом, у нас есть N независимых моделей, и...
У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная...
Я пытаюсь использовать Случайный Лес, чтобы предсказать исход крайне несбалансированного набора данных (уровень меньшинства составляет около 1% или даже меньше). Поскольку традиционный алгоритм случайного леса минимизирует общую частоту ошибок, вместо того, чтобы уделять особое внимание классам...
Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm...
Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного...
Как randomForestпакет оценивает вероятности класса, когда я использую predict(model, data, type = "prob")? Я использовал rangerдля обучения случайных лесов, используя probability = Tаргумент для прогнозирования вероятностей. rangerв документации сказано что это: Вырастите лес вероятности, как в...
Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил...
Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в...
Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...
В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...