Вопросы с тегом «random-forest»

34
Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов

У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных...

33
Как случайные леса не чувствительны к выбросам?

Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы....

32
Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?

В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель...

31
Относительная важность набора предикторов в классификации случайных лесов в R

Я хотел бы определить относительную важность наборов переменных для randomForestмодели классификации в R. importanceФункция предоставляет MeanDecreaseGiniметрику для каждого отдельного предиктора - это так же просто, как суммировать это для каждого предиктора в наборе? Например: # Assumes df has...

30
Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

27
Преобразование матрицы подобия в (евклидову) матрицу расстояний

В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом: Посылайте все учебные примеры по каждому дереву в лесу Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1 Нормализовать матрицу количеством деревьев Он...

25
Когда следует избегать Random Forest?

Хорошо известно, что случайные леса достаточно хорошо справляются с различными задачами, и их называют кожевниками методов обучения . Существуют ли какие-либо проблемы или особые условия, в которых следует избегать использования случайного...

23
Существует ли реализация Random Forest, которая хорошо работает с очень разреженными данными?

Существует ли реализация случайного леса R, которая хорошо работает с очень разреженными данными? У меня есть тысячи или миллионы логических входных переменных, но только сотни или около того будут ИСТИНА для любого данного примера. Я относительно новичок в R и заметил, что существует пакет Matrix...

23
Случайные леса для многомерной регрессии

У меня проблема регрессии с несколькими выходами с входными функциями и выходными . Выходы имеют сложную нелинейную корреляционную структуру.dxdxd_xdydyd_y Я хотел бы использовать случайные леса, чтобы сделать регрессию. Насколько я могу судить, случайные леса для регрессии работают только с одним...

22
интерпретация оси Y частичной зависимости графиков

Этот вопрос был перенесен из переполнения стека, потому что на него можно ответить по перекрестной проверке. Мигрировал 5 лет назад . Я читал другие темы о графиках частичной зависимости, и большинство из них касаются того, как вы на самом деле строите их с помощью разных пакетов, а не того, как...

22
R's randomForest не может обрабатывать более 32 уровней. Что такое обходной путь?

R-пакет randomForest не может обрабатывать фактор с более чем 32 уровнями. Когда ему дается более 32 уровней, выдается сообщение об ошибке: Не может обрабатывать категориальные предикторы с более чем 32 категориями. Но у меня есть несколько факторов. Некоторые из них имеют более 1000 уровней, а...

21
Как контролировать стоимость ошибочной классификации в случайных лесах?

Можно ли контролировать стоимость ошибочной классификации в пакете R randomForest ? В моей собственной работе ложные отрицания (например, отсутствие по ошибке того, что у человека может быть заболевание) намного дороже ложных срабатываний. Пакет rpart позволяет пользователю контролировать затраты...

21
«Полу-контролируемое обучение» - это переобучение?

Я читал отчет о победившем решении конкурса Kaggle ( Malware Classification ). Отчет можно найти в этом сообщении на форуме . Эта проблема была проблемой классификации (девять классов, метрика - логарифмическая потеря) с 10000 элементами в наборе поездов, 10000 элементов в наборе испытаний. Во...

21
Случайный лес против регрессии

Я запустил модель регрессии МНК на наборе данных с 5 независимыми переменными. Независимые переменные и зависимые переменные являются непрерывными и линейно связаны. Площадь R составляет около 99,3%. Но когда я запускаю то же самое, используя случайный лес в R, мой результат выглядит так: «% Var...

20
Как случайный лес генерирует случайный лес

Я не эксперт по случайным лесам, но я четко понимаю, что ключевая проблема со случайным лесом - это (случайное) генерирование деревьев. Можете ли вы объяснить мне, как создаются деревья? (т.е. что такое используемый дистрибутив для генерации дерева?) Заранее спасибо !...

20
Объединение моделей машинного обучения

Я немного новичок в изучении данных / машинного обучения / и т.д. и читали о нескольких способах объединения нескольких моделей и прогонов одной и той же модели для улучшения прогнозов. У меня сложилось впечатление, что после прочтения пары статей (которые часто интересны и хороши в теории и...