Вопросы с тегом «unbalanced-classes»

Данные, организованные в отдельные категории или * классы *, могут представлять проблемы для определенных анализов, если количество наблюдений ( ), принадлежащих каждому классу, не является постоянным для разных классов. Классы с неравным являются * несбалансированными *. N n N n

81
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов...

53
Когда несбалансированные данные действительно являются проблемой в машинном обучении?

У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо...

52
Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что в этой...

47
Классовый дисбаланс в контролируемом машинном обучении

Это вопрос в целом, не относящийся к какому-либо методу или набору данных. Как мы решаем проблему дисбаланса классов в обучении с использованием контролируемой машины, где число 0 составляет около 90%, а число 1 составляет около 10% в вашем наборе данных. Как оптимально обучить классификатор. Одним...

43
Обучение дерева решений против несбалансированных данных

Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который...

34
Меняет ли понижающая выборка коэффициенты логистической регрессии?

Если у меня есть набор данных с очень редким положительным классом, и я понижаю выборку отрицательного класса, а затем выполняю логистическую регрессию, нужно ли мне корректировать коэффициенты регрессии, чтобы отразить тот факт, что я изменил распространенность положительного класса? Например,...

30
Оптимизация для кривых Precision-Recall при дисбалансе класса

У меня есть задача классификации, где у меня есть несколько предикторов (один из которых является наиболее информативным), и я использую модель MARS для построения моего классификатора (меня интересует любая простая модель, и использование glms для иллюстративных целей будет тоже хорошо). Теперь у...

30
В чем причина проблемы дисбаланса классов?

В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном /...

29
Когда я должен сбалансировать классы в наборе данных обучения?

У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать...

26
Размер выборки для логистической регрессии?

Я хочу сделать логистическую модель из моих данных опроса. Это небольшой опрос четырех жилых колоний, в котором было опрошено только 154 респондента. Моя зависимая переменная - «удовлетворительный переход к работе». Я обнаружил, что из 154 респондентов 73 сказали, что они успешно перешли на работу,...

26
Как правильно использовать scale_pos_weight в xgboost для несбалансированных наборов данных?

У меня очень несбалансированный набор данных. Я пытаюсь следовать советам по настройке и использовать, scale_pos_weightно не знаю, как мне его настроить. Я вижу, что RegLossObj.GetGradientделает: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight таким образом, градиент положительного образца...

25
Какую проблему решают передискретизация, недостаточная выборка и SMOTE?

В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема...

23
Как справиться с разницей между распределением тестового набора и обучающего набора?

Я думаю, что одно из основных предположений о машинном обучении или оценке параметров заключается в том, что невидимые данные поступают из того же распределения, что и обучающий набор. Однако в некоторых практических случаях распределение тестового набора будет практически отличаться от учебного...

22
Выборка для несбалансированных данных в регрессии

Были хорошие вопросы об обработке несбалансированных данных в контексте классификации , но мне интересно, что люди делают, чтобы выбрать регрессию. Скажем, проблемный домен очень чувствителен к знаку, но лишь несколько чувствителен к величине цели. Однако величина достаточно важна, чтобы модель...

22
Классификационные / оценочные показатели для сильно несбалансированных данных

Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных...

21
Добавление весов к логистической регрессии для несбалансированных данных

Я хочу смоделировать логистическую регрессию с несбалансированными данными (9: 1). Я хотел попробовать опцию весов в glmфункции в R, но я не уверен на 100%, что она делает. Допустим , моя переменная выход c(0,0,0,0,0,0,0,0,0,1). Теперь я хочу дать «1» в 10 раз больше веса. поэтому я даю весовой...

20
Порядок переменных в ANOVA имеет значение, не так ли?

Правильно ли я понимаю, что порядок, в котором переменные указываются в многофакторном ANOVA, имеет значение, но что порядок не имеет значения при выполнении множественной линейной регрессии? Таким образом, предполагая такой результат, как измеренная кровопотеря y и две категориальные переменные...

18
Классификация тестирования данных с избыточным дискретизацией

Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный...

17
ROC против точных кривых отзыва на несбалансированном наборе данных

Я только что закончил читать эту дискуссию. Они утверждают, что PR AUC лучше, чем ROC AUC по несбалансированному набору данных. Например, у нас есть 10 образцов в тестовом наборе данных. 9 образцов положительные и 1 отрицательный. У нас ужасная модель, которая предсказывает все положительное. Таким...

16
Страдает ли классификация GBM несбалансированными размерами классов?

Я имею дело с контролируемой проблемой бинарной классификации. Я хотел бы использовать пакет GBM для классификации людей как незараженных / зараженных. У меня в 15 раз больше незараженных, чем у инфицированных. Мне было интересно, страдают ли модели GBM в случае несбалансированных размеров классов?...