Вопросы с тегом «many-categories»

Категориальные переменные с большим количеством уровней и статистические методы работы с такими переменными (пример: слитное лассо).

58
Принципиальный способ свертывания категориальных переменных со многими уровнями?

Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен,...

37
Улучшение классификации со многими категориальными переменными

Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50...

28
Проблемы с круговыми диаграммами

Похоже, что все чаще обсуждают круговые диаграммы. Основными аргументами против этого являются: Площадь воспринимается с меньшей силой, чем длина. Круговые диаграммы имеют очень низкое отношение данных к пикселям Тем не менее, я думаю, что они могут быть как-то полезны при изображении пропорций. Я...

24
Как изобразить географию или почтовый индекс в модели машинного обучения или в системе рекомендаций?

Я строю модель, и я думаю, что географическое местоположение, вероятно, будет очень хорошим для предсказания моей целевой переменной. У меня есть почтовый индекс каждого из моих пользователей. Я не совсем уверен в том, как лучше всего включить в мою модель почтовый индекс в качестве предиктора....

22
R's randomForest не может обрабатывать более 32 уровней. Что такое обходной путь?

R-пакет randomForest не может обрабатывать фактор с более чем 32 уровнями. Когда ему дается более 32 уровней, выдается сообщение об ошибке: Не может обрабатывать категориальные предикторы с более чем 32 категориями. Но у меня есть несколько факторов. Некоторые из них имеют более 1000 уровней, а...

15
Фиксированный эффект против случайного эффекта, когда все возможности включены в модель смешанных эффектов

В модели смешанных эффектов рекомендуется использовать фиксированный эффект для оценки параметра, если включены все возможные уровни (например, как мужчины, так и женщины). Кроме того, рекомендуется использовать случайный эффект для учета переменной, если включенные уровни представляют собой просто...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

14
Методы объединения / сокращения категорий в порядковых или номинальных данных?

Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных. Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я...

14
Кодирование категориальных функций в числа для машинного обучения

Многие алгоритмы машинного обучения, например нейронные сети, предполагают работу с числами. Поэтому, когда у вас есть категорические данные, вам необходимо преобразовать их. Под категориальным я имею в виду, например: Марки автомобилей: Audi, BMW, Chevrolet ... Идентификаторы пользователей: 1, 25,...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

11
Сокращение количества уровней неупорядоченной категориальной предикторной переменной

Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в...

11
Проблемы с горячим кодированием и фиктивным кодированием

Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k...

10
Пакет R для объединения уровней факторов для обработки данных?

Хотите знать, сталкивался ли кто-нибудь с пакетом / функцией в R, которая объединит уровни фактора, доля всех уровней которого меньше некоторого порога? В частности, одним из первых шагов в подготовке данных, которые я выполняю, является объединение разреженных уровней факторов вместе (скажем, в...

10
Методы наказания за категориальные данные: объединение уровней в фактор

Наказанные модели могут использоваться для оценки моделей, в которых количество параметров равно или даже превышает размер выборки. Такая ситуация может возникнуть в лог-линейных моделях больших разреженных таблиц категориальных данных или данных подсчета. В этих настройках часто также желательно...