Вопросы с тегом «categorical-data»

Категориальные данные могут принимать ограниченное (обычно фиксированное) количество возможных значений, называемых категориями. Категориальные значения «маркируют», они не «меряют». Номинальные и дихотомические / двоичные типы шкалы категоричны. Некоторые люди тоже считают категориальным порядковый номер.

133
Кластеризация K-средних для смешанных числовых и категориальных данных

Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную...

98
Когда использовать One Hot Encoding против LabelEncoder против DictVectorizor?

Я уже некоторое время строю модели с категориальными данными, и когда в этой ситуации я в основном по умолчанию использую функцию LabelEncoder scikit-learn для преобразования этих данных до построения модели. Я понимаю разницу между OHE, LabelEncoderи DictVectorizorс точки зрения того, что они...

16
Зачем нам отбрасывать одну фиктивную переменную?

Я узнал, что для создания регрессионной модели мы должны позаботиться о категориальных переменных, преобразовав их в фиктивные переменные. Например, если в нашем наборе данных есть переменная типа location: Location ---------- Californian NY Florida Мы должны конвертировать их как: 1 0 0 0 1 0 0 0...

16
Как объединить категориальные и непрерывные функции ввода для обучения нейронной сети

Предположим, у нас есть два вида входных функций: категориальные и непрерывные. Категориальные данные могут быть представлены в виде горячего кода A, тогда как непрерывные данные - это просто вектор B в N-мерном пространстве. Кажется, что просто использование concat (A, B) не является хорошим...

12
Как я могу динамически различать категориальные данные и числовые данные?

Я знаю кого-то, кто работает над проектом, который включает в себя прием файлов данных без учета столбцов или типов данных. Задача состоит в том, чтобы взять файл с любым количеством столбцов и различных типов данных и вывести сводную статистику по числовым данным. Однако он не уверен в том, как...

12
Массовое преобразование категориальных столбцов в Pandas (не одноразовое кодирование)

У меня есть панды dataframe с тоннами категоричных колонн, которые я планирую использовать в дерево решений с scikit учиться. Мне нужно преобразовать их в числовые значения (не один горячий вектор). Я могу сделать это с LabelEncoder из scikit учиться. Проблема в том, что их слишком много, и я не...

12
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)

Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для...

11
Как преобразовать категориальные данные в числовые данные в Pyspark

Я использую ноутбук Ipython для работы с приложениями pyspark. У меня есть файл CSV с множеством категориальных столбцов, чтобы определить, находится ли доход ниже или выше диапазона 50 КБ. Я хотел бы выполнить алгоритм классификации, используя все входные данные для определения диапазона доходов....

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Как я могу сделать классификацию с категориальными данными, которые не являются фиксированными?

У меня есть проблема классификации с категориальными и числовыми данными. Проблема, с которой я сталкиваюсь, заключается в том, что мои категориальные данные не являются фиксированными, это означает, что у нового кандидата, метка которого я хочу предсказать, может быть новая категория, которая...