Вопросы с тегом «categorical-encoding»

Представление категориальных переменных в виде наборов числовых переменных. Необходим во многих типах анализа для обработки категориальных данных. Типичный пример - использование категориального предиктора в регрессии / ANOVA с помощью фиктивного кодирования, кодирования эффектов, кодирования Гельмерта, определяемых пользователем контрастов и т. Д.

25
Например, почему пол обычно кодируется 0/1, а не 1/2?

Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода. Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин? Почему эта кодировка считается «стандартной»? Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с...

22
Отбрасывание одного из столбцов при использовании быстрого кодирования

Насколько я понимаю, в машинном обучении может возникнуть проблема, если ваш набор данных имеет сильно коррелированные функции, поскольку они эффективно кодируют одну и ту же информацию. Недавно кто-то указал, что когда вы выполняете однократное кодирование для категориальной переменной, вы...

22
Зачем нам фиктивно кодировать категориальные переменные

Я не уверен, почему нам нужно кодировать категориальные переменные. Например, если у меня есть категориальная переменная с четырьмя возможными значениями 0,1,2,3, я могу заменить ее двумя измерениями. Если бы переменная имела значение 0, она имела бы 0,0 в двух измерениях, если бы она имела 3, она...

20
Когда следует использовать множественную регрессию с фиктивным кодированием против ANCOVA?

Недавно я проанализировал эксперимент, который манипулировал 2 категориальными переменными и одной непрерывной переменной, используя ANCOVA. Однако рецензент предположил, что множественная регрессия с категориальной переменной, закодированной как фиктивная переменная, является более подходящим...

19
Как перекодировать категориальную переменную в числовую переменную при использовании SVM или нейронной сети

Чтобы использовать SVM или нейронную сеть, необходимо преобразовать (закодировать) категориальные переменные в числовые переменные. Обычный метод в этом случае - использовать 0-1 двоичные значения с k-ным категориальным значением, преобразованным в (0,0, .. ., 1,0, ... 0) (1 находится в k-й...

19
Значение категориального предиктора в логистической регрессии

У меня проблемы с интерпретацией значений z для категориальных переменных в логистической регрессии. В приведенном ниже примере у меня есть категориальная переменная с 3 классами, и в соответствии со значением z CLASS2 может быть релевантным, а другие нет. Но что это значит? Чтобы я мог объединить...

17
Как относиться к категориальным предикторам в LASSO

Я использую LASSO, в котором есть некоторые категориальные предикторы переменных и некоторые непрерывные. У меня есть вопрос о категориальных переменных. Первый шаг, который я понимаю, - разбить каждого из них на пустышки, стандартизировать их для справедливого наказания, а затем регрессировать....

17
Качественное кодирование переменных в регрессии приводит к «особенностям»

У меня есть независимая переменная под названием «качество»; эта переменная имеет 3 способа реагирования (плохое качество; среднее качество; высокое качество). Я хочу ввести эту независимую переменную в мою множественную линейную регрессию. Когда у меня есть двоичная независимая переменная...

15
Как сделать регрессию с кодированием эффекта вместо фиктивного кодирования в R?

В настоящее время я работаю над регрессионной моделью, в которой у меня есть только категориальные / факторные переменные в качестве независимых переменных. Моя зависимая переменная является логит-преобразованным коэффициентом. Довольно просто запустить нормальную регрессию в R, так как R...

15
«Фиктивная переменная» против «индикаторной переменной» для номинальных / категориальных данных

«Фиктивная переменная» и «индикаторная переменная» представляют собой часто используемые термины меток для описания принадлежности к категории с кодированием 0/1; обычно 0: не член категории, 1: член категории. 26.11.2014 быстрый поиск на scholar.google.com (с заключенными в кавычки) показывает,...

14
Какие существуют разные типы кодировок для категориальных переменных (в R) и когда вы будете их использовать?

Если вы подходите к линейной или смешанной модели, существуют различные типы кодировок, доступных для преобразования категориальной или номинальной вариабельной переменной в ряд переменных, для которых оцениваются параметры, такие как фиктивная кондукция (по умолчанию R) и кодирование эффектов. Я...

13
Понимание создания фиктивных (ручных или автоматических) переменных в GLM

Если в формуле glm используется факторная переменная (например, пол с уровнями M и F), то создаются фиктивные переменные, которые можно найти в сводке модели glm вместе с соответствующими коэффициентами (например, полM) Если вместо того, чтобы полагаться на R для разделения коэффициента таким...

12
Какие алгоритмы требуют горячего кодирования?

Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие...

11
Регрессия, основанная, например, на днях недели

Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился. Представьте, что у меня есть набор данных, связанных с автомобилем, таких как Время в пути от города А до города Б Расстояние от города А до...

10
Как работать с недвоичными категориальными переменными в логистической регрессии (SPSS)

Я должен сделать бинарную логистическую регрессию с большим количеством независимых переменных. Большинство из них являются двоичными, но некоторые из категориальных переменных имеют более двух уровней. Как лучше всего справиться с такими переменными? Например, для переменной с тремя возможными...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Переменная индикатора для двоичных данных: {-1,1} против {0,1}

Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .TTT В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов...

10
Как называется «горячая» кодировка в научной литературе?

Как называется оператор, который берет категориальный вектор и преобразует его в двоичное представление, используя горячее кодирование? Я задаюсь вопросом, так как я пишу научную статью и нужное имя для...

10
Как статистически доказать, имеет ли столбец категориальные данные или не использует Python

У меня есть фрейм данных в Python, где мне нужно найти все категориальные переменные. Проверка типа столбца не всегда работает, потому что intтип также может быть категоричным. Поэтому я ищу помощь в поиске правильного метода проверки гипотез, чтобы определить, является ли столбец категоричным или...

9
Почему столбец пересечения в model.matrix заменяет первый фактор?

Я пытаюсь преобразовать столбец фактора в фиктивные переменные: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250 pointsBin.lte300...