Вопросы с тегом «categorical-data»

22
Зачем нам фиктивно кодировать категориальные переменные

Я не уверен, почему нам нужно кодировать категориальные переменные. Например, если у меня есть категориальная переменная с четырьмя возможными значениями 0,1,2,3, я могу заменить ее двумя измерениями. Если бы переменная имела значение 0, она имела бы 0,0 в двух измерениях, если бы она имела 3, она...

22
Отрицательное биномиальное распределение против биномиального распределения

В чем разница между отрицательным биномиальным распределением и биномиальным распределением? Я попытался читать онлайн, и обнаружил, что отрицательное биномиальное распределение используется, когда точки данных дискретны, но я думаю, что даже биномиальное распределение можно использовать для...

22
Отбрасывание одного из столбцов при использовании быстрого кодирования

Насколько я понимаю, в машинном обучении может возникнуть проблема, если ваш набор данных имеет сильно коррелированные функции, поскольку они эффективно кодируют одну и ту же информацию. Недавно кто-то указал, что когда вы выполняете однократное кодирование для категориальной переменной, вы...

21
Как вы можете визуализировать отношения между 3 категориальными переменными?

У меня есть набор данных с тремя категориальными переменными, и я хочу визуализировать отношения между всеми тремя на одном графике. Любые идеи? В настоящее время я использую следующие три графика: Каждый график показывает уровень базовой депрессии (слабый, умеренный, тяжелый). Затем на каждом...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

20
Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

20
Регрессия для категориальных независимых переменных и непрерывно зависимых

Я просто понял, что у меня всегда работала проблема регрессии, где независимые переменные всегда были числовыми. Могу ли я использовать линейную регрессию в случае, когда все независимые переменные являются...

19
Значение категориального предиктора в логистической регрессии

У меня проблемы с интерпретацией значений z для категориальных переменных в логистической регрессии. В приведенном ниже примере у меня есть категориальная переменная с 3 классами, и в соответствии со значением z CLASS2 может быть релевантным, а другие нет. Но что это значит? Чтобы я мог объединить...

19
Как перекодировать категориальную переменную в числовую переменную при использовании SVM или нейронной сети

Чтобы использовать SVM или нейронную сеть, необходимо преобразовать (закодировать) категориальные переменные в числовые переменные. Обычный метод в этом случае - использовать 0-1 двоичные значения с k-ным категориальным значением, преобразованным в (0,0, .. ., 1,0, ... 0) (1 находится в k-й...

19
Каков наилучший способ визуализации отношений между дискретными и непрерывными переменными?

Каков наилучший способ показать отношения между: непрерывная и дискретная переменная, две дискретные переменные? До сих пор я использовал точечные диаграммы, чтобы посмотреть на связь между непрерывными переменными. Однако в случае дискретных переменных точки данных накапливаются через определенные...

19
Могут ли быть кластеры с категориальными данными без связанных переменных?

Пытаясь объяснить кластерный анализ, люди часто неправильно понимают процесс как связанный с тем, связаны ли переменные. Один из способов избавить людей от этой путаницы - это заговор, подобный этому: Это ясно показывает разницу между вопросом о наличии кластеров и вопросом о том, связаны ли...

18
Обнаружение аномалий с фиктивными характеристиками (и другими дискретными / категориальными характеристиками)

ТЛ; др Каков рекомендуемый способ обработки discreteданных при обнаружении аномалий? Каков рекомендуемый способ обработки categoricalданных при обнаружении аномалий? Этот ответ предлагает использовать дискретные данные для фильтрации результатов. Возможно, замените значение категории шансом...

18
Нетранзитивность корреляции: корреляция между полом и размером мозга и между размером мозга и IQ, но нет корреляции между полом и IQ

Я нашел следующее объяснение в блоге и хотел бы получить больше информации о нетранзитивности корреляции: У нас есть следующие неоспоримые факты: В среднем, разница в объеме мозга у мужчин и женщин Существует корреляция между IQ и размером мозга; корреляция составляет 0,33 и, таким образом,...

18
Интерпретация бета при наличии нескольких категориальных переменных

Я понимаю концепцию, что является средним значением, когда категориальная переменная равна 0 (или является контрольной группой), давая конечную интерпретацию того, что коэффициент регрессии - это разница в среднем двух категорий. Даже при> 2 категориях я бы предположил, что каждая объясняет...

18
Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?

Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или...

18
Как проверить статистическую значимость категориальной переменной в линейной регрессии?

Если в линейной регрессии у меня есть категориальная переменная ... как я могу узнать статистическую значимость категориальной переменной? Допустим, фактор имеет 10 уровней ... будет 10 различных результирующих t-значений под зонтиком одной факторной переменной ...X1X1X_1X1X1X_1 Мне кажется, что...

18
Как бороться с SVM с категориальными атрибутами

У меня есть пространство 35 измерений (атрибуты). Моя аналитическая проблема - простая классификационная. Из 35 измерений более 25 являются категориальными, и каждый атрибут принимает более 50 типов значений. В этом случае введение фиктивной переменной также не будет работать для меня. Как я могу...

18
Какую сводную статистику использовать с категориальными или качественными переменными?

Просто чтобы уточнить, когда я имею в виду сводную статистику, я имею в виду среднее значение, диапазоны среднего квартиля, дисперсию, стандартное отклонение. Имеет ли смысл найти среднее значение, медиану, квартильный диапазон, дисперсию и стандартное отклонение при суммировании одномерного,...