Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

147
Можно ли применять анализ главных компонентов к наборам данных, содержащим сочетание непрерывных и категориальных переменных?

У меня есть набор данных, который содержит как непрерывные, так и категориальные данные. Я анализирую с помощью PCA и задаюсь вопросом, можно ли включать категориальные переменные в качестве части анализа. Насколько я понимаю, PCA может применяться только к непрерывным переменным. Это правильно?...

123
Корреляции с неупорядоченными категориальными переменными

У меня есть датафрейм со многими наблюдениями и многими переменными. Некоторые из них являются категориальными (неупорядоченными), а другие числовыми. Я ищу ассоциации между этими переменными. Я был в состоянии вычислить корреляцию для числовых переменных (корреляция Спирмена), но: Я не знаю, как...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

77
Корреляция между номинальной (IV) и непрерывной (DV) переменной

У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными...

58
Принципиальный способ свертывания категориальных переменных со многими уровнями?

Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен,...

57
Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?

Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные. На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим....

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

46
График отношений между двумя порядковыми переменными

Какой график подходит для иллюстрации взаимосвязи между двумя порядковыми переменными? Несколько вариантов, которые я могу придумать: Разброс графиков с добавлением случайного дрожания, чтобы точки, скрывающие друг друга По-видимому, стандартная графика - Minitab называет это «графиком отдельных...

42
Корреляции между непрерывными и категориальными (номинальными) переменными

Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.ρρ\rho При поиске в...

40
Предупреждение в R - приближение хи-квадрат может быть неправильным

У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал...

37
Улучшение классификации со многими категориальными переменными

Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50...

36
Полиномиальная логистическая регрессия по сравнению с бинарной логистической регрессией, состоящей из одного остатка

Допустим, у нас есть зависимая переменная с несколькими категориями и набором независимых переменных. YYY Каковы преимущества полиномиальной логистической регрессии по сравнению с множеством бинарных логистических регрессий (то есть схема «один против отдыха» )? Под набором двоичной логистической...

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

30
Выполнение анализа основных компонентов или факторного анализа двоичных данных

У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

26
Прогнозирование с использованием как непрерывных, так и категориальных функций

Некоторые методы прогнозирующего моделирования больше предназначены для обработки непрерывных предикторов, а другие - для обработки категориальных или дискретных переменных. Конечно, существуют методы преобразования одного типа в другой (дискретизация, фиктивные переменные и т. Д.). Однако...

25
Интерпретация терминов взаимодействия в логит-регрессии с категориальными переменными

У меня есть данные из опроса, в котором респонденты были случайным образом распределены в одну из четырех групп: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 В то время как три группы лечения немного различаются по применяемому стимулу, главное различие, о котором я...

24
Как визуализировать огромную разреженную таблицу непредвиденных обстоятельств?

У меня есть две переменные: название лекарственного средства (DN) и соответствующие нежелательные явления (AE), которые находятся в отношении многих ко многим. Есть 33 556 наименований лекарств и 9 516 побочных эффектов. Размер выборки составляет около 5,8 миллиона наблюдений. Я хочу изучить и...