Вопросы с тегом «categorical-data»

11
Как найти сводную статистику для всех уникальных комбинаций факторов в data.frame в R? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я хочу рассчитать сводку переменной в data.frame для каждой уникальной комбинации факторов в...

11
Быстро оценить (визуально) корреляции между упорядоченными категориальными данными в R?

Я ищу корреляции между ответами на разные вопросы в опросе («хмм, давайте посмотрим, соотносятся ли ответы на вопрос 11 с ответами на вопрос 78»). Все ответы являются категоричными (большинство из них варьируются от «очень несчастных» до «очень счастливых»), но у некоторых есть другой набор...

11
Проблемы с горячим кодированием и фиктивным кодированием

Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k...

11
Должен ли я проводить отдельные регрессии для каждого сообщества или сообщество может быть просто управляющей переменной в агрегированной модели?

Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо...

11
Коллинеарность между категориальными переменными

Есть много о коллинеарности в отношении непрерывных предикторов, но не так много, что я могу найти в категориальных предикторах. У меня есть данные этого типа, показанные ниже. Первый фактор - это генетическая переменная (количество аллелей), второй фактор - категория заболевания. Ясно, что гены...

11
Регрессия, основанная, например, на днях недели

Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился. Представьте, что у меня есть набор данных, связанных с автомобилем, таких как Время в пути от города А до города Б Расстояние от города А до...

11
Как найти показатель корреляции между двумя номинальными переменными?

Был проведен опрос, когда люди выбрали то, что они используют, чтобы представить своего смайлика, и въехали в страну происхождения. Я перекодировал текстовые ответы в числовые. Какую форму анализа следует использовать (предпочтительно в SPSS), чтобы проверить уровень корреляции между тем, откуда...

11
Как выполнить остаточный анализ для бинарных / дихотомических независимых предикторов в линейной регрессии?

Я выполняю множественную линейную регрессию ниже в R, чтобы предсказать доходность управляемого фонда. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Здесь только GRI и MBA являются бинарными / дихотомическими предикторами; остальные предикторы являются непрерывными. Я использую этот...

11
glmnet: как понять многочленовую параметризацию?

Следующая проблема: я хочу предсказать переменную категориального ответа с одной (или более) категориальными переменными, используя glmnet (). Тем не менее, я не могу понять, какой вывод дает мне glmnet. Хорошо, сначала давайте сгенерируем две связанные категориальные переменные: Генерировать...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

10
Можно ли напрямую читать столбцы CSV как категориальные данные?

Мне нужно проанализировать с помощью R данные медицинского обследования (с более 100 кодированными столбцами), которое приходит в CSV. Я буду использовать погремушку для некоторого начального анализа, но за кадром это все еще R. Если я читаю файл .csv () , столбцы с числовыми кодами рассматриваются...

10
Как работать с недвоичными категориальными переменными в логистической регрессии (SPSS)

Я должен сделать бинарную логистическую регрессию с большим количеством независимых переменных. Большинство из них являются двоичными, но некоторые из категориальных переменных имеют более двух уровней. Как лучше всего справиться с такими переменными? Например, для переменной с тремя возможными...

10
Корреляция между дихотомической и непрерывной переменной

Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной. Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным. Я выполнил...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Является ли мультиколлинеарность неявной в категориальных переменных?

Я заметил, что во время работы с моделью многомерной регрессии наблюдался небольшой, но заметный эффект мультиколлинеарности, измеряемый коэффициентами инфляции дисперсии, в категориях категориальной переменной (конечно, после исключения эталонной категории). Например, скажем, у нас есть набор...

10
Полиномиальная модель Дирихле с гиперприорным распределением по параметрам концентрации

Я постараюсь описать имеющуюся проблему как можно более общей. Я моделирую наблюдения как категориальное распределение с вектором вероятности параметра тета. Затем я предполагаю, что вектор параметров тета следует предварительному распределению Дирихле с параметрами...

10
Методы наказания за категориальные данные: объединение уровней в фактор

Наказанные модели могут использоваться для оценки моделей, в которых количество параметров равно или даже превышает размер выборки. Такая ситуация может возникнуть в лог-линейных моделях больших разреженных таблиц категориальных данных или данных подсчета. В этих настройках часто также желательно...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Как называется эта диаграмма?

Может кто-нибудь сказать мне, как называется этот тип диаграммы (если есть)? Также кто-нибудь может предложить какие-нибудь инструменты, пусть и простые, для построения такой диаграммы?...

10
Зачем делать преобразование WOE категориальных предикторов в логистической регрессии?

Когда полезно преобразование весовых доказательств (WOE) категориальных переменных? Пример можно увидеть в трансформации WOE (Таким образом, для ответа , & категорического предиктора с категориями & из испытаний в й категории этого предиктора, WOE для й категории определяется какk y j n j j...