Вопросы с тегом «categorical-data»

13
Как преобразовать порядковые данные из вопросника в надлежащие интервальные данные?

Существуют ли какие-либо простые методы преобразования данных порядкового уровня в интервальный уровень (точно так же, как это делается наоборот)? И выполнимо в Excel или SPSS? Имея данные, скажем: 10 вопросов на порядковом уровне (скажем, шкала 0-5, где 0 = «совсем нет», 5 = «все время»), я хочу...

13
Как обобщить категориальные данные?

Я боролся со следующей проблемой, надеюсь, она проста для статистиков (я программист, немного знакомый со статистикой). Мне нужно обобщить ответы на опрос (для руководства). В опросе содержится более 100 вопросов, сгруппированных по разным областям (от 5 до 10 вопросов на область). Все ответы...

13
Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому...

13
Захват сезонности в множественной регрессии для ежедневных данных

У меня есть ежедневные данные о продажах для продукта, который является очень сезонным. Я хочу уловить сезонность в регрессионной модели. Я читал, что если у вас есть квартальные или месячные данные, в этом случае вы можете создать 3 и 11 фиктивных переменных соответственно - но могу ли я иметь...

13
Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?

Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе....

13
Понимание создания фиктивных (ручных или автоматических) переменных в GLM

Если в формуле glm используется факторная переменная (например, пол с уровнями M и F), то создаются фиктивные переменные, которые можно найти в сводке модели glm вместе с соответствующими коэффициентами (например, полM) Если вместо того, чтобы полагаться на R для разделения коэффициента таким...

13
центрирование и масштабирование фиктивных переменных

У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными...

12
Какие алгоритмы требуют горячего кодирования?

Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие...

12
Почему R требует много времени для подбора модели с многоуровневым фактором?

Я подхожу к модели с многовариантным множителем, и R требует очень много времени, чтобы соответствовать этой модели. Почему это? Например, если я подгоняю регрессию к прогнозированию зарплат игроков и включаю предиктор факторов для всех национальностей игроков, это займет больше времени, чем...

12
Могу ли я использовать множественную регрессию, когда у меня смешаны категориальные и непрерывные предикторы?

Похоже, вы можете использовать кодирование для одной категориальной переменной, но у меня есть две категориальные и одна непрерывная переменная предиктора. Могу ли я использовать множественную регрессию для этого в SPSS и если да, то как?...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Порядковый логистический регресс в Python

Я хотел бы запустить порядковую логистическую регрессию в Python - для переменной ответа с тремя уровнями и несколькими объяснительными факторами. statsmodelsПакет поддерживает двоичный логит и модель полиномиального логита (MNLogit), но не упорядоченную логит. Поскольку основополагающая математика...

12
Ягодная инверсия

У меня есть большие совокупные рыночные данные о продажах вина в США, и я хотел бы оценить спрос на некоторые высококачественные вина. Эти доли рынка были в основном получены из случайной полезной модели вида где включает в себя наблюдаемые характеристики продукта, обозначает цены продукта, -...

12
Подходящий способ справиться с 3-уровневой таблицей непредвиденных обстоятельств

У меня есть трехуровневая таблица непредвиденных обстоятельств с данными подсчета для нескольких видов, растения-хозяина, из которого они были собраны, и была ли эта коллекция в дождливый день (это действительно имеет значение!) Используя R, поддельные данные могут выглядеть примерно так: count...

12
Применяется ли процедура фиксированных эффектов Мундлака для логистической регрессии с использованием макетов?

У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogitдаже с 10% -ной выборкой. Однако при использовании непанельной...

12
Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал...

12
Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной

Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ... Сначала я объясню вам, с какими данными я работаю ... Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также...

12
Оценка максимального правдоподобия совместного распределения с учетом только предельных показателей

Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : X , Y x , y ∈ { 1 , … , K } n j = 1 , … , Kпх , уpx,yp_{x,y}Икс, YX,YX,Yх , у∈ { 1 , … ,...

11
Несколько тестов хи-квадрат

У меня есть перекрестные данные в таблице 2 x 2 x 6. Давайте назовем размеры response, Aи B. Я подгоняю логистическую регрессию к данным с помощью модели response ~ A * B. Анализ отклонения этой модели говорит о том, что оба термина и их взаимодействие являются значительными. Однако, глядя на...