Вопросы с тегом «categorical-data»

13

Как преобразовать порядковые данные из вопросника в надлежащие интервальные данные?

Существуют ли какие-либо простые методы преобразования данных порядкового уровня в интервальный уровень (точно так же, как это делается наоборот)? И выполнимо в Excel или SPSS? Имея данные, скажем: 10 вопросов на порядковом уровне (скажем, шкала 0-5, где 0 = «совсем нет», 5 = «все время»), я хочу...

13

Как обобщить категориальные данные?

Я боролся со следующей проблемой, надеюсь, она проста для статистиков (я программист, немного знакомый со статистикой). Мне нужно обобщить ответы на опрос (для руководства). В опросе содержится более 100 вопросов, сгруппированных по разным областям (от 5 до 10 вопросов на область). Все ответы...

categorical-data data-transformation descriptive-statistics

13

Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому...

categorical-data random-forest cart boosting

13

Захват сезонности в множественной регрессии для ежедневных данных

У меня есть ежедневные данные о продажах для продукта, который является очень сезонным. Я хочу уловить сезонность в регрессионной модели. Я читал, что если у вас есть квартальные или месячные данные, в этом случае вы можете создать 3 и 11 фиктивных переменных соответственно - но могу ли я иметь...

regression time-series multiple-regression categorical-data

13

Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?

Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе....

r categorical-data random-forest

13

Понимание создания фиктивных (ручных или автоматических) переменных в GLM

Если в формуле glm используется факторная переменная (например, пол с уровнями M и F), то создаются фиктивные переменные, которые можно найти в сводке модели glm вместе с соответствующими коэффициентами (например, полM) Если вместо того, чтобы полагаться на R для разделения коэффициента таким...

r generalized-linear-model categorical-data categorical-encoding

13

центрирование и масштабирование фиктивных переменных

У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными...

categorical-data data-transformation centering

12

Какие алгоритмы требуют горячего кодирования?

Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие...

machine-learning categorical-data categorical-encoding data-preprocessing

12

Почему R требует много времени для подбора модели с многоуровневым фактором?

Я подхожу к модели с многовариантным множителем, и R требует очень много времени, чтобы соответствовать этой модели. Почему это? Например, если я подгоняю регрессию к прогнозированию зарплат игроков и включаю предиктор факторов для всех национальностей игроков, это займет больше времени, чем...

regression categorical-data

12

Могу ли я использовать множественную регрессию, когда у меня смешаны категориальные и непрерывные предикторы?

Похоже, вы можете использовать кодирование для одной категориальной переменной, но у меня есть две категориальные и одна непрерывная переменная предиктора. Могу ли я использовать множественную регрессию для этого в SPSS и если да, то как?...

regression spss categorical-data continuous-data

12

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

12

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Порядковый логистический регресс в Python

Я хотел бы запустить порядковую логистическую регрессию в Python - для переменной ответа с тремя уровнями и несколькими объяснительными факторами. statsmodelsПакет поддерживает двоичный логит и модель полиномиального логита (MNLogit), но не упорядоченную логит. Поскольку основополагающая математика...

categorical-data python logit ordered-logit statsmodels

12

Ягодная инверсия

У меня есть большие совокупные рыночные данные о продажах вина в США, и я хотел бы оценить спрос на некоторые высококачественные вина. Эти доли рынка были в основном получены из случайной полезной модели вида где включает в себя наблюдаемые характеристики продукта, обозначает цены продукта, -...

logistic estimation multiple-regression categorical-data

12

Подходящий способ справиться с 3-уровневой таблицей непредвиденных обстоятельств

У меня есть трехуровневая таблица непредвиденных обстоятельств с данными подсчета для нескольких видов, растения-хозяина, из которого они были собраны, и была ли эта коллекция в дождливый день (это действительно имеет значение!) Используя R, поддельные данные могут выглядеть примерно так: count...

r categorical-data log-linear

12

Применяется ли процедура фиксированных эффектов Мундлака для логистической регрессии с использованием макетов?

У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogitдаже с 10% -ной выборкой. Однако при использовании непанельной...

logistic categorical-data stata fixed-effects-model

12

Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал...

distance-functions distance similarities association-measure categorical-data

12

Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной

Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ... Сначала я объясню вам, с какими данными я работаю ... Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также...

correlation matlab ordinal-data categorical-data continuous-data

12

Оценка максимального правдоподобия совместного распределения с учетом только предельных показателей

Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : X , Y x , y ∈ { 1 , … , K } n j = 1 , … , Kпх , уpx,yp_{x,y}Икс, YX,YX,Yх , у∈ { 1 , … ,...

categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

11

Несколько тестов хи-квадрат

У меня есть перекрестные данные в таблице 2 x 2 x 6. Давайте назовем размеры response, Aи B. Я подгоняю логистическую регрессию к данным с помощью модели response ~ A * B. Анализ отклонения этой модели говорит о том, что оба термина и их взаимодействие являются значительными. Однако, глядя на...

categorical-data logistic multiple-comparisons chi-squared