Вопросы с тегом «binary-data»

13

Существует ли пакет R для продольных двоичных откликов с непрерывным временем?

bildПакет , кажется, превосходный пакет для последовательных бинарных ответов. Но это на дискретное время. Я хотел бы указать плавную функцию времени для связи отношения шансов текущего отклика Y с двоичными откликами, измеренными в более ранние времена, или, по крайней мере, марковской версией...

r repeated-measures binary-data panel-data

13

LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

12

Как выбрать оптимальную ширину бункера при калибровке вероятностных моделей?

Предпосылки: Здесь есть несколько замечательных вопросов / ответов о том, как калибровать модели, которые предсказывают вероятности того или иного исхода. Например Оценка Бриера и ее разложение на разрешение, неопределенность и надежность . Калибровочные графики и изотоническая регрессия . Эти...

probability predictive-models binary-data calibration scoring-rules

12

Пробит двухступенчатых наименьших квадратов (2SLS)

Мне сказали, что можно провести двухэтапную IV регрессию, где первая стадия - это пробит, а вторая стадия - МНК. Можно ли использовать 2SLS, если первая стадия является пробитом, а вторая - моделью пробита /...

binary-data instrumental-variables probit 2sls

12

Как я могу проверить, насколько важна моя кластеризация двоичных данных?

Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли...

clustering statistical-significance binary-data

12

Прогнозирование двоичных временных рядов

У меня есть двоичный временной ряд с 1, когда автомобиль не движется, и 0, когда автомобиль движется. Я хочу сделать прогноз на период до 36 часов вперед и на каждый час. Мой первый подход состоял в том, чтобы использовать наивный байесовский метод, используя следующие входные данные: t-24...

r time-series forecasting binary-data

12

оптимизация auc против logloss в задачах двоичной классификации

Я выполняю задачу бинарной классификации, где вероятность исхода довольно низкая (около 3%). Я пытаюсь решить, следует ли оптимизировать AUC или потерю журнала. Насколько я понял, AUC максимизирует способность модели различать классы, в то время как потери в журнале штрафуют расхождение между...

classification binary-data auc log-loss

11

Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

clustering dataset k-means binary-data

11

Логистическая регрессия и точка перегиба

У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для...

regression logistic generalized-linear-model binary-data

11

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Как интерпретировать коэффициент второй ступени в регрессии инструментальных переменных с помощью бинарного инструмента и бинарной эндогенной переменной?

(довольно длинный пост, извините. Он включает в себя много дополнительной информации, поэтому не стесняйтесь переходить к вопросу внизу.) Введение: я работаю над проектом, в котором мы пытаемся определить влияние двоичной эндогенной переменной, , на непрерывный результат, . Мы придумали инструмент...

econometrics interpretation binary-data instrumental-variables

10

Переменная индикатора для двоичных данных: {-1,1} против {0,1}

Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .TTT В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов...

binary-data categorical-encoding

10

Моделирование автокоррелированных двоичных временных рядов

Каков обычный подход к моделированию двоичных временных рядов? Есть ли бумага или учебник, где это лечится? Я думаю о бинарном процессе с сильной автокорреляцией. Что-то вроде знака процесса AR (1), начинающегося с нуля. Скажем, Икс0= 0X0=0X_0 = 0 и Икст + 1= β1ИксT+ ϵT,Xt+1=β1Xt+ϵt, X_{t+1} =...

regression time-series logistic binary-data autoregressive

10

Является ли когда-нибудь хорошей идеей дать «частичный кредит» (непрерывный результат) в обучении логистической регрессии?

Я тренирую логистическую регрессию, чтобы предсказать, какие бегуны, скорее всего, закончат изнурительную гонку на выносливость. Очень немногие бегуны заканчивают эту гонку, поэтому у меня серьезный дисбаланс классов и небольшой пример успеха (возможно, несколько десятков). Я чувствую, что могу...

logistic binary-data continuous-data

10

Каковы опасности расчета корреляций Пирсона (вместо тетрахорических) для бинарных переменных в факторном анализе?

Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание...

r categorical-data factor-analysis binary-data

10

Как визуализировать байесовскую доброту, пригодную для логистической регрессии

Для задачи байесовской логистической регрессии я создал апостериорное предиктивное распределение. Я выбираю из прогнозирующего распределения и получаю тысячи выборок (0,1) для каждого наблюдения, которое у меня есть. Визуализация пригодности менее интересна, например: На этом графике показаны 10...

bayesian data-visualization classification goodness-of-fit binary-data

10

R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Мне нужно провести факторный анализ набора данных, состоящего из дихотомических переменных (0 = да, 1 = нет), и я не знаю, нахожусь ли я на правильном пути. Используя tetrachoric()я создаю корреляционную матрицу, по которой я бегу fa(data,factors=1). Результат довольно близок к результатам, которые...

r factor-analysis psychometrics binary-data

10

Для задачи классификации, если переменная класса имеет неравномерное распределение, какой метод мы должны использовать?

например если у меня есть переменная кредитного скоринга класса с двумя классами хороший и плохой, где # (хорошо) = 700 и # (плохо) = 300. Я не хочу сокращать свои данные. какую технику я должен использовать? Я использовал SVM, но он дает плохие...

classification binary-data

9

Расчет Jaccard или другого коэффициента ассоциации для двоичных данных с использованием умножения матриц

Я хочу знать, есть ли какой-нибудь возможный способ для вычисления коэффициента Жакара с использованием умножения матриц. Я использовал этот код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x)))...

r matrix binary-data association-measure similarities