Вопросы с тегом «binary-data»

13
Существует ли пакет R для продольных двоичных откликов с непрерывным временем?

bildПакет , кажется, превосходный пакет для последовательных бинарных ответов. Но это на дискретное время. Я хотел бы указать плавную функцию времени для связи отношения шансов текущего отклика Y с двоичными откликами, измеренными в более ранние времена, или, по крайней мере, марковской версией...

13
LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

12
Как выбрать оптимальную ширину бункера при калибровке вероятностных моделей?

Предпосылки: Здесь есть несколько замечательных вопросов / ответов о том, как калибровать модели, которые предсказывают вероятности того или иного исхода. Например Оценка Бриера и ее разложение на разрешение, неопределенность и надежность . Калибровочные графики и изотоническая регрессия . Эти...

12
Пробит двухступенчатых наименьших квадратов (2SLS)

Мне сказали, что можно провести двухэтапную IV регрессию, где первая стадия - это пробит, а вторая стадия - МНК. Можно ли использовать 2SLS, если первая стадия является пробитом, а вторая - моделью пробита /...

12
Как я могу проверить, насколько важна моя кластеризация двоичных данных?

Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли...

12
Прогнозирование двоичных временных рядов

У меня есть двоичный временной ряд с 1, когда автомобиль не движется, и 0, когда автомобиль движется. Я хочу сделать прогноз на период до 36 часов вперед и на каждый час. Мой первый подход состоял в том, чтобы использовать наивный байесовский метод, используя следующие входные данные: t-24...

12
оптимизация auc против logloss в задачах двоичной классификации

Я выполняю задачу бинарной классификации, где вероятность исхода довольно низкая (около 3%). Я пытаюсь решить, следует ли оптимизировать AUC или потерю журнала. Насколько я понял, AUC максимизирует способность модели различать классы, в то время как потери в журнале штрафуют расхождение между...

11
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

11
Логистическая регрессия и точка перегиба

У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Как интерпретировать коэффициент второй ступени в регрессии инструментальных переменных с помощью бинарного инструмента и бинарной эндогенной переменной?

(довольно длинный пост, извините. Он включает в себя много дополнительной информации, поэтому не стесняйтесь переходить к вопросу внизу.) Введение: я работаю над проектом, в котором мы пытаемся определить влияние двоичной эндогенной переменной, , на непрерывный результат, . Мы придумали инструмент...

10
Переменная индикатора для двоичных данных: {-1,1} против {0,1}

Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .TTT В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов...

10
Моделирование автокоррелированных двоичных временных рядов

Каков обычный подход к моделированию двоичных временных рядов? Есть ли бумага или учебник, где это лечится? Я думаю о бинарном процессе с сильной автокорреляцией. Что-то вроде знака процесса AR (1), начинающегося с нуля. Скажем, Икс0= 0X0=0X_0 = 0 и Икст + 1= β1ИксT+ ϵT,Xt+1=β1Xt+ϵt, X_{t+1} =...

10
Является ли когда-нибудь хорошей идеей дать «частичный кредит» (непрерывный результат) в обучении логистической регрессии?

Я тренирую логистическую регрессию, чтобы предсказать, какие бегуны, скорее всего, закончат изнурительную гонку на выносливость. Очень немногие бегуны заканчивают эту гонку, поэтому у меня серьезный дисбаланс классов и небольшой пример успеха (возможно, несколько десятков). Я чувствую, что могу...

10
Каковы опасности расчета корреляций Пирсона (вместо тетрахорических) для бинарных переменных в факторном анализе?

Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание...

10
Как визуализировать байесовскую доброту, пригодную для логистической регрессии

Для задачи байесовской логистической регрессии я создал апостериорное предиктивное распределение. Я выбираю из прогнозирующего распределения и получаю тысячи выборок (0,1) для каждого наблюдения, которое у меня есть. Визуализация пригодности менее интересна, например: На этом графике показаны 10...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Рекомендуемая процедура для факторного анализа на дихотомических данных с R

Мне нужно провести факторный анализ набора данных, состоящего из дихотомических переменных (0 = да, 1 = нет), и я не знаю, нахожусь ли я на правильном пути. Используя tetrachoric()я создаю корреляционную матрицу, по которой я бегу fa(data,factors=1). Результат довольно близок к результатам, которые...

10
Для задачи классификации, если переменная класса имеет неравномерное распределение, какой метод мы должны использовать?

например если у меня есть переменная кредитного скоринга класса с двумя классами хороший и плохой, где # (хорошо) = 700 и # (плохо) = 300. Я не хочу сокращать свои данные. какую технику я должен использовать? Я использовал SVM, но он дает плохие...

9
Расчет Jaccard или другого коэффициента ассоциации для двоичных данных с использованием умножения матриц

Я хочу знать, есть ли какой-нибудь возможный способ для вычисления коэффициента Жакара с использованием умножения матриц. Я использовал этот код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x)))...