Вопросы с тегом «stratification»

55
Понимание стратифицированной перекрестной проверки

В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ? Википедия говорит: При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической...

29
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?

Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового...

20
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации

Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе,...

13
Отличается ли подгонка модели Кокса со стратами и стратово-ковариатным взаимодействием от подгонки двух моделей Кокса?

В « Стратегиях регрессионного моделирования » Харрелла (второе издание) есть раздел (S. 20.1.7), в котором обсуждаются модели Кокса, включая взаимодействие между ковариатой, основное влияние которой на выживаемость мы также хотим оценить (возраст в примере ниже) и ковариация, основной эффект...

12
Стратифицированная классификация со случайными лесами (или другой классификатор)

Итак, у меня есть матрица размером около 60 x 1000. Я рассматриваю ее как 60 объектов с 1000 объектов; 60 объектов сгруппированы в 3 класса (a, b, c). 20 предметов в каждом классе, и мы знаем истинную классификацию. Я хотел бы провести обучение под наблюдением на этом наборе из 60 обучающих...

11
Выборка с заменой в R randomForest

Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Многоуровневая модель против отдельных моделей для каждого уровня

Каковы преимущества и недостатки использования отдельных моделей по сравнению с многоуровневым моделированием? В частности, предположим, что в ходе исследования были изучены пациенты, размещенные в рамках практики врачей, расположенных в разных странах. Каковы преимущества / недостатки...

9
Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...