Вопросы с тегом «cross-validation»

14
Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

14
Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки...

14
AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?

Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели. А яС= 2 k - 2 l n ( L )AяСзнак равно2К-2LN(L)AIC =2k -2ln(L) = количество параметров в моделиККk = вероятностьLLL Байесовский информационный критерий BIC тесно связан с...

13
Понимание начальной загрузки для проверки и выбора модели

Мне кажется, я понимаю, как работают основы самозагрузки , но я не уверен, что понимаю, как я могу использовать самозагрузку для выбора модели или чтобы избежать переобучения. Например, для выбора модели вы бы просто выбрали модель, которая дает наименьшую ошибку (может быть, дисперсию?) Во всех...

13
Интерпретация и проверка модели регрессии пропорциональных рисков Кокса с использованием R на простом английском языке

Может кто-нибудь объяснить мне мою модель Кокса на простом английском? Я использовал следующую модель регрессии Кокса для всех моих данных, используя cphфункцию. Мои данные сохраняются в объекте под названием Data. Переменные w, xи yнепрерывны; zэто фактор двух уровней. Время измеряется месяцами. У...

13
Как исправить несходимость в LogisticRegressionCV

Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого...

13
Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?

Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить...

13
С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?

При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,%...

13
Чем перекрестная проверка отличается от отслеживания данных?

Я только что закончил «Введение в статистическое обучение» . Я задавался вопросом, отличается ли использование перекрестной проверки для нахождения наилучших параметров настройки для различных методов машинного обучения от отслеживания данных? Мы неоднократно проверяем, какое значение параметра...

13
Оценить случайный лес: OOB против CV

Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю,...

12
Keras: почему убыток уменьшается, а val_loss увеличивается?

Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель...

12
Перекрестная проверка и порядковая логистическая регрессия

Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ... Сначала я создаю набор данных игрушек: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <-...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Разделение данных временного ряда на наборы Train / Test / Validation

Каков наилучший способ разбить данные временного ряда на наборы поезд / тест / проверка, где набор проверки будет использоваться для настройки гиперпараметра? У нас есть данные о ежедневных продажах за 3 года, и мы планируем использовать 2015-2016 гг. В качестве данных обучения, затем случайным...

12
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

12
Как выполнить перекрестную проверку для PCA, чтобы определить количество основных компонентов?

Я пытаюсь написать свою собственную функцию для анализа главных компонентов, PCA (конечно, многое уже написано, но я просто заинтересован в том, чтобы реализовать что-то самостоятельно). Основная проблема, с которой я столкнулся, - это этап перекрестной проверки и вычисления прогнозируемой суммы...

12
Точное определение меры Deviance в пакете glmnet с перекрестной проверкой?

Для моего текущего исследования я использую метод Лассо через пакет glmnet в R для биномиальной зависимой переменной. В glmnet оптимальная лямбда определяется путем перекрестной проверки, и полученные модели можно сравнивать с различными показателями, например, ошибочной классификацией или...

12
Как выбрать ядро ​​для ядра PCA?

Какими способами можно выбрать, какое ядро ​​приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие...

12
Существуют ли современные способы использования джекнифинга?

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...