Вопросы с тегом «validation»

19

Устойчивость перекрестной проверки в байесовских моделях

Я подгоняю байесовский HLM в JAGS, используя перекрестную проверку в k-кратном порядке (k = 5). Я хотел бы знать, стабильны ли оценки параметра во всех сгибах. Какой лучший способ сделать это?ββ\beta Одна из идей состоит в том, чтобы найти различия исходных текстов и посмотреть, находится ли 0 в...

bayesian cross-validation

19

Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе...

cross-validation econometrics model-selection interpretation regularization

19

Интервал прогнозирования на основе перекрестной проверки (CV)

В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В...

cross-validation boosting prediction-interval

19

Является ли настройка гиперпараметра на образце набора данных плохой идеей?

У меня есть набор данных из 140000 примеров и 30 функций, для которых я готовлю несколько классификаторов для двоичной классификации (SVM, логистическая регрессия, случайный лес и т. Д.) Во многих случаях настройка гиперпараметра для всего набора данных с использованием поиска по сетке или...

machine-learning cross-validation hyperparameter

18

Как сообщается матрица путаницы из K-кратной перекрестной проверки?

Предположим, я делаю перекрестную проверку в K-кратном порядке с K = 10-кратным. Там будет одна матрица путаницы для каждого сгиба. Когда я сообщаю о результатах, я должен вычислить, какова средняя матрица путаницы, или просто суммировать матрицы...

machine-learning cross-validation accuracy

18

Сколько раз мы должны повторять K-кратное резюме?

Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен...

cross-validation

18

Вменение до или после разделения на поезд и тест?

У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные...

cross-validation survival multiple-imputation train

18

Изменчивость в результатах cv.glmnet

Я использую, cv.glmnetчтобы найти предикторов. Я использую следующие настройки: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients")...

r cross-validation feature-selection glmnet

18

Доказательство формулы LOOCV

Из «Введения в статистическое обучение » Джеймса и др., Оценка перекрестной проверки (LOOCV) определяется как где .резюме( н )= 1NΣя = 1NMSEярезюме(N)знак равно1NΣязнак равно1NMSEя\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEя= ( уя- у^я)2MSEязнак равно(Yя-Y^я)2\text{MSE}_i =...

regression self-study cross-validation least-squares

18

Почему разделение данных на набор для обучения и тестирования недостаточно

Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще...

machine-learning cross-validation

17

Зачем использовать масштабирование Платта?

Для калибровки уровня достоверности по вероятности в контролируемом обучении (скажем, для сопоставления достоверности из SVM или дерева решений с использованием данных с избыточной дискретизацией) одним из методов является использование масштабирования Платта (например, получение калиброванных...

logistic cross-validation calibration

17

Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?

Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл...

cross-validation standard-deviation mean outliers

17

Как построить окончательную модель и настроить порог вероятности после вложенной перекрестной проверки?

Во-первых, извинения за размещение вопроса, который уже подробно обсуждался здесь , здесь , здесь , здесь , здесьи для разогрева старой темы. Я знаю, что @DikranMarsupial подробно писал об этой теме в постах и журнальных статьях, но я все еще в замешательстве, и, судя по количеству подобных...

machine-learning cross-validation model-selection glmnet hyperparameter

17

Быстрый метод поиска лучших метапараметров SVM (это быстрее, чем поиск по сетке)

Я использую модели SVM для краткосрочного прогнозирования загрязнителей воздуха. Для обучения новой модели мне нужно найти соответствующие метапараметры для модели SVM (я имею в виду C, гамма и т. Д.). Документация libsvm (и многие другие книги, которые я читал) предлагает использовать поиск по...

cross-validation svm

17

Как получить гиперпараметры во вложенной перекрестной проверке?

Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу,...

cross-validation scikit-learn hyperparameter

17

Сообщение о дисперсии повторной перекрестной проверки в k-кратном размере

Я использовал повторную перекрестную проверку в k-кратном размере и сообщал о среднем значении (метрики оценки, например, чувствительности, специфичности), вычисленном как общее среднее значение для сгибов различных серий перекрестной проверки. Тем не менее, я не уверен, как я должен сообщать о...

cross-validation

17

Перекрестная проверка и настройка параметров

Кто-нибудь может сказать мне, что именно дает перекрестный анализ? Это просто средняя точность или дает какую-либо модель с настроенными параметрами? Потому что я где-то слышал, что для настройки параметров используется перекрестная...

cross-validation

17

Достаточно ли перекрестной проверки для предотвращения переоснащения?

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного...

cross-validation overfitting

16

Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?

Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший»...

model-selection cross-validation

16

Нормализация до перекрестной проверки

Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я...

cross-validation normalization