Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

222
Есть ли основания предпочитать AIC или BIC другим?

AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC...

149
Как выбрать прогностическую модель после k-кратной перекрестной проверки?

Мне интересно, как выбрать прогностическую модель после выполнения перекрестной проверки по K-кратному критерию. Это может быть неловко сформулировано, поэтому позвольте мне объяснить более подробно: всякий раз, когда я запускаю кросс-проверку K-кратных данных, я использую K подмножеств данных...

140
Обучение с полным набором данных после перекрестной проверки?

Всегда ли полезно тренироваться с полным набором данных после перекрестной проверки ? Другими словами, можно ли тренироваться со всеми образцами в моем наборе данных и не иметь возможности проверить, подходит ли этот конкретный пример ? Некоторые предыстории проблемы: Скажем, у меня есть семейство...

136
Выбор K в K-кратной перекрестной проверке

Я использую в -кратной перекрестной проверки несколько раз сейчас , чтобы оценить производительность некоторых алгоритмов обучения, но я всегда был озадачен о том , как я должен выбрать значение .КKКKKКK Я часто видел и использовал значение , но мне это кажется совершенно произвольным, и теперь я...

104
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания

Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов...

92
Вложенная перекрестная проверка для выбора модели

Как можно использовать вложенную перекрестную проверку для выбора модели ? Из того, что я читаю онлайн, вложенное резюме работает следующим образом: Существует внутренний цикл CV, где мы можем проводить поиск по сетке (например, запустив K-fold для каждой доступной модели, например, комбинацию...

83
Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой

Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения? Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? КKK, Ответ на этот вопрос...

76
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...

76
Выбор функции и перекрестная проверка

Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с...

70
Использование k-кратной перекрестной проверки для выбора модели временных рядов

Вопрос: Я хочу быть уверенным в чем-то, является ли использование перекрестной проверки в k-кратном порядке с временными рядами простым или нужно обратить особое внимание перед использованием? Предыстория: я моделирую временной ряд 6 лет (с цепью полумарков) с выборкой данных каждые 5 минут. Чтобы...

70
Как разделить набор данных для перекрестной проверки, кривой обучения и окончательной оценки?

Какова подходящая стратегия для разделения набора данных? Я прошу обратную связь на следующий подход ( а не на отдельных параметров , таких как test_sizeили n_iter, но если я X, y, X_train, y_train, X_test, и y_testсоответствующим образом и , если последовательность имеет смысл): (расширяя этот...

69
Как настроить гиперпараметры деревьев xgboost?

У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?...

60
Как я могу гарантировать, что данные тестирования не попадут в данные обучения?

Предположим, у нас есть кто-то, строящий прогностическую модель, но он не обязательно хорошо разбирается в надлежащих статистических или машинных принципах обучения. Может быть, мы помогаем этому человеку, когда он учится, или, возможно, этот человек использует какой-то пакет программного...

58
Ошибка проверки меньше, чем ошибка обучения?

Здесь и здесь я нашел два вопроса об этой проблеме, но пока нет очевидного ответа или объяснения. Я навязываю ту же проблему, где ошибка проверки меньше, чем ошибка обучения в моей Convolution Neural Network. Что это...

55
Понимание стратифицированной перекрестной проверки

В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ? Википедия говорит: При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической...

54
О важности предположения IID в статистическом обучении

В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )( Xя, уя)(Xi,yi)({\bf{X}}_i,y_i)...

54
Удерживающая проверка против перекрестной проверки

Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку...

47
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?

Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я...

47
Оптимальное количество сгибов в перекрестной проверке с

Помимо соображений вычислительной мощности, есть ли основания полагать, что увеличение количества сгибов при перекрестной проверке приводит к лучшему выбору / проверке модели (т. Е. Чем больше сгибов, тем лучше)? Если доводить аргумент до крайности, обязательно ли перекрестная проверка по принципу...