Вопросы с тегом «validation»

16
Нормализация до перекрестной проверки

Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я...

16
Поиск в сетке по к-кратной перекрестной проверке

У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю...

16
Следует ли использовать повторную перекрестную проверку для оценки прогностических моделей?

Я наткнулся на эту статью 2012 года, написанную Гитте Ванвинкеленом и Хендриком Блокелом, в которой ставится под сомнение полезность повторной перекрестной проверки, которая стала популярным методом уменьшения дисперсии перекрестной проверки. Авторы продемонстрировали, что, хотя повторная...

16
PCA и k-кратная перекрестная проверка в пакете каретки в R

Я только что посмотрел лекцию из курса машинного обучения на Coursera. В разделе, где профессор обсуждает PCA для предварительной обработки данных в контролируемых учебных приложениях, он говорит, что PCA следует выполнять только на обучающих данных, а затем отображение используется для...

15
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?

Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как:...

15
Могу ли я использовать маленький набор для проверки?

Я понимаю причину разделения данных на наборы тестов и наборов валидации. Я также понимаю, что размер раскола будет зависеть от ситуации, но обычно будет варьироваться от 50/50 до 90/10. Я построил RNN, чтобы исправить орфографию и начать с набора данных ~ 5м предложений. Я брею 500 тыс....

15
Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?

У меня есть конкретный вопрос о проверке в исследованиях машинного обучения. Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании...

15
Как сделать перекрестную проверку с помощью модели пропорциональных рисков Кокса?

Предположим, что я построил модель прогнозирования возникновения конкретной болезни в одном наборе данных (набор данных построения модели) и теперь хочу проверить, насколько хорошо модель работает в новом наборе данных (набор данных проверки). Для модели, построенной с логистической регрессией, я...

15
Когда / где использовать функциональный анализ данных?

Я очень плохо знаком с функциональным анализом данных (FDA). Я читаю: Ramsay, James O. и Silverman, Bernard W. (2006), Functional Analysis Data, 2nd ed., Springer, New York. Тем не менее, я до сих пор не очень ясно, где / когда использовать FDA? Может ли кто-нибудь дать мне пример, особенно в...

15
Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?

«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из...

15
Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

15
logloss vs gini / auc

Я обучил две модели (двоичные классификаторы с использованием h2o AutoML) и хочу выбрать одну для использования. У меня есть следующие результаты: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2...

15
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой...

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...

15
Высокая дисперсия перекрестной проверки по принципу «один-один-один»

Я читал снова и снова, что перекрестная проверка «Оставить один» имеет высокую дисперсию из-за большого перекрытия тренировочных сгибов. Однако я не понимаю, почему это так: не должны ли результаты перекрестной проверки быть очень стабильными (низкая дисперсия) именно потому, что тренировочные...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

14
Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

14
Обучение, тестирование, валидация в задачах анализа выживания

Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ. У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую...