Вопросы с тегом «validation»

10
Является ли удерживающая проверка лучшей аппроксимацией «получения новых данных», чем k-кратное резюме?

Я переосмыслил ответ, который дал на вопрос пару недель назад Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный...

10
Как выбрать размеры набора для обучения, перекрестной проверки и тестирования для данных небольшого размера?

Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения? Я бы интуитивно выбрал Размер тренировочного набора 50 Размер набора для перекрестной проверки 25, и Размер теста как 25. Но,...

10
Реализация вложенной перекрестной проверки

Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set...

10
Справедливо ли задавать начальное число в случайной лесной регрессии для получения максимальной точности?

У меня есть случайная регрессия леса, построенная с использованием skl, и я отмечаю, что я получаю разные результаты, основываясь на установке случайного начального числа на разные значения. Если я использую LOOCV, чтобы определить, какое семя работает лучше всего, это правильный метод?...

10
Вложенная перекрестная проверка - чем она отличается от выбора модели с помощью kfold CV на тренировочном наборе?

Я часто вижу людей, говорящих о перекрестной проверке 5x2 как частном случае вложенной перекрестной проверки . Я предполагаю, что первое число (здесь: 5) относится к числу сгибов во внутренней петле, а второе число (здесь: 2) относится к числу сгибов во внешней петле? Итак, чем это отличается от...

10
Перекрестная проверка регрессии лассо в R

Функция R cv.glm (library: boot) вычисляет предполагаемую K-кратную ошибку прогнозирования перекрестной проверки для обобщенных линейных моделей и возвращает дельту. Имеет ли смысл использовать эту функцию для регрессии лассо (library: glmnet) и, если да, то как ее можно выполнить? Библиотека...

10
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во...

10
Какие методы существуют для настройки гиперпараметров ядра графов SVM?

У меня есть некоторые данные, которые существуют на графе . Вершины принадлежат одному из двух классов y i ∈ { - 1 , 1 } , и я заинтересован в обучении SVM различать эти два класса. Одним подходящее ядро для этого является в диффузии ядро , К = ехру ( - β L ) , где L является лапласианом из G и β...

10
Предотвращение сбоя выборки по важности по Парето (PSIS-LOO)

Недавно я начал использовать перекрестную проверку сглаживания важности по Парето (PSIS-LOO), описанную в следующих статьях: Vehtari, A. & Gelman, A. (2015). Парето сгладил важность выборки. Препринт arXiv ( ссылка ). Вехтари А., Гельман А. и Габри Дж. (2016). Практическая оценка байесовской...

10
Почему оценка CV тестовой ошибки недооценивает фактическую тестовую ошибку?

Насколько я понимаю, k-кратная оценка перекрестной проверки ошибки теста обычно недооценивает фактическую ошибку теста. Я запутался, почему это так. Я понимаю, почему ошибка обучения обычно меньше, чем ошибка теста - потому что вы тренируете модель на тех же данных, на которых вы оцениваете ошибку!...

10
Как сделать перекрестную проверку с помощью cv.glmnet (регрессия LASSO в R)?

Мне интересно, как правильно подойти к обучению и тестированию модели LASSO с использованием glmnet в R? В частности, мне интересно, как это сделать, если отсутствие внешнего набора тестовых данных требует использования перекрестной проверки (или другого аналогичного подхода) для тестирования моей...

10
Случайная лесная регрессия для прогнозирования временных рядов

Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики. У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая...

9
Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос,...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
AUC в порядковой логистической регрессии

Я использую 2 вида логистической регрессии - один простой тип, для двоичной классификации, а другой - порядковый логистический регресс. Для вычисления точности первого я использовал перекрестную проверку, где я вычислял AUC для каждого раза и затем вычислял среднее значение AUC. Как я могу сделать...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

9
Смещение оптимизма - оценки ошибки прогноза

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в ​​выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из...

9
Как найти оптимальные значения параметров настройки в бустинге деревьев?

Я понимаю, что в модели деревьев повышения есть 3 параметра настройки, т.е. количество деревьев (количество итераций) параметр усадки количество разбиений (размер каждого составляющего дерева) У меня вопрос: для каждого из параметров настройки, как мне найти его оптимальное значение? А какой метод?...

9
Должны ли мы всегда делать резюме?

Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...