Вопросы с тегом «cross-validation»

11
Что является более подходящим способом создания выносного набора: удалить некоторые предметы или удалить некоторые наблюдения от каждого предмета?

У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы. Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения. Так что лучше делать и почему? (а)...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Байесовская, MDL или ML интерпретация перекрестной проверки?

Есть ли известная байесовская, ML или MDL интерпретация перекрестной проверки? Могу ли я интерпретировать перекрестную проверку как выполнение правильного обновления специально созданного...

11
Перекрестная проверка после LASSO в данных комплексного опроса

Я пытаюсь сделать выбор модели для некоторых кандидатов-предикторов, используя LASSO с непрерывным результатом. Цель состоит в том, чтобы выбрать оптимальную модель с наилучшими показателями прогнозирования, что обычно может быть выполнено путем перекрестной проверки в K-кратном порядке после...

11
Как вы можете определить, является ли гауссовский процесс более подходящим?

Я тренирую гауссовский процесс с ядром ARD с большим количеством параметров, максимизируя предельное правдоподобие данных вместо перекрестной проверки. Я подозреваю, что это чрезмерно. Как я могу проверить это подозрение в байесовском...

11
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?

При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли...

11
Усреднение точности и отзыв при использовании перекрестной проверки

Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос...

11
Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут...

11
Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?

Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и...

11
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе

Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор...

10
Почему оценка CV тестовой ошибки недооценивает фактическую тестовую ошибку?

Насколько я понимаю, k-кратная оценка перекрестной проверки ошибки теста обычно недооценивает фактическую ошибку теста. Я запутался, почему это так. Я понимаю, почему ошибка обучения обычно меньше, чем ошибка теста - потому что вы тренируете модель на тех же данных, на которых вы оцениваете ошибку!...

10
Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?

У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3)...

10
Стабильность модели в перекрестной проверке регрессионных моделей

С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли...

10
Расчет интервалов прогнозирования при использовании перекрестной проверки

Оценки стандартного отклонения рассчитываются по формуле: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) для точности прогноза, взятой из 10-кратной...

10
GAM перекрестная проверка для проверки ошибки предсказания

Мои вопросы касаются GAMs в пакете mgcv R. Из-за небольшого размера выборки я хочу определить ошибку прогнозирования, используя перекрестную проверку с пропуском. Это разумно? Есть ли пакет или код, как я могу это сделать? errorest()Функция в ipred пакете не работает. Простой тестовый набор данных:...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?

Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных:...

10
Превосходство LASSO над прямым выбором / обратным устранением с точки зрения ошибки прогнозирования перекрестной проверки модели

Я получил три уменьшенные модели из оригинальной полной модели, используя выбор вперед устранение в обратном направлении Техника наказания L1 (LASSO) Для моделей, полученных с использованием прямого выбора / обратного исключения, я получил перекрестную валидацию оценки ошибки прогнозирования,...

10
Является ли удерживающая проверка лучшей аппроксимацией «получения новых данных», чем k-кратное резюме?

Я переосмыслил ответ, который дал на вопрос пару недель назад Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный...

10
Как выбрать размеры набора для обучения, перекрестной проверки и тестирования для данных небольшого размера?

Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения? Я бы интуитивно выбрал Размер тренировочного набора 50 Размер набора для перекрестной проверки 25, и Размер теста как 25. Но,...