Вопросы с тегом «validation»

11
Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met =...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе

Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор...

11
Перекрестная проверка после LASSO в данных комплексного опроса

Я пытаюсь сделать выбор модели для некоторых кандидатов-предикторов, используя LASSO с непрерывным результатом. Цель состоит в том, чтобы выбрать оптимальную модель с наилучшими показателями прогнозирования, что обычно может быть выполнено путем перекрестной проверки в K-кратном порядке после...

10
Случайная лесная регрессия для прогнозирования временных рядов

Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики. У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая...

10
Как вы генерируете ROC-кривые для перекрестной проверки без участия?

При выполнении 5-кратной перекрестной проверки (например) обычно рассчитывают отдельную кривую ROC для каждой из 5-кратных и часто умножают среднюю кривую ROC на стандартное отклонение. девиация показано как толщина кривой. Тем не менее, для перекрестной проверки LOO, когда в каждом сгибе имеется...

10
Как моделировать многовариантные результаты в R?

В большинстве случаев мы имеем дело только с одной переменной результат / ответ, такой как . Однако в некоторых сценариях, особенно в клинических данных, переменные результата могут быть многомерными / многомерными. Например, , где содержит переменные , и и все эти результаты коррелированы. Если...

10
Стабильность модели в перекрестной проверке регрессионных моделей

С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли...

10
Как вы решаете, каков ваш процент обучения, валидации и тестирования?

При разделении моих помеченных данных на обучающие, проверочные и тестовые наборы я слышал все от 50/25/25 до 85/5/10. Я уверен, что это зависит от того, как вы собираетесь использовать свою модель и насколько склонен к переоснащению вашего алгоритма обучения. Есть ли способ решить или все по...

10
Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки:...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Сравнение распределений производительности обобщения

Скажем, у меня есть два метода обучения для задачи классификации , и , и что я оцениваю их эффективность обобщения с помощью чего-то вроде повторной перекрестной проверки или начальной загрузки. Из этого процесса я получаю распределение оценок и для каждого метода по всем этим повторениям...

10
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?

Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных:...

10
Превосходство LASSO над прямым выбором / обратным устранением с точки зрения ошибки прогнозирования перекрестной проверки модели

Я получил три уменьшенные модели из оригинальной полной модели, используя выбор вперед устранение в обратном направлении Техника наказания L1 (LASSO) Для моделей, полученных с использованием прямого выбора / обратного исключения, я получил перекрестную валидацию оценки ошибки прогнозирования,...

10
Является ли удерживающая проверка лучшей аппроксимацией «получения новых данных», чем k-кратное резюме?

Я переосмыслил ответ, который дал на вопрос пару недель назад Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный...

10
Перекрестная проверка регрессии лассо в R

Функция R cv.glm (library: boot) вычисляет предполагаемую K-кратную ошибку прогнозирования перекрестной проверки для обобщенных линейных моделей и возвращает дельту. Имеет ли смысл использовать эту функцию для регрессии лассо (library: glmnet) и, если да, то как ее можно выполнить? Библиотека...

10
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во...

10
Какие методы существуют для настройки гиперпараметров ядра графов SVM?

У меня есть некоторые данные, которые существуют на графе . Вершины принадлежат одному из двух классов y i ∈ { - 1 , 1 } , и я заинтересован в обучении SVM различать эти два класса. Одним подходящее ядро для этого является в диффузии ядро , К = ехру ( - β L ) , где L является лапласианом из G и β...

10
Предотвращение сбоя выборки по важности по Парето (PSIS-LOO)

Недавно я начал использовать перекрестную проверку сглаживания важности по Парето (PSIS-LOO), описанную в следующих статьях: Vehtari, A. & Gelman, A. (2015). Парето сгладил важность выборки. Препринт arXiv ( ссылка ). Вехтари А., Гельман А. и Габри Дж. (2016). Практическая оценка байесовской...