Вопросы с тегом «cross-validation»

18
Доказательство формулы LOOCV

Из «Введения в статистическое обучение » Джеймса и др., Оценка перекрестной проверки (LOOCV) определяется как где .резюме( н )= 1NΣя = 1NMSEярезюме(N)знак равно1NΣязнак равно1NMSEя\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEя= ( уя- у^я)2MSEязнак равно(Yя-Y^я)2\text{MSE}_i =...

18
Почему разделение данных на набор для обучения и тестирования недостаточно

Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще...

18
Сколько раз мы должны повторять K-кратное резюме?

Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен...

17
Зачем использовать масштабирование Платта?

Для калибровки уровня достоверности по вероятности в контролируемом обучении (скажем, для сопоставления достоверности из SVM или дерева решений с использованием данных с избыточной дискретизацией) одним из методов является использование масштабирования Платта (например, получение калиброванных...

17
Как получить гиперпараметры во вложенной перекрестной проверке?

Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу,...

17
Быстрый метод поиска лучших метапараметров SVM (это быстрее, чем поиск по сетке)

Я использую модели SVM для краткосрочного прогнозирования загрязнителей воздуха. Для обучения новой модели мне нужно найти соответствующие метапараметры для модели SVM (я имею в виду C, гамма и т. Д.). Документация libsvm (и многие другие книги, которые я читал) предлагает использовать поиск по...

17
Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?

Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл...

17
Сообщение о дисперсии повторной перекрестной проверки в k-кратном размере

Я использовал повторную перекрестную проверку в k-кратном размере и сообщал о среднем значении (метрики оценки, например, чувствительности, специфичности), вычисленном как общее среднее значение для сгибов различных серий перекрестной проверки. Тем не менее, я не уверен, как я должен сообщать о...

17
Перекрестная проверка и настройка параметров

Кто-нибудь может сказать мне, что именно дает перекрестный анализ? Это просто средняя точность или дает какую-либо модель с настроенными параметрами? Потому что я где-то слышал, что для настройки параметров используется перекрестная...

17
Достаточно ли перекрестной проверки для предотвращения переоснащения?

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного...

17
Как построить окончательную модель и настроить порог вероятности после вложенной перекрестной проверки?

Во-первых, извинения за размещение вопроса, который уже подробно обсуждался здесь , здесь , здесь , здесь , здесьи для разогрева старой темы. Я знаю, что @DikranMarsupial подробно писал об этой теме в постах и ​​журнальных статьях, но я все еще в замешательстве, и, судя по количеству подобных...

16
Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?

Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший»...

16
Нормализация до перекрестной проверки

Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я...

16
Поиск в сетке по к-кратной перекрестной проверке

У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю...

16
Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в ​​K-кратном порядке, повторенная n раз

Пакет caret представляет собой великолепную библиотеку R для построения нескольких моделей машинного обучения и имеет несколько функций для построения и оценки моделей. Для настройки параметров и обучения модели пакет карет предлагает «repeatcv» в качестве одного из методов. Хорошей практикой...

16
Следует ли использовать повторную перекрестную проверку для оценки прогностических моделей?

Я наткнулся на эту статью 2012 года, написанную Гитте Ванвинкеленом и Хендриком Блокелом, в которой ставится под сомнение полезность повторной перекрестной проверки, которая стала популярным методом уменьшения дисперсии перекрестной проверки. Авторы продемонстрировали, что, хотя повторная...

16
PCA и k-кратная перекрестная проверка в пакете каретки в R

Я только что посмотрел лекцию из курса машинного обучения на Coursera. В разделе, где профессор обсуждает PCA для предварительной обработки данных в контролируемых учебных приложениях, он говорит, что PCA следует выполнять только на обучающих данных, а затем отображение используется для...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...