Вопросы с тегом «validation»

19
Устойчивость перекрестной проверки в байесовских моделях

Я подгоняю байесовский HLM в JAGS, используя перекрестную проверку в k-кратном порядке (k = 5). Я хотел бы знать, стабильны ли оценки параметра во всех сгибах. Какой лучший способ сделать это?ββ\beta Одна из идей состоит в том, чтобы найти различия исходных текстов и посмотреть, находится ли 0 в...

19
Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе...

19
Интервал прогнозирования на основе перекрестной проверки (CV)

В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В...

19
Является ли настройка гиперпараметра на образце набора данных плохой идеей?

У меня есть набор данных из 140000 примеров и 30 функций, для которых я готовлю несколько классификаторов для двоичной классификации (SVM, логистическая регрессия, случайный лес и т. Д.) Во многих случаях настройка гиперпараметра для всего набора данных с использованием поиска по сетке или...

18
Как сообщается матрица путаницы из K-кратной перекрестной проверки?

Предположим, я делаю перекрестную проверку в K-кратном порядке с K = 10-кратным. Там будет одна матрица путаницы для каждого сгиба. Когда я сообщаю о результатах, я должен вычислить, какова средняя матрица путаницы, или просто суммировать матрицы...

18
Сколько раз мы должны повторять K-кратное резюме?

Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен...

18
Вменение до или после разделения на поезд и тест?

У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные...

18
Доказательство формулы LOOCV

Из «Введения в статистическое обучение » Джеймса и др., Оценка перекрестной проверки (LOOCV) определяется как где .резюме( н )= 1NΣя = 1NMSEярезюме(N)знак равно1NΣязнак равно1NMSEя\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEя= ( уя- у^я)2MSEязнак равно(Yя-Y^я)2\text{MSE}_i =...

18
Почему разделение данных на набор для обучения и тестирования недостаточно

Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще...

17
Зачем использовать масштабирование Платта?

Для калибровки уровня достоверности по вероятности в контролируемом обучении (скажем, для сопоставления достоверности из SVM или дерева решений с использованием данных с избыточной дискретизацией) одним из методов является использование масштабирования Платта (например, получение калиброванных...

17
Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?

Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл...

17
Как построить окончательную модель и настроить порог вероятности после вложенной перекрестной проверки?

Во-первых, извинения за размещение вопроса, который уже подробно обсуждался здесь , здесь , здесь , здесь , здесьи для разогрева старой темы. Я знаю, что @DikranMarsupial подробно писал об этой теме в постах и ​​журнальных статьях, но я все еще в замешательстве, и, судя по количеству подобных...

17
Быстрый метод поиска лучших метапараметров SVM (это быстрее, чем поиск по сетке)

Я использую модели SVM для краткосрочного прогнозирования загрязнителей воздуха. Для обучения новой модели мне нужно найти соответствующие метапараметры для модели SVM (я имею в виду C, гамма и т. Д.). Документация libsvm (и многие другие книги, которые я читал) предлагает использовать поиск по...

17
Как получить гиперпараметры во вложенной перекрестной проверке?

Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу,...

17
Сообщение о дисперсии повторной перекрестной проверки в k-кратном размере

Я использовал повторную перекрестную проверку в k-кратном размере и сообщал о среднем значении (метрики оценки, например, чувствительности, специфичности), вычисленном как общее среднее значение для сгибов различных серий перекрестной проверки. Тем не менее, я не уверен, как я должен сообщать о...

17
Перекрестная проверка и настройка параметров

Кто-нибудь может сказать мне, что именно дает перекрестный анализ? Это просто средняя точность или дает какую-либо модель с настроенными параметрами? Потому что я где-то слышал, что для настройки параметров используется перекрестная...

17
Достаточно ли перекрестной проверки для предотвращения переоснащения?

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного...

16
Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?

Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший»...

16
Нормализация до перекрестной проверки

Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я...