Вопросы с тегом «cross-validation»

43
Сборник методов перекрестной проверки

Мне интересно, знает ли кто-нибудь сборник методов перекрестной проверки с обсуждением различий между ними и руководством о том, когда использовать каждый из них. В Википедии есть список наиболее распространенных техник, но мне любопытно, есть ли другие техники и есть ли таксономии для них....

39
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки

Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное...

37
Перекрестный анализ временных рядов

Я использовал пакет caret в R для построения прогностических моделей для классификации и регрессии. Caret предоставляет унифицированный интерфейс для настройки гиперпараметров модели путем перекрестной проверки или привязки загрузки. Например, если вы строите простую модель «ближайших соседей» для...

37
Дисперсия кратных оценок перекрестной проверки как : какова роль «устойчивости»?

TL, DR: кажется, что, вопреки часто повторяемым советам, перекрестная проверка «один-один-один» (LOO-CV), то естькратное CV, где(количество сгибов) равно(число обучающих наблюдений) - дает оценки ошибки обобщения, которые являются наименьшей переменной для любого, а не самой переменной, предполагая...

37
Можно ли использовать перекрестную проверку для причинного вывода?

Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными? В то время как эта статья Ричарда Берк демонстрирует использование...

36
Когда вложенная перекрестная проверка действительно необходима и может иметь практическое значение?

При использовании перекрестной проверки для выбора модели (такой как, например, настройка гиперпараметра) и для оценки производительности лучшей модели следует использовать вложенную перекрестную проверку . Внешний цикл предназначен для оценки производительности модели, а внутренний цикл - для...

36
Как мне узнать, какой метод перекрестной проверки является лучшим?

Я пытаюсь выяснить, какой метод перекрестной проверки лучше всего подходит для моей ситуации. Следующие данные являются лишь примером для проработки проблемы (в R), но мои реальные Xданные ( xmat) связаны друг с другом и в разной степени связаны с yпеременной ( ymat). Я предоставил код R, но мой...

35
PCA и разделение поезда / теста

У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для...

34
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для...

34
Выбор модели и перекрестная проверка: правильный путь

В CrossValidated существует множество тем на тему выбора модели и перекрестной проверки. Вот несколько из них: Внутренняя и внешняя перекрестная проверка и выбор модели Главный ответ @ DikranMarsupial на выбор функций и перекрестную проверку Однако ответы на эти темы являются довольно общими и в...

31
Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)

Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки...

29
Метрики ошибок для перекрестной проверки моделей Пуассона

Я перекрестно проверяю модель, которая пытается предсказать счет. Если бы это была проблема бинарной классификации, я бы вычислял AUC вне складывания, а если бы это была проблема регрессии, я бы вычислял среднеквадратичное среднеквадратичное значение или MAE. Для модели Пуассона какие метрики...

29
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?

Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового...

29
Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?

У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими...

29
К-фолд против Монте-Карло перекрестной проверки

Я пытаюсь изучить различные методы перекрестной проверки, прежде всего с намерением применить к методам многомерного анализа под наблюдением. Два, с которыми я столкнулся, являются методами перекрестной проверки K-fold и Monte Carlo. Я читал, что K-fold - это вариант Монте-Карло, но я не уверен,...

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

27
Является ли перекрестная проверка правильной заменой проверочного набора?

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке...

27
Оценка дисперсии в k-кратной перекрестной проверке

K-кратная перекрестная проверка может использоваться для оценки возможности обобщения данного классификатора. Могу ли я (или я должен) также вычислить объединенную дисперсию из всех проверочных прогонов, чтобы получить лучшую оценку ее дисперсии? Если нет, то почему? Я нашел документы, в которых...

27
Почему существует асимметрия между этапом обучения и этапом оценки?

Хорошо известно, особенно в обработке естественного языка, что машинное обучение должно проходить в два этапа, этап обучения и этап оценки, и они должны использовать разные данные. Почему это? Интуитивно понятно, что этот процесс помогает избежать перегрузки данных, но я не вижу...