Вопросы с тегом «validation»

47
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?

Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я...

43
Сборник методов перекрестной проверки

Мне интересно, знает ли кто-нибудь сборник методов перекрестной проверки с обсуждением различий между ними и руководством о том, когда использовать каждый из них. В Википедии есть список наиболее распространенных техник, но мне любопытно, есть ли другие техники и есть ли таксономии для них....

40
Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но...

39
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки

Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное...

37
Перекрестный анализ временных рядов

Я использовал пакет caret в R для построения прогностических моделей для классификации и регрессии. Caret предоставляет унифицированный интерфейс для настройки гиперпараметров модели путем перекрестной проверки или привязки загрузки. Например, если вы строите простую модель «ближайших соседей» для...

37
Дисперсия кратных оценок перекрестной проверки как : какова роль «устойчивости»?

TL, DR: кажется, что, вопреки часто повторяемым советам, перекрестная проверка «один-один-один» (LOO-CV), то естькратное CV, где(количество сгибов) равно(число обучающих наблюдений) - дает оценки ошибки обобщения, которые являются наименьшей переменной для любого, а не самой переменной, предполагая...

37
Можно ли использовать перекрестную проверку для причинного вывода?

Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными? В то время как эта статья Ричарда Берк демонстрирует использование...

36
Как мне узнать, какой метод перекрестной проверки является лучшим?

Я пытаюсь выяснить, какой метод перекрестной проверки лучше всего подходит для моей ситуации. Следующие данные являются лишь примером для проработки проблемы (в R), но мои реальные Xданные ( xmat) связаны друг с другом и в разной степени связаны с yпеременной ( ymat). Я предоставил код R, но мой...

36
Когда вложенная перекрестная проверка действительно необходима и может иметь практическое значение?

При использовании перекрестной проверки для выбора модели (такой как, например, настройка гиперпараметра) и для оценки производительности лучшей модели следует использовать вложенную перекрестную проверку . Внешний цикл предназначен для оценки производительности модели, а внутренний цикл - для...

35
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?

Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете...

35
PCA и разделение поезда / теста

У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для...

34
Выбор модели и перекрестная проверка: правильный путь

В CrossValidated существует множество тем на тему выбора модели и перекрестной проверки. Вот несколько из них: Внутренняя и внешняя перекрестная проверка и выбор модели Главный ответ @ DikranMarsupial на выбор функций и перекрестную проверку Однако ответы на эти темы являются довольно общими и в...

34
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для...

31
Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)

Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки...

29
К-фолд против Монте-Карло перекрестной проверки

Я пытаюсь изучить различные методы перекрестной проверки, прежде всего с намерением применить к методам многомерного анализа под наблюдением. Два, с которыми я столкнулся, являются методами перекрестной проверки K-fold и Monte Carlo. Я читал, что K-fold - это вариант Монте-Карло, но я не уверен,...

29
Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?

У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими...

29
Метрики ошибок для перекрестной проверки моделей Пуассона

Я перекрестно проверяю модель, которая пытается предсказать счет. Если бы это была проблема бинарной классификации, я бы вычислял AUC вне складывания, а если бы это была проблема регрессии, я бы вычислял среднеквадратичное среднеквадратичное значение или MAE. Для модели Пуассона какие метрики...

29
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?

Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового...

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...