Вопросы с тегом «cross-validation»

15
Когда / где использовать функциональный анализ данных?

Я очень плохо знаком с функциональным анализом данных (FDA). Я читаю: Ramsay, James O. и Silverman, Bernard W. (2006), Functional Analysis Data, 2nd ed., Springer, New York. Тем не менее, я до сих пор не очень ясно, где / когда использовать FDA? Может ли кто-нибудь дать мне пример, особенно в...

15
Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?

«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

15
Высокая дисперсия перекрестной проверки по принципу «один-один-один»

Я читал снова и снова, что перекрестная проверка «Оставить один» имеет высокую дисперсию из-за большого перекрытия тренировочных сгибов. Однако я не понимаю, почему это так: не должны ли результаты перекрестной проверки быть очень стабильными (низкая дисперсия) именно потому, что тренировочные...

15
Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?

У меня есть конкретный вопрос о проверке в исследованиях машинного обучения. Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании...

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...

15
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?

Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как:...

15
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой...

14
Заказ временных рядов для машинного обучения

Прочитав один из «Советов по исследованию» Р. Дж. Хиндмана о перекрестной проверке и временных рядах, я вернулся к своему старому вопросу, который я постараюсь сформулировать здесь. Идея состоит в том, что в задачах классификации или регрессии порядок данных не важен, и, следовательно, можно...

14
Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?

Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с...

14
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV

Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим?...

14
Как разделить набор данных, чтобы сделать 10-кратную перекрестную проверку

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Теперь у меня есть Rфрейм данных (обучение), может кто-нибудь сказать мне, как случайным образом разделить этот набор...

14
Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо...

14
Каковы тематические исследования в исследованиях политики общественного здравоохранения, когда ненадежные / смешанные / недействительные исследования или модели были использованы не по назначению?

Я готовлю обзор литературы по актуальной проблеме общественного здравоохранения, в которой данные путаницы: Каковы общие исторические тематические исследования, которые используются в области общественного здравоохранения / эпидемиологии, где недействительные или ошибочные отношения или выводы были...

14
Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

14
Обучение, тестирование, валидация в задачах анализа выживания

Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ. У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую...

14
Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки...

14
AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?

Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели. А яС= 2 k - 2 l n ( L )AяСзнак равно2К-2LN(L)AIC =2k -2ln(L) = количество параметров в моделиККk = вероятностьLLL Байесовский информационный критерий BIC тесно связан с...