Вопросы с тегом «cross-validation»

14

Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

14

Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки...

machine-learning cross-validation scikit-learn

14

AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?

Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели. А яС= 2 k - 2 l n ( L )AяСзнак равно2К-2LN(L)AIC =2k -2ln(L) = количество параметров в моделиККk = вероятностьLLL Байесовский информационный критерий BIC тесно связан с...

cross-validation lasso aic ridge-regression bic

13

Понимание начальной загрузки для проверки и выбора модели

Мне кажется, я понимаю, как работают основы самозагрузки , но я не уверен, что понимаю, как я могу использовать самозагрузку для выбора модели или чтобы избежать переобучения. Например, для выбора модели вы бы просто выбрали модель, которая дает наименьшую ошибку (может быть, дисперсию?) Во всех...

model-selection cross-validation bootstrap

13

Интерпретация и проверка модели регрессии пропорциональных рисков Кокса с использованием R на простом английском языке

Может кто-нибудь объяснить мне мою модель Кокса на простом английском? Я использовал следующую модель регрессии Кокса для всех моих данных, используя cphфункцию. Мои данные сохраняются в объекте под названием Data. Переменные w, xи yнепрерывны; zэто фактор двух уровней. Время измеряется месяцами. У...

r cross-validation survival cox-model

13

Как исправить несходимость в LogisticRegressionCV

Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого...

logistic cross-validation scikit-learn

13

Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?

Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить...

logistic cross-validation optimization roc threshold

13

С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?

При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,%...

cross-validation

13

Чем перекрестная проверка отличается от отслеживания данных?

Я только что закончил «Введение в статистическое обучение» . Я задавался вопросом, отличается ли использование перекрестной проверки для нахождения наилучших параметров настройки для различных методов машинного обучения от отслеживания данных? Мы неоднократно проверяем, какое значение параметра...

machine-learning cross-validation

13

Оценить случайный лес: OOB против CV

Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю,...

cross-validation random-forest auc

12

Keras: почему убыток уменьшается, а val_loss увеличивается?

Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель...

machine-learning cross-validation deep-learning tensorflow theano

12

Перекрестная проверка и порядковая логистическая регрессия

Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ... Сначала я создаю набор данных игрушек: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <-...

regression cross-validation ordered-logit rms

12

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

12

Разделение данных временного ряда на наборы Train / Test / Validation

Каков наилучший способ разбить данные временного ряда на наборы поезд / тест / проверка, где набор проверки будет использоваться для настройки гиперпараметра? У нас есть данные о ежедневных продажах за 3 года, и мы планируем использовать 2015-2016 гг. В качестве данных обучения, затем случайным...

time-series cross-validation validation

12

Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

machine-learning clustering cross-validation unsupervised-learning

12

Как выполнить перекрестную проверку для PCA, чтобы определить количество основных компонентов?

Я пытаюсь написать свою собственную функцию для анализа главных компонентов, PCA (конечно, многое уже написано, но я просто заинтересован в том, чтобы реализовать что-то самостоятельно). Основная проблема, с которой я столкнулся, - это этап перекрестной проверки и вычисления прогнозируемой суммы...

pca cross-validation matlab

12

Точное определение меры Deviance в пакете glmnet с перекрестной проверкой?

Для моего текущего исследования я использую метод Лассо через пакет glmnet в R для биномиальной зависимой переменной. В glmnet оптимальная лямбда определяется путем перекрестной проверки, и полученные модели можно сравнивать с различными показателями, например, ошибочной классификацией или...

cross-validation lasso glmnet deviance lars

12

Как выбрать ядро для ядра PCA?

Какими способами можно выбрать, какое ядро приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие...

pca cross-validation dimensionality-reduction kernel-trick manifold-learning

12

Существуют ли современные способы использования джекнифинга?

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный...

machine-learning cross-validation bootstrap maximum-entropy jackknife

11

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa