Вопросы с тегом «validation»

14
Train vs Test Error Gap и его связь с переоснащением: согласование противоречивых советов

Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает). Мысль № 1:...

14
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV

Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим?...

14
Перекрестная проверка и оптимизация параметров

У меня есть вопрос об оптимизации параметров, когда я использую 10-кратную перекрестную проверку. Я хочу спросить, должны ли параметры фиксироваться во время обучения модели каждого сгиба, т.е. (1) выбрать один набор оптимизированных параметров для средней точности каждого сгиба. или же (2) Я...

14
Какова функция стоимости в cv.glm в загрузочном пакете R?

Я делаю перекрестную проверку, используя метод "оставь один". Я получил бинарный ответ и использую загрузочный пакет для R и функцию cv.glm . Моя проблема в том, что я не до конца понимаю часть затрат в этой функции. Из того, что я могу понять, это функция, которая решает, следует ли...

14
Как разделить набор данных, чтобы сделать 10-кратную перекрестную проверку

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Теперь у меня есть Rфрейм данных (обучение), может кто-нибудь сказать мне, как случайным образом разделить этот набор...

14
Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо...

14
Каковы тематические исследования в исследованиях политики общественного здравоохранения, когда ненадежные / смешанные / недействительные исследования или модели были использованы не по назначению?

Я готовлю обзор литературы по актуальной проблеме общественного здравоохранения, в которой данные путаницы: Каковы общие исторические тематические исследования, которые используются в области общественного здравоохранения / эпидемиологии, где недействительные или ошибочные отношения или выводы были...

14
Обучение, тестирование, валидация в задачах анализа выживания

Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ. У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую...

14
Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки...

14
AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?

Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели. А яС= 2 k - 2 l n ( L )AяСзнак равно2К-2LN(L)AIC =2k -2ln(L) = количество параметров в моделиККk = вероятностьLLL Байесовский информационный критерий BIC тесно связан с...

14
Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

13
Оценить случайный лес: OOB против CV

Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю,...

13
Понимание начальной загрузки для проверки и выбора модели

Мне кажется, я понимаю, как работают основы самозагрузки , но я не уверен, что понимаю, как я могу использовать самозагрузку для выбора модели или чтобы избежать переобучения. Например, для выбора модели вы бы просто выбрали модель, которая дает наименьшую ошибку (может быть, дисперсию?) Во всех...

13
Как исправить несходимость в LogisticRegressionCV

Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого...

13
Интерпретация и проверка модели регрессии пропорциональных рисков Кокса с использованием R на простом английском языке

Может кто-нибудь объяснить мне мою модель Кокса на простом английском? Я использовал следующую модель регрессии Кокса для всех моих данных, используя cphфункцию. Мои данные сохраняются в объекте под названием Data. Переменные w, xи yнепрерывны; zэто фактор двух уровней. Время измеряется месяцами. У...

13
При построении регрессионной модели с использованием отдельных наборов моделирования / валидации уместно ли «рециркулировать» данные валидации?

Предположим, у меня есть 80/20 раскол между наблюдениями моделирования / валидации. Я приспособил модель к набору данных моделирования, и меня устраивает ошибка, которую я вижу в наборе данных проверки. Прежде чем развернуть мою модель для оценки будущих наблюдений, уместно ли объединить валидацию...

13
С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?

При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,%...

13
Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?

Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить...

13
Чем перекрестная проверка отличается от отслеживания данных?

Я только что закончил «Введение в статистическое обучение» . Я задавался вопросом, отличается ли использование перекрестной проверки для нахождения наилучших параметров настройки для различных методов машинного обучения от отслеживания данных? Мы неоднократно проверяем, какое значение параметра...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...