Вопросы с тегом «overfitting»

Ошибка моделирования (особенно ошибка выборки) вместо воспроизводимых и информативных связей между переменными улучшает статистику соответствия модели, но уменьшает скупость и ухудшает объяснительную и прогнозную достоверность.

41
Случайный лес - Как справиться с перегрузкой

У меня есть опыт работы в области компьютерных наук, но я пытаюсь научить себя науке данных, решая проблемы в Интернете. Я работал над этой проблемой последние пару недель (около 900 строк и 10 функций). Сначала я использовал логистическую регрессию, но теперь я переключился на случайные леса....

29
Поддержал ли журнал Science анализ анализов в Саду Форка?

Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это...

28
Переоснащение модели логистической регрессии

Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической...

28
Как это возможно, что потери проверки увеличиваются, в то время как точность проверки также увеличивается

Я обучаю простую нейронную сеть на наборе данных CIFAR10. Через некоторое время потери валидации начали увеличиваться, а точность валидации также увеличивается. Потери и точность испытаний продолжают улучшаться. Как это возможно? Кажется, что если потери при проверке возрастают, точность должна...

27
Почему меньшие веса приводят к упрощению моделей в регуляризации?

Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является...

25
Правда ли, что байесовские методы не подходят больше?

Правда ли, что байесовские методы не подходят больше? (Я видел некоторые документы и учебные пособия, делающие это утверждение) Например, если мы применяем гауссовский процесс к MNIST (классификация рукописных цифр), но показываем только одну выборку, будет ли он возвращаться к предыдущему...

25
Является ли модернизированная модель обязательно бесполезной?

Предположим, что модель имеет 100% точность данных тренировки, но 70% точность данных теста. Правдив ли следующий аргумент в отношении этой модели? Очевидно, что это переоборудованная модель. Точность испытания может быть повышена за счет уменьшения переоснащения. Но эта модель все еще может быть...

25
Есть ли смысл объединять PCA и LDA?

Предположим, у меня есть набор данных для контролируемой статистической задачи классификации, например, через байесовский классификатор. Этот набор данных состоит из 20 функций, и я хочу свести его к 2 функциям с помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA) и...

21
«Полу-контролируемое обучение» - это переобучение?

Я читал отчет о победившем решении конкурса Kaggle ( Malware Classification ). Отчет можно найти в этом сообщении на форуме . Эта проблема была проблемой классификации (девять классов, метрика - логарифмическая потеря) с 10000 элементами в наборе поездов, 10000 элементов в наборе испытаний. Во...

20
Обсуждение об оверфите в xgboost

Моя установка следующая: Я следую указаниям в разделе «Прикладное прогнозное моделирование». Таким образом, я отфильтровал взаимосвязанные функции и в итоге получил следующее: 4900 точек данных в тренировочном наборе и 1600 точек данных в тестовом наборе. У меня есть 26 функций, и цель является...

20
Переоснащение и подгонка

Я провел некоторое исследование о переоснащении и подборе снаряжения, и я понял, что именно они есть, но я не могу найти причины. Каковы основные причины переоснащения и недостаточного оснащения? Почему мы сталкиваемся с этими двумя проблемами при обучении...

19
Повышение: почему скорость обучения называется параметром регуляризации?

Параметр скорости обучения ( ) в Gradient Boosting сокращает вклад каждой новой базовой модели - обычно мелкого дерева - который добавляется в серию. Было показано, что резко повышается точность набора тестов, что понятно, так как при меньших шагах минимум функции потерь может быть достигнут более...

19
Избегайте перенастройки в регрессии: альтернативы регуляризации

Регуляризация в регрессии (линейная, логистическая ...) является наиболее популярным способом уменьшения избыточного соответствия. Когда целью является точность прогноза (не объяснение), есть ли хорошие альтернативы регуляризации, особенно подходящие для больших наборов данных (ми / миллиарды...

18
Математическое / Алгоритмическое определение для переоснащения

Есть ли математическое или алгоритмическое определение переоснащения? Часто предоставляемые определения представляют собой классический двухмерный график точек с линией, проходящей через каждую точку, и кривая потерь при проверке внезапно растет. Но есть ли математически строгое...

17
Достаточно ли перекрестной проверки для предотвращения переоснащения?

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного...

16
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на...

16
В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

Давайте рассмотрим проблему классификации набора данных MNIST. Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети. Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную...

15
Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...