Вопросы с тегом «overfitting»

15
Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...

14
Как определить, когда регрессионная модель перегружена?

Когда вы выполняете эту работу, осознавая, что вы делаете, у вас появляется чувство, когда вы переоцениваете модель. Во-первых, вы можете отследить тренд или ухудшение скорректированного квадрата R модели. Также можно отследить аналогичное ухудшение значений p коэффициентов регрессии основных...

14
Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо...

14
Train vs Test Error Gap и его связь с переоснащением: согласование противоречивых советов

Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает). Мысль № 1:...

14
Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?

Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с...

13
Предотвращение перенастройки LSTM на небольшой набор данных

Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность...

12
Лучше выбрать распределение на основе теории, подгонки или что-то еще?

Это граничит с философским вопросом, но мне интересно, как другие люди с большим опытом думают о выборе распределения. В некоторых случаях кажется ясным, что теория могла бы работать лучше (длины хвоста мышей, вероятно, нормально распределены). Во многих случаях, вероятно, нет теории для описания...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Байесовский против MLE, проблема переоснащения

В книге Бишопа по PRML он говорит, что переоснащение - это проблема с оценкой максимального правдоподобия (MLE), и байесовский может ее избежать. Но я думаю, что переоснащение - это проблема скорее выбора модели, а не метода, используемого для оценки параметров. То есть, предположим, что у меня...

12
Можно ли (теоретически) обучить нейронную сеть с меньшим количеством тренировочных выборок, чем весами?

Прежде всего: я знаю, что для обучения нейронной сети нет общего количества выборок. Это зависит от слишком многих факторов, таких как сложность задачи, шум в данных и так далее. И чем больше у меня будет обучающих образцов, тем лучше будет моя сеть. Но мне было интересно: возможно ли теоретически...

11
Как выбрать наилучшее соответствие без чрезмерных данных? Моделирование бимодального распределения с N нормальными функциями и т. Д.

У меня есть явно бимодальное распределение значений, которое я стараюсь соответствовать. Данные могут хорошо соответствовать либо 2 нормальным функциям (бимодальным), либо 3 нормальным функциям. Кроме того, существует вероятная физическая причина для сопоставления данных с 3. Чем больше параметров...

10
Ясное объяснение «численной устойчивости матричной инверсии» в регрессии гребня и ее роль в уменьшении избыточного соответствия

Я понимаю, что мы можем использовать регуляризацию в задаче регрессии наименьших квадратов как w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2...

10
Является ли насыщенная модель частным случаем переоборудованной модели?

Я пытаюсь понять, что такое насыщенная модель. AFAIK это когда у тебя столько функций, сколько наблюдений. Можно ли сказать, что насыщенная модель является частным случаем чрезвычайно переоснащенной модели?...

10
Переоснащение с помощью линейных классификаторов

Сегодня наш профессор заявил в классе, что «переоснащение линейными классификаторами невозможно». Я считаю, что это неправильно, поскольку даже линейные классификаторы могут быть чувствительны к выбросам в обучающем наборе - возьмем, например, машину векторов поддержки с жестким полем: один...

10
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...