Вопросы с тегом «fitting»

20
Обсуждение об оверфите в xgboost

Моя установка следующая: Я следую указаниям в разделе «Прикладное прогнозное моделирование». Таким образом, я отфильтровал взаимосвязанные функции и в итоге получил следующее: 4900 точек данных в тренировочном наборе и 1600 точек данных в тестовом наборе. У меня есть 26 функций, и цель является...

20
Переоснащение и подгонка

Я провел некоторое исследование о переоснащении и подборе снаряжения, и я понял, что именно они есть, но я не могу найти причины. Каковы основные причины переоснащения и недостаточного оснащения? Почему мы сталкиваемся с этими двумя проблемами при обучении...

19
Повышение: почему скорость обучения называется параметром регуляризации?

Параметр скорости обучения ( ) в Gradient Boosting сокращает вклад каждой новой базовой модели - обычно мелкого дерева - который добавляется в серию. Было показано, что резко повышается точность набора тестов, что понятно, так как при меньших шагах минимум функции потерь может быть достигнут более...

19
Когда имеется аналитический якобиан, лучше ли аппроксимировать гессиан или конечными разностями якобиана?

Допустим, я вычисляю некоторые параметры модели, минимизирую сумму квадратов невязок и предполагаю, что мои ошибки гауссовские. Моя модель производит аналитические производные, поэтому оптимизатору не нужно использовать конечные различия. После завершения подгонки я хочу вычислить стандартные...

19
Какой самый безболезненный способ вписать кривые логистического роста в R?

Для Google это не так просто, как для некоторых других вещей, поскольку, для ясности, я не говорю о логистической регрессии в смысле использования регрессии для прогнозирования категориальных переменных. Я говорю о подгонке кривой логистического роста к данным точкам данных. Чтобы быть точным, -...

19
Избегайте перенастройки в регрессии: альтернативы регуляризации

Регуляризация в регрессии (линейная, логистическая ...) является наиболее популярным способом уменьшения избыточного соответствия. Когда целью является точность прогноза (не объяснение), есть ли хорошие альтернативы регуляризации, особенно подходящие для больших наборов данных (ми / миллиарды...

18
Математическое / Алгоритмическое определение для переоснащения

Есть ли математическое или алгоритмическое определение переоснащения? Часто предоставляемые определения представляют собой классический двухмерный график точек с линией, проходящей через каждую точку, и кривая потерь при проверке внезапно растет. Но есть ли математически строгое...

18
Определение функции подбора кривой наилучшего соответствия из линейных, экспоненциальных и логарифмических функций

Контекст: Из вопроса об обмене стеками по математике (могу ли я построить программу) кто-то имеет набор точек и хочет подогнать к нему кривую, линейную, экспоненциальную или логарифмическую. Обычный метод состоит в том, чтобы начать с выбора одного из них (который определяет модель), а затем...

18
MLE против наименьших квадратов в подходящих распределениях вероятностей

На основании нескольких статей, книг и статей, которые я прочитал, у меня сложилось впечатление, что рекомендуемый способ подбора распределения вероятностей для набора данных - использование оценки максимального правдоподобия (MLE). Тем не менее, как физик, более интуитивный способ состоит в том,...

17
Т-распределение Фиттинга в R: параметр масштабирования

Как мне подобрать параметры t-распределения, то есть параметры, соответствующие «среднему» и «стандартному отклонению» нормального распределения. Я предполагаю, что они называются «среднее» и «масштабирование / степени свободы» для t-распределения? Следующий код часто приводит к ошибкам «сбой...

17
Достаточно ли перекрестной проверки для предотвращения переоснащения?

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного...

17
Разница между регрессионным анализом и подгонкой кривой

Кто-нибудь может объяснить мне реальные различия между регрессионным анализом и подгонкой кривой (линейной и нелинейной), с примером, если это возможно? Кажется, что оба пытаются найти связь между двумя переменными (зависимыми и независимыми), а затем определяют параметр (или коэффициент),...

17
Что означает отрицательный R-квадрат?

Допустим, у меня есть некоторые данные, а затем я подгоняю данные с помощью модели (нелинейная регрессия). Затем я вычисляю R-квадрат ( р2р2R^2 ). Когда R-квадрат отрицательный, что это значит? Значит ли это, что моя модель плохая? Я знаю, что диапазон р2р2R^2 может быть [-1,1]. Когда р2р2R^2 равен...

16
В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

Давайте рассмотрим проблему классификации набора данных MNIST. Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети. Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную...

16
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на...

15
Какая кривая (или модель) должна соответствовать моим процентным данным?

Я пытаюсь создать фигуру, которая показывает связь между вирусными копиями и освещением генома (GCC). Вот как выглядят мои данные: Сначала я только построил линейную регрессию, но мои руководители сказали мне, что это неправильно, и попробовал сигмоидальную кривую. Поэтому я сделал это с помощью...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...

15
Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...