Вопросы с тегом «loss-functions»

Функция, используемая для количественной оценки разницы между наблюдаемыми данными и прогнозируемыми значениями в соответствии с моделью. Минимизация функций потерь - это способ оценки параметров модели.

64
Какая функция потерь для задач мультиклассовой классификации с несколькими метками в нейронных сетях?

Я тренирую нейронную сеть, чтобы классифицировать набор объектов в n-классы. Каждый объект может принадлежать нескольким классам одновременно (несколько классов, несколько меток). Я читал, что для многоклассовых задач обычно рекомендуется использовать softmax и категориальную кросс-энтропию в...

36
Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?

Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную...

36
Функция стоимости нейронной сети невыпуклая?

Функция стоимости нейронной сети равна J(W,b)J(W,b)J(W,b) , и она называется невыпуклой . Я не совсем понимаю, почему это так, поскольку, как я вижу, это очень похоже на функцию стоимости логистической регрессии, верно? Если оно невыпукло, значит, производная 2-го порядка...

32
Функция стоимости в линейной регрессии МНК

Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Я понимаю, откуда...

31
Какая функция потерь подходит для логистической регрессии?

Я прочитал о двух версиях функции потерь для логистической регрессии, какая из них правильная и почему? Из машинного обучения , Zhou ZH (на китайском языке), с :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

28
Приближение функции потерь XGBoost с расширением Тейлора

В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация....

27
Функция потерь коэффициента кости по сравнению с кросс-энтропией

При обучении нейронных сетей пиксельной сегментации, таких как полностью сверточные сети, как вы принимаете решение использовать функцию кросс-энтропийной потери в сравнении с функцией потери коэффициента Кости? Я понимаю, что это короткий вопрос, но не совсем уверен, какую другую информацию...

27
Каково влияние выбора различных функций потерь в классификации для приблизительной оценки 0-1?

Мы знаем, что некоторые объективные функции легче оптимизировать, а некоторые - сложные. И есть много функций потерь, которые мы хотим использовать, но трудно использовать, например, потеря 0-1. Таким образом, мы находим некоторые функции потери прокси для выполнения этой работы. Например, мы...

26
Потеря обучения идет вниз и снова. Что происходит?

Моя потеря тренировки снижается, а затем снова растет. Это очень странно. Потеря перекрестной проверки отслеживает потерю обучения. Что происходит? У меня есть два сложенных LSTMS следующим образом (на Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]),...

25
Градиент потери шарнира

Я пытаюсь реализовать базовый градиентный спуск, и я тестирую его с функцией потери шарнира, т.е. . Тем не менее, я запутался в градиенте потери шарнира. У меня сложилось впечатление, что этоlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w})...

24
Как спроектировать и реализовать асимметричную функцию потерь для регрессии?

проблема В регрессии обычно вычисляют среднеквадратическую ошибку (MSE) для выборки: MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 для измерения качества предсказателя. Сейчас я работаю над проблемой регрессии,...

24
Регрессия L1 оценивает медиану, тогда как регрессия L2 означает?

Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это...

23
Какова функция потерь жесткого запаса SVM?

Люди говорят, что мягкий край SVM использует функцию потери шарнира: . Однако фактическая целевая функция, которую мягкое поле SVM пытается минимизировать, равна \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Некоторые авторы называют регуляризатор термов \ | w \...

23
Почему существуют две разные формулировки / обозначения логистических потерь?

Я видел два типа формулировок логистических потерь. Мы можем легко показать, что они идентичны, единственное отличие - это определение метки .yyy Формулировка / обозначения 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p)...

22
Почему функция стоимости нейронных сетей невыпуклая?

Здесь есть похожая тема ( функция стоимости нейронной сети невыпуклая? ), Но я не смог понять суть вопросов в ответах и ​​мою причину повторного запроса, надеясь, что это прояснит некоторые проблемы: Если я использую функцию суммы квадратов разницы стоимости, я в конечном итоге оптимизирую что-то в...

21
Как контролировать стоимость ошибочной классификации в случайных лесах?

Можно ли контролировать стоимость ошибочной классификации в пакете R randomForest ? В моей собственной работе ложные отрицания (например, отсутствие по ошибке того, что у человека может быть заболевание) намного дороже ложных срабатываний. Пакет rpart позволяет пользователю контролировать затраты...

21
Потеря обучения увеличивается со временем [дубликат]

На этот вопрос уже есть ответы здесь : Как изменение функции стоимости может быть положительным? (1 ответ) Что мне делать, если моя нейронная сеть не учится? (5 ответов) Закрыто в прошлом месяце . Я тренирую модель (Recurrent Neural Network), чтобы классифицировать 4 типа последовательностей. Во...