Вопросы с тегом «loss-functions»

19
0-1 Объяснение функции потери

Я пытаюсь понять, что является целью функции потери, и я не совсем понимаю ее. Итак, насколько я понимаю, функция потерь предназначена для введения некоторой метрики, с помощью которой мы можем измерить «стоимость» неправильного решения. Допустим, у меня есть набор данных из 30 объектов, я разделил...

19
Какова «фундаментальная» идея машинного обучения для оценки параметров?

«Фундаментальная» идея статистики для оценки параметров - это максимальная вероятность . Мне интересно, какова соответствующая идея в машинном обучении. Qn 1. Было бы справедливо сказать, что «фундаментальная» идея в машинном обучении для оценки параметров: «Функции потери» [Примечание: у меня...

18
Выбор между функциями потерь для двоичной классификации

Я работаю в проблемной области, где люди часто сообщают о ROC-AUC или AveP (средняя точность). Однако недавно я нашел бумаги, которые оптимизируют потерю журнала , в то время как другие сообщают о потере шарнира . Хотя я понимаю, как рассчитываются эти показатели, мне трудно понять компромиссы...

17
При каких условиях совпадают байесовские и частые точечные оценки?

С фиксированным априором оценки ML (частота - максимальная вероятность) и MAP (байесовская апостериорная) совпадают. В целом, однако, я говорю о точечных оценках, полученных как оптимизаторы некоторой функции потерь. Т.е. (Bayesian)  х...

16
Что здесь происходит, когда я использую квадрат потерь в настройке логистической регрессии?

Я пытаюсь использовать квадратичные потери, чтобы выполнить двоичную классификацию для набора данных игрушек. Я использую mtcarsнабор данных, использую милю на галлон и вес, чтобы предсказать тип передачи. На приведенном ниже графике показаны два типа данных типа передачи в разных цветах и...

16
Что считается хорошей потерей журнала?

Я пытаюсь лучше понять потерю журналов и как это работает, но я не могу найти одну вещь - поместить число потерь журналов в какой-то контекст. Если у моей модели потеря журнала 0,5, это хорошо? Что считается хорошим и плохим счетом? Как меняются эти...

16
Комплексный обзор функций потерь?

Я пытаюсь получить глобальный взгляд на некоторые основные идеи в машинном обучении, и мне было интересно, существует ли комплексный подход к различным понятиям потери (квадрат, лог, шарнир, прокси и т. Д.). Я думал о чем-то вроде более полной, формальной презентации превосходного поста Джона...

16
Является ли обычной практикой минимизация средней потери по партиям вместо суммы?

В Tensorflow есть пример учебника по классификации CIFAR-10 . В учебном пособии средняя кросс-энтропийная потеря по партии сведена к минимуму. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference()....

14
потеря шарнира против логистических потерь преимущества и недостатки / ограничения

Потери шарнира можно определить с помощью а потерю журнала можно определить как log ( 1 + exp ( - y i w T x i ) )max ( 0 , 1 - уявесTИкся)Максимум(0,1-YявесTИкся)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)журнал ( 1 + опыт( - уявесTИкся) )журнал(1+ехр⁡(-YявесTИкся))\text{log}(1 +...

14
Почему k-means не оптимизировано с использованием градиентного спуска?

Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не...

13
Классификация с шумными метками?

Я пытаюсь обучить нейронную сеть для классификации, но у меня довольно шумные ярлыки (около 30% ярлыков ошибочны). Потеря перекрестной энтропии действительно работает, но мне было интересно, есть ли альтернативы, более эффективные в этом случае? или потеря кросс-энтропии является оптимальной? Я не...

13
Смещение дисперсии

В разделе 3.2 Бишопа «Распознавание образов и машинное обучение» он обсуждает разложение смещения дисперсии, утверждая, что для квадрата функции потерь ожидаемая потеря может быть разложена на квадрат смещения (который описывает, насколько средние прогнозы далеки от истинных модель), дисперсионный...

13
Почему наивный байесовский классификатор оптимален для проигрыша 0-1?

Наивный байесовский классификатор - это классификатор, который назначает элементы xxx классу CCC на основе максимизации апостериорного P(C|x)P(C|x)P(C|x) для членства в классе и предполагает, что характеристики элементов независимы. Потеря 0-1 - это потеря, которая присваивает любой ошибочной...

12
Градиент для функции логистической потери

Я хотел бы задать вопрос, связанный с этим . Я нашел пример написания пользовательской функции потерь для xgboost здесь : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain,...

12
Почему функция потерь 0-1 неразрешима?

В книге глубокого обучения Яна Гудфеллоу написано, что Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для...

12
Различные определения функции кросс-энтропийной потери

Я начал с изучения нейронных сетей с помощью учебника по нейронным сетям и углублённому изучению точек. В частности, в 3-й главе есть раздел о функции кросс-энтропии, который определяет потерю кросс-энтропии как: С= - 1NΣИксΣJ( уJперaLJ+ ( 1 - уJ) пер( 1 - аLJ)...

11
Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?

Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это...

11
Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)

В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247). Квадратичная аппроксимация функции стоимости jjj определяется как:...