Изучают ли нейронные сети функцию или функцию плотности вероятности?

Вопрос может показаться немного странным, потому что я новичок в области статистического вывода и нейронных сетей.

Когда в задачах классификации с использованием нейронных сетей мы говорим, что мы хотим изучить функцию которая отображает пространство входов на пространство выходов : $f^*$ $x$ $y$

f^{*} (x; θ) = y

$f^*(x; \theta) = y$

Подгоняем ли мы параметры ( $\theta$ ) для моделирования нелинейной функции или для моделирования функции плотности вероятности?

Я действительно не знаю, как написать вопрос лучше. Я прочитал несколько раз обе вещи (функция плотности вероятности, или функция просто так), поэтому мое замешательство.

machine-learning neural-networks sdiabr
источник

Ответы:

Строго говоря, нейронные сети соответствуют нелинейной функции.

Их можно интерпретировать как подгонку функции плотности вероятности, если выбраны подходящие функции активации и соблюдены определенные условия (значения должны быть положительными и 1 и т. Д.). Но это вопрос того, как вы решаете интерпретировать их результаты, а не то, что они на самом деле делают. Под капотом они все еще являются нелинейными оценщиками функций, которые вы выбираете для применения к конкретной задаче оценки PDF. $\leq$

Скандер Х.
источник

@sdiabr на самом деле вы бы не использовали порог, если бы вы хотели, чтобы сеть имитировала PDF - поскольку PDF может иметь другие значения, кроме 1 и 0. С порогом он становится простым классификатором.

Скандер Х.

Правильный способ взглянуть на это состоит в том, что пороговое значение является проблемой, внешней по отношению к тому, что извлекается из сети. Несоблюдение этого различия вызывает много проблем в применении ML к проблемам реального мира.

Мэтью Друри

Да, хорошо, я понимаю. Итак, забыв о пороге, я буду моделировать PDF? Я думаю, что меня перепутали с порогом, потому что я читал кое-что о моделировании распределения Bernouilli. Тем не менее, без порога, это уже Берноилли верно? В случае, если у нас есть только один выходной узел с функцией активации сигмоида, который

вывел

Да, я снова запутался, спасибо @CagdasOzgenc. Давайте попробуем еще раз: используя сигмоидную функцию в выходном слое, мы напрямую моделируем PDF, верно? следуя какому-либо распределению, оно может научиться следовать.

sdiabr

Однако вы не узнаете о вероятностном распределении неизвестных коэффициентов, поэтому вы не узнаете о последующем прогнозном распределении.

Brash Equilibrium

Обычно нейронные сети не используются для моделирования полной плотности вероятности. Их целью является просто моделирование среднего значения распределения (или в детерминированной ситуации просто нелинейная функция). Тем не менее, очень возможно моделировать полные плотности вероятности через нейронные сети.

Один из простых способов сделать это, например, для случая Гаусса - вывести среднее значение из одного выхода и дисперсию из другого выхода сети, а затем минимизировать функцию как часть тренировочный процесс вместо общей квадратичной ошибки. Это процедура максимального правдоподобия для нейронной сети. $-log N(y | x ;\mu,\sigma)$

Когда вы обучаете эту сеть каждый раз, когда вы вставляете значение в качестве входных данных, вы получите и , тогда вы можете подключить весь триплет к плотности чтобы получить значение плотности для любого вам нравится. На этом этапе вы можете выбрать, какое значение использовать, основываясь на реальной функции потери домена. Следует иметь в виду, что для выходная активация должна быть неограниченной, чтобы вы могли передать to тогда как должна быть только положительной активацией. $x$ $\mu$ $\sigma$ $y,\mu,\sigma$ $f(y|x)\sim N(\mu,\sigma)$ $y$ $y$ $\mu$ $-\inf$ $+\inf$ $\sigma$

В общем, если только это не детерминированная функция, к которой мы стремимся, стандартная тренировка квадратов потерь, используемая в нейронных сетях, в значительной степени та же самая процедура, которую я описал выше. Под капотом подразумевается неявное распределение не заботясь о и, если вы внимательно изучите вы получите выражение для квадрата потерь ( функция потерь от максимальной вероятности Гаусса оценщик ). В этом сценарии, однако, вместо значения которое вам по вкусу, вы застреваете с выпуском каждый раз, когда задается новое значение . $Gaussian$ $\sigma$ $-log N(y|x;\mu,\sigma)$ $y$ $\mu$ $x$

Для классификации выходом будет распределение вместо , которое имеет единственный параметр для излучения. Как указано в другом ответе, этот параметр находится между и поэтому активация выхода должна быть соответственно. Это может быть логистическая функция или что-то еще, которое достигает той же цели. $Bernoulli$ $Gaussian$ $0$ $1$

Более сложным подходом являются сети плотности смеси Бишопа. Вы можете прочитать об этом в часто упоминаемой статье здесь:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

Кагдас Озгенц
источник

О, вы меня опередили ... Я хотел процитировать MDN Бишопа ... есть также другой способ заставить Нейронные Сети выводить PDF, что, конечно, является байесовской парадигмой. Я напишу ответ на это.

DeltaIV

Еще одна забавная статья о сетях смешанной плотности, используемая для прогнозирования условий серфинга: icml.cc/Conferences/2005/proceedings/papers/…

Мэттью Друри,

Следует ли заменить «весь триплет y, μ, σ» на «весь триплет x, μ, σ»?

Мох

@ нет! х дается и не будет отображаться в плотности.

Кагдас Озгенц

Мой несогласный ответ заключается в том, что в наиболее впечатляющих практических приложениях (например, тех, где они получают наибольшее освещение в СМИ) это не является ни функцией, ни вероятностями. Они реализуют стохастические решения.

На первый взгляд кажется, что NN просто подгоняют функцию, ставят в очередь универсальное приближение . В некоторых случаях, когда используются определенные функции активации и определенные предположения, такие как ошибки Гаусса, или когда вы читаете статьи о байесовских сетях, кажется, что NN может производить распределения вероятностей.

Впрочем, это все просто кстати. Что NN предназначены для моделирования принятия решений. Когда автомобиль управляется искусственным интеллектом, его NN не пытается вычислить вероятность того, что у него есть объект перед ним, а затем, учитывая, что есть объект для расчета вероятности того, что это человек. Он также не рассчитывает отображение входов датчиков на различные виды объектов. Нет, NN должен принять решение, основываясь на всех данных, чтобы направиться вбок или продолжать движение. Это не вычисление вероятности, это говорит машине, что делать.

Аксакал почти наверняка бинарный
источник