Почему производные функции используются в нейронных сетях?

13

Например, кто-то хочет предсказать цены на жилье и имеет две входные характеристики: длину и ширину дома. Иногда, один также включает в себя «производные» полиномиальные входные объекты, такие как площадь, которая является длиной * шириной.

1) Какой смысл включать производные функции? Разве нейронная сеть не должна изучать связь между длиной, шириной и ценой во время обучения? Почему третья функция, область, не избыточна?

Кроме того, иногда я также вижу, что люди используют генетические алгоритмы отбора для входных функций, чтобы уменьшить их количество.

2) Какой смысл сокращать входные функции, если все они содержат полезную информацию? Разве нейронная сеть не должна назначать соответствующие веса каждому входному признаку в соответствии с его важностью? Какой смысл использовать алгоритмы генетической селекции?

siamii
источник

Ответы:

8

nlnlnl

2): Есть две причины, по которым я знаю это. Во-первых, если у вас есть тысячи предоставляемых функций (как это часто бывает в реальных данных) и вам не хватает времени ЦП для обучения (также обычное явление), вы можете использовать ряд различных алгоритмов выбора функций, чтобы сократить пространство функций. заранее, авансом. Принципиальные подходы к этому часто используют теоретико-информационные меры для выбора признаков с наивысшей предсказательной силой. Во-вторых, даже если вы можете позволить себе тренироваться на всех данных и всех имеющихся у вас функциях, нейронные сети часто критикуются за то, что они являются моделями «черного ящика». Заранее уменьшив пространство функций, можно решить эту проблему. Например, пользователь, смотрящий на NN, не может легко определить, означает ли вес 0,01 «0, но процесс оптимизации не совсем достиг» или «

Джон Дусетт
источник
0

1) Большинство нейронных сетей не могут выполнять умножения; они могут рассчитывать только суммы (которые затем индивидуально вводятся через функцию активации ). Вместо этого они должны оценить эти умножения, если они важны, что требует большого количества нейронов, особенно если факторы могут охватывать большие диапазоны.

Если окажется, что площадь дома на самом деле является важной особенностью, вы поможете сети, если предоставите ей площадь, потому что тогда она может использовать нейроны, которые потребовались бы для оценки умножения ширины и длины. делать другие вещи.

Следовательно, включение полиномиальных функций может в некоторых случаях быть полезным для сети, но в других случаях не оказывает существенного влияния. Кроме того, полиномиальные функции - это только один тип производных функций, которые могут быть полезны для сети. Другим типом производной функции, которая может оказаться полезной, является, например, логарифмы входных переменных (считаются положительными), которые сеть также должна оценить, чтобы получить.

Идея состояла бы в том, чтобы позволить сети выполнять больше операций между числами, чем только сложения, чтобы она могла эффективно вычислять такие вещи, как полиномиальные особенности, но неясно, как это будет работать. Одна архитектура, которая выглядит так, как будто она делает что-то похожее, - это сеть суммарных продуктов .

2) За исключением вычислительных затрат, о которых упоминал Джон, увеличение количества параметров в модели, что неизбежно случается, когда вы вводите больше входных данных, также увеличивает риск перегрузки сети , особенно если у вас мало обучающих данных.

Тем не менее, это может быть сделано гораздо меньше проблем, если использовать хороший метод регуляризации. (По-видимому, для этого очень хорошо работает Dropout) Теоретически, при достаточно хорошем методе регуляризации, переоснащение вообще не должно быть проблемой. Как указывает Хинтон, человек имеет порядка 10 ^ 14 синапсов в мозге (что соответствует связям в нейронной сети), но живет только порядка 10 ^ 9 секунд, но мы все еще можем обобщать довольно хорошо. Совершенно очевидно, что наличие множества параметров, которые можно настроить, с правильным алгоритмом должно быть только преимуществом.

Привет пока
источник