Вопросы с тегом «gradient-descent»

24
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия

Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает...

21
Всегда ли градиентный спуск сходится к оптимальному?

Мне интересно, есть ли сценарий, при котором градиентный спуск не сходится к минимуму. Я осознаю, что градиентный спуск не всегда может привести к глобальному оптимуму. Я также знаю, что он может отличаться от оптимального, если, скажем, размер шага слишком велик. Тем не менее, мне кажется, что...

17
Почему ReLU лучше, чем другие функции активации

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто...

15
Раздвижное окно приводит к переоснащению в LSTM?

Буду ли я переоснащать свой LSTM, если я обучу его с помощью метода скользящих окон? Почему люди не используют его для LSTM? Для упрощенного примера предположим, что мы должны предсказать последовательность символов: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Это плохо (или лучше?), Если я...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

10
Стохастический градиентный спуск на основе векторных операций?

давайте предположим, что я хочу обучить алгоритм регрессии стохастического градиентного спуска, используя набор данных, который имеет N выборок. Поскольку размер набора данных фиксирован, я буду использовать данные T раз. На каждой итерации или «эпохе» я использую каждую обучающую выборку ровно...

10
Насколько гибка связь между целевой функцией и функцией активации выходного слоя?

Во многих пакетах нейронных сетей кажется стандартным объединение целевой функции, которая должна быть минимизирована, с функцией активации в выходном слое. Например, для линейного выходного слоя, используемого для регрессии, является стандартным (и часто единственным выбором) иметь целевую функцию...

10
Почему это ускоряет градиентный спуск, если функция плавная?

Сейчас я читаю книгу под названием «Практическое машинное обучение с Scikit-Learn и TensorFlow», а в главе 11 она содержит следующее описание объяснения ELU (Exponential ReLU). В-третьих, функция является гладкой везде, в том числе около z = 0, что помогает ускорить градиентный спуск, так как она...

9
Почему скорость обучения приводит к стремительному росту веса моей нейронной сети?

Я использую tenorflow для написания простых нейронных сетей для небольшого количества исследований, и у меня было много проблем с весами 'nan' во время обучения. Я пробовал много разных решений, таких как смена оптимизатора, изменение потерь, размера данных и т. Д., Но безрезультатно. Наконец, я...