Вопросы с тегом «gradient-descent»

112
Pytorch, каковы аргументы градиента

Я читал документацию PyTorch и нашел пример, в котором они пишут gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) где x была начальной переменной, из которой был построен y (3-вектор). Вопрос в том, каковы аргументы 0,1, 1,0 и 0,0001 тензора градиентов?...

105
Почему веса нейронных сетей должны быть инициализированы случайными числами? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 9 дней назад . Уточните этот вопрос Пытаюсь построить нейронную сеть с нуля. Во...

86
Распространенные причины нанов во время тренировок

Я заметил, что во время тренировок вводится частое явление NAN. Часто кажется, что это происходит из-за того, что веса во внутреннем продукте / полностью связанных или сверточных слоях взрываются. Это происходит потому, что вычисление градиента резко увеличивается? Или это из-за инициализации веса...

10
R: реализация моего собственного алгоритма повышения градиента

Я пытаюсь написать свой собственный алгоритм повышения градиента. Я понимаю, что существуют такие пакеты, как gbmиxgboost, , но я хотел бы понять , как работает алгоритм, написав мой собственный. Я использую irisнабор данных, и мой результат Sepal.Length(непрерывный). Моя функция потерь...