В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента...