При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM.
Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета. Может ли кто-нибудь предоставить подробное объяснение / ссылку на подробное объяснение этого? Верно ли это для всех алгоритмов оптимизации (градиентный спуск, обратное распространение и т. Д.) Или только для некоторых из них?
источник