Почему начальные веса нейронных сетей инициализируются как случайные числа? Я где-то читал, что это делается для того, чтобы «нарушить симметрию», и это ускоряет обучение нейронной сети. Как нарушение симметрии делает обучение быстрее?
Разве инициализация весов в 0 не будет лучшей идеей? Таким образом, веса смогут быстрее найти свои значения (положительные или отрицательные)?
Есть ли какая-то другая основная философия, стоящая за рандомизацией весов, кроме надежды на то, что они будут близки к оптимальным значениям при инициализации?