Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в глубокое обучение) критические точки, скорее всего, будут седловыми точками или плато, а не локальными минимумами.
Я видел документы (например, этот ), в которых обсуждаются предположения, согласно которым «каждый локальный минимум является глобальным минимумом». Все эти предположения носят скорее технический характер, но, насколько я понимаю, они имеют тенденцию навязывать структуру нейронной сети, которая делает ее несколько линейной.
Является ли обоснованным утверждение, что при глубоком обучении (включая нелинейные архитектуры) плато более вероятны, чем локальные минимумы? И если так, есть ли (возможно, математическая) интуиция за этим?
Есть ли что-то особенное в глубоком обучении и в седлах?
Ответы:
Это просто попытка передать мою интуицию, то есть никакой строгости. Особенность седловых точек в том, что они представляют собой тип оптимума, который сочетает в себе комбинацию минимумов и максимумов. Поскольку количество измерений настолько велико при глубоком обучении, вероятность того, что оптимум состоит только из комбинации минимумов, очень мала. Это означает, что «застрять» в локальном минимуме редко. С риском упрощения труднее «застрять» в седловой точке, потому что вы можете «скользить вниз по одному из измерений». Я думаю, что видео Эндрю Нг, на которое вы ссылаетесь, взято из курса Coursera по его глубокому обучению.
источник
Но как быть с максимумами?
источник