你是否好奇为什么现在的网络能深达百层、千层,而早期的网络连十几层都难以训练? 这一切的巨大转变,都离不开一篇2015年的神作——《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。 它被誉为深度学习的“润滑油”和“加速器 ...