降采樣指的是成比例縮小特征圖寬和高的過程,比如從(W,H)變為(W/2,H/2)。深度卷積神經網絡中降采樣的方法主要有三種:
1、stride大於1的pooling
2、stride大於1的conv
3、stride大於1的reorg(在YOLOv2的論文裡叫passthrough layer)
其中1和2在深度卷積神經網絡中使用非常普遍,3比較小眾,由Joseph Redmon在YOLOv2中首次提出。
1和2的對比在Striving for Simplicity: The All Convolutional Net中有詳述,文末有這麼一段總結:
大概意思就是,用stride=2的conv降采樣的卷積神經網絡效果與使用pooling降采樣的卷積神經網絡效果相當;卷積神經網絡小的時候,使用pooling降采樣效果可能更好,卷積神經網絡大的時候,使用stride=2的conv降采樣效果可能更好。
總體來說,pooling提供瞭一種非線性,這種非線性需要較深的conv疊加才能實現,因此當網絡比較淺的時候,pooling有一定優勢;但是當網絡很深的時候,多層疊加的conv可以學到pooling所能提供的非線性,甚至能根據訓練集學到比pooling更好的非線性,因此當網絡比較深的時候,不使用pooling沒多大關系,甚至更好。
pooling的非線性是固定的,不可學習的,這種非線性其實就是一種先驗。
3中降采樣的優勢在於能夠較好的保留低層次的信息。1和2的降采樣方式,好處是抽取的特征具有更強的語義性,壞處是會丟失一些細節信息。而3這種降采樣方式與1、2相反,它提取的特征語義性不強,但是能保留大量細節信息。所以當我們既需要降采樣,又需要不丟失細節信息的時候,3是一個非常合適的選擇。
寫於2018-10-13
-
扫码下载安卓APP
-
微信扫一扫关注我们微信扫一扫打开小程序手Q扫一扫打开小程序
-
返回顶部