2019-8-13 seo達人
本文主要記錄幾種提升基于深度學習的圖像語義分割精度的方法,以防忘記!
By zhengzibing2011, 2017年10月21日-星期六
1
1.圖像語義分割面臨的挑戰
(1).特征分辨率減?。褐饕怯缮窠浘W絡中的重復最大池化和降采樣(stride跨越)操作造成的,而采用此種操作的原因是
A.降維,以免參數過多難以優化;
B.基于DL的語義分割是從用于分類任務的CNN轉化而來,而在分類任務中,分類器要求對輸入的空間變換具有不變性,池化恰能滿足這樣的要求。
(2).不同scale下的目標存在的狀況:主要是目標在multi-scale圖像中的狀態造成的,因為在同一種尺度下,不同目標的特征往往響應并不相同。如需要在較大的尺度下才能較好地提取圖像中比較小的目標,而較大的目標為了獲取全局性信息也必須在較小的尺度下才能實現。
(3). CNN的空間不變性造成定位精度的下降:對于分割任務而言,由于pooling操作引起的分類器對輸入的空間變換具有不變性丟失空間信息,內在的限制了分割的空間精度。
2.潛在的解決方法
FCN作為將CNN應用于semantic segmentation的forerunner,貢獻巨大。但不可回避,其提出的方法具有一些不足。為保證卻終的feature map不至于過小,FCN的conv1引入pad=100,引入了較大的噪聲;
32倍upsample(deconvolution)非常粗糙,而且deconvolution的filter不可學習; skip architecture雖能有效提高精度,但需要3次訓練即FCN-32s->FCN-16s->FCN-8s。除skip architecture外。隨著研究的深入,針對以上挑戰,有以下幾種方法解決:
(1). Encoder-Decoder結構
采用此種思想的代表為DeconvNet,SegNet,其基本思想是采用一種對稱結構將由于pooling操作而減小的feature map通過逐步的upsample逐漸恢復到原圖像大小,同時在upsample階段,融合了subsample中pooling index,具體細節可參見原文。
(2). Atrous convolution
feature map的減小是由于pooling造成的,為確保一定精度的feature map,能否不使用或減少使用pooling呢?理論上是可行的,但如果這樣做會使得需要優化的參數過多,重要的是難以基于以前的model進行fine-tuning,atrous convolution解決了這個問題。
在DeepLab中令pool4,pool5的stride=1,再加上1 padding,這樣經過pooling后feature map大小不變,但后層的感受野發生了變化,為使感受野不變,后面的卷積層使用atrous convolution,其作用是在不增加參數的前提下,增加感受野。因此,解決了feature map空間分辨率下降的問題。
(3). ASPP
針對不同scale下的目標存在的狀況問題,可通過兩種方法解決:
A.標準的多尺度處理方法,用共享相同參數的并行CNN的分支,從不同尺度的Input image中提取score map,然后進行雙線性差值,最終對它們進行融合,在不同尺度上獲得每個位置的最大響應。訓練和測試時均這樣處理,比較繁瑣的是需要計算輸入圖像的每個尺度在各layer上的特征響應。
B.基于任意尺度上的區域都可以用在這個單一尺度上重采樣卷積特征進行有效地分類的思想,使用多個不同采樣率上的多個并行多空卷積,每個采樣率上提取的特征再用單獨的分支處理,融合生成最后的結果。
(4). FC-CRF
CRF幾乎可以用于所有的分割任務中圖像精度的提高。CNN可用于對圖像中的目標進行分類并預測出目標的大致位置,但并不能真正描繪他們的邊界。因此,將DCNN的識別能力和全連接CRF優化定位精度耦合在一起,能成功的處理定位挑戰問題,生成了的語義分割結果。全連接CRF理論較為復雜,在此不作闡述。類似的概率圖模型(PGM)還有MRF,G-CRF(高斯-條件隨機場)。
3.總結
目前,暫且先記錄以上4種提高分割精度的方法。后續若有新的方法,予以追加!
————————————————
藍藍設計( m.paul-jarrel.com )是一家專注而深入的界面設計公司,為期望卓越的國內外企業提供卓越的UI界面設計、BS界面設計 、 cs界面設計 、 ipad界面設計 、 包裝設計 、 圖標定制 、 用戶體驗 、交互設計、 網站建設 、平面設計服務。