微美全息科學院：多種基於卷積神經網絡的語義...

微美全息科學院：多種基於卷積神經網絡的語義分割模型

2年前

微美全息科學院：多種基於卷積神經網絡的語義分割模型

圖像分割基本上可以分爲兩種類型：語義分割和實例分割。近些年，基於CNN的語義和實例分割的研究得到了大量的關注。作爲納斯達克上市企業“微美全息US.WIMI”旗下研究機構“微美全息科學院”的科學家們詳細探討了關於多種基於卷積神經網絡的語義分割模型。以下將詳細探討一些先進的基於CNN的語義分割模型的體系結構細節。模型是根據使用的最重要的特徵進行分類的。在每一個分類討論的最後，還簡要討論了特定模型類別的優點和缺點。

1. 基於完全卷積網絡

Long等人提出了完全卷積網絡（FCN）來解決語義分割問題。他們使用了AlexNet、VGGNet和GoogleNe（這三個都是在ILSVRC數據上預先訓練過的）作爲基本模型。他們將這些模型從classifiers轉變爲稠密的FCN，方法是用11卷積層代替完全連接層，並附加一個通道數爲21的11卷積來預測20個PASCAL VOC類和1個背景類的得分。

在FCN AlexNet、FCN-VGG16和FCN GoogLeNet中，FCN-VGG16在PASCAL VOC 2011驗證數據集上的准確度最高。因此，作者選擇FCN-VGG16網絡進行進一步的實驗。由於網絡生成了粗糙的輸出位置，作者使用雙线性插值對粗輸出32進行上採樣，使其像素密集。但是這種上採樣對於詳細的分割是不夠的。因此，他們使用跳躍連接來組合預測層和VGG16豐富的下層特徵，並將這種組合稱爲deep jet。圖1顯示了不同的deep jet：FCN-16s、FCN-8s和FCN-32s。其中FCN-8s在PASCAL VOC 2011中的表現最好。

圖1.FCN32s, FCN16s, FCN8s的結構

FCN的主要變化有：基本模型VGG16、雙極插值技術（用於對原始特徵圖進行上採樣）和跳過連接（用於將低層和高層特徵結合起來以進行細粒度語義分割），這些都有助於該模型達到最新的結果。

FCN只利用局部信息進行語義分割，但由於局部信息會使圖像的全局語義上下文變得模糊。從整個圖像中減少模糊的上下文信息是很有幫助的。

2. 基於Dialatation卷積

Dialated-Net：傳統的CNN用於分類任務，會損失分辨率，不適合密集預測。Yu和Koltun引入了傳統CNN的改進版本，稱爲dialated卷積或Dialated-Net，系統地積累多尺度上下文信息，以便在不損失分辨率的情況下更好地進行分割。Dialated-Net就像一個卷積層的矩形棱鏡，不像傳統的金字塔CNN。如圖2所示，在不丟失任何空間信息的情況下，它可以支持指數擴展的感知域。

圖2.(a) 1倍dialation，感知域33；(b) 2倍dialation，感知域77；(c) 4倍dialation，感知域1515

基於dialation模型的優點是它有助於保持圖像的空間分辨率以產生密集的預測。但是，使用dialation卷積將圖像像素從其全局上下文中分離出來，這使得它很容易被誤分類。

3. 基於自上而下/自下而上的方法

DeconvNet由Noh等人提出，具有卷積和反卷積網絡。卷積網絡在拓撲上與VGG16的前13個卷積層和2個完全連接層相同，除了最後的分類層。反卷積網絡與卷積網絡相同，但層次相反。同時，它還具有多個系列的反卷積層、反池化層和反整流層。卷積和反卷積網絡的所有層都提取特徵映射，除了反卷積網絡的最後一層是用於生成像素級的概率圖，它與輸入圖像的尺寸相同。在反卷積網絡中，作者應用了反池化操作來重建初始激活大小。此處，反池化操作是通過在卷積操作時存儲的最大池索引來完成的。

爲了使放大但稀疏的反池化特徵圖的密度更大，作者將單個輸入激活與多個輸出相關聯，使用多個習得的濾波器完成類似卷積的操作。與FCN不同，作者將他們的網絡應用於從輸入圖像中提取出的目標建議，並產生像素級預測。然後，將所有建議的輸出集合到原始圖像空間，對整個圖像進行分割。這種基於實例的分割方法能夠處理多尺度對象的細節，同時降低了訓練的復雜度和訓練的內存消耗。爲了處理網絡中的內部協變量偏移，作者在卷積層和反卷積層之上添加了批處理規範化層。DevNet的架構如圖3所示。

圖3. DeconvNet的網絡結構

由於基於FCN的模型在最後層的上採樣率很高，所以會產生粗輸出。因此，不可能進行精細的語義分割。另一方面，基於自上而下/自下而上方法的模型使用逐漸增加的上採樣率，從而獲得更精確的分割。但在這種情況下，該模型還缺少全局上下文信息的整合。

4. 基於全局語境的方法

ParseNet：Liu等人提出了一種端到端結構的ParseNet，它是對全卷積神經網絡的改進。爲了更好的分割，作者添加了全局特徵或全局上下文信息。圖4顯示了ParseNet的模型描述。在提取卷積特徵映射之前，ParseNet與FCN相同。之後，作者使用了全局平均池化來提取全局上下文信息。然後，對池化後的特徵圖進行反池化操作，使其與輸入特徵圖的大小相同。現在，將原始特徵圖和反池化後的特徵圖結合起來預測分類。作者將兩個不同的特徵圖組合在一起，而這些特徵圖在規模和標准上都是不同的。爲了使這種組合起作用，他們使用了兩個L2規範化層：一個是在全局池化層之後，另一個是在從FCN中提取原始特徵圖之後。該網絡在ShiftFlow，PASCAL context上達到了最先進的性能，在PASCAL VOC 2012數據集上接近最新水平。

圖4. ParseNet的模型設計

雖然全局卷積的應用有助於提高精度，但它缺乏多尺度目標的尺度信息。

5. 基於感受野放大的方法

DeepLabv2和DeepLabV3：DeepLabv2和DeepLabV3的作者使用Atrous Special Pooling Pyramid（ASPP）修改了他們的網絡，聚集多尺度的特徵以更好地進行定位，並提出了DeepLabv2。圖5顯示了ASPP。該體系結構同時使用ResNet和VGGNet作爲基礎網絡。在DeepLabv3中，爲了將多個語境合並到網絡中，作者使用了級聯模塊，並對ASPP模塊進行了深入研究。

圖5. Atrous Spatial Pooling Pyramid

利用基於多分辨率金字塔的表示方法可以擴大感受野，這有助於上述模型融合對象的尺度信息，獲得精細的語義分割。但是，爲了獲得更好的語義分割，使用感受野擴大來捕獲語境信息可能不是唯一的解決方案。

微美全息科學院成立於2020年8月，致力於全息AI視覺探索科技未知，以人類愿景爲驅動力，开展基礎科學和創新性技術研究。全息科學創新中心致力於全息AI視覺探索科技未知, 吸引、集聚、整合全球相關資源和優勢力量，推進以科技創新爲核心的全面創新，开展基礎科學和創新性技術研究。微美全息科學院計劃在以下範疇拓展對未來世界的科學研究：

一、全息計算科學：腦機全息計算、量子全息計算、光電全息計算、中微子全息計算、生物全息計算、磁浮全息計算

二、全息通信科學：腦機全息通信、量子全息通信、暗物質全息通信、真空全息通信、光電全息通信、磁浮全息通信

三、微集成科學：腦機微集成、中微子微集成、生物微集成、光電微集成、量子微集成、磁浮微集成

四、全息雲科學：腦機全息雲、量子全息雲、光電全息雲

微美全息科學院旨在促進計算機科學和全息、量子計算等相關領域面向實際行業場景和未來世界的前沿研究。建立產研合作平台，促進重大科技創新應用，打造產業、研究中心深度融合的生態圈。微美全息科學院秉承“讓有人的地方就有科技”爲使命，專注未來世界的全息科學研究，爲全球人類科技進步添磚加瓦。

微美全息成立於2015年，納斯達克股票代碼：WiMi。

微美全息專注於全息雲服務，主要聚集在車載AR全息HUD、3D全息脈衝LiDAR、頭戴光場全息設備、全息半導體、全息雲軟件、全息汽車導航、元宇宙全息AR/VR設備、元宇宙全息雲軟件等專業領域,覆蓋從全息車載AR技術、3D全息脈衝LiDAR技術、全息視覺半導體技術、全息軟件开發、全息AR虛擬廣告技術、全息AR虛擬娛樂技術、全息ARSDK支付、互動全息虛擬通訊、元宇宙全息AR技術，元宇宙虛擬雲服務等全息AR技術的多個環節，是一家全息雲綜合技術方案提供商。

相關證券：