天天干天天做天天操-天天干天天做天天射-天天干网-天天干网站-天天干网址

產品分類

當前位置: 首頁 > 工業電氣產品 > 端子與連接器 > 線路板連接器 > FFC連接器

類型分類:
科普知識
數據分類:
FFC連接器

基于深度學習的視覺目標檢測技術 現有的目標檢測框架

發布日期:2022-05-18 點擊率:57

8月18日消息,來自新加坡管理大學和 Salesforce 亞洲研究院的研究人員撰寫了一篇論文,對基于深度學習的視覺目標檢測的近期發展進行了全面綜述,系統性地分析了現有的目標檢測框架。


該綜述文章包括三個主要部分:1)檢測組件;2)學習策略;3)應用與基準,并詳細介紹了影響目標檢測性能的多種因素,如檢測器架構、特征學習、候選框生成、采樣策略等。


下圖 2 展示了,2012 年以來基于深度學習的目標檢測技術的主要發展和里程碑。這篇論文介紹了這些關鍵技術的基本思想,并進行了系統性分析。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


圖 2:2012 年以來,基于深度卷積神經網絡的目標檢測技術的主要里程碑。過去一年的技術發展趨勢是基于 anchor-free 的目標檢測器(紅色線)和 AutoML 技術(綠色線),這兩項技術可能成為未來重要的研究方向。


因為該綜述論文花了近 40 頁篇幅綜述各種解決方案與組成結構,內容覆蓋了這些年主要的研究進展與突破,所以機器之心只介紹部分內容,更詳細的介紹請查閱原論文。


當然,以前機器之心也曾介紹過很多目標檢測方面的研究或綜述文章,因此本文會側重介紹 18 年到 19 年非常流行的基于關鍵點的目標檢測。這一種單步檢測范式不僅擁有極高的準確率,同時速度還非常快,也許目標檢測未來的發展主流會聚集在這一范式下。


如果讀者希望了解以前非常流行的兩種目標檢測方法,可以查閱以下文章:


從 RCNN 到 SSD,這是超全的目標檢測算法盤點


單級式目標檢測方法概述:YOLO 與 SSD


從經典走向前沿的目標檢測


在深度學習時代之前,早期的目標檢測流程分為三步:候選框生成、特征向量提取和區域分類。


候選框生成階段的目標是搜索圖像中可能包含對象的位置,這些位置又叫「感興趣區域」(ROI)。直觀的思路是用滑動窗口掃描整幅圖像。為了捕捉不同尺寸和不同寬高比對象的信息,輸入圖像被重新分割為不同的尺寸,然后用不同尺寸的窗口滑動經過輸入圖像。


第二階段,在圖像的每一個位置上,利用滑動窗口獲取固定長度的特征向量,從而捕捉該區域的判別語義信息。該特征向量通常由低級視覺描述子編碼而成,這些描述子包括 SIFT (Scale Invariant Feature Transform) 、Haar 、HOG(Histogram of Gradients) 、SURF(Speeded Up Robust Features) 等,它們對縮放、光線變化和旋轉具備一定的魯棒性。


第三階段,學習區域分類器,為特定區域分配類別標簽。


通常,這里會使用支持向量機(SVM),因為它在小規模訓練數據上性能優異。此外,Bagging、級聯學習(cascade learning)和 Adaboost 等分類技術也會用在區域分類階段,幫助提高目標檢測的準確率。


DL 時代的目標檢測


在將深度卷積神經網絡成功應用于圖像分類后,基于深度學習技術的目標檢測也取得了巨大進步。基于深度學習的新算法顯著優于傳統的目標檢測算法。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


目前,基于深度學習的目標檢測框架可以分為兩大類:1)二階檢測器(Two-stage),如基于區域的 CNN (R-CNN) 及其變體;2)一階檢測器(One-stage),如 YOLO 及其變體。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


二階檢測器首先使用候選框生成器生成稀疏的候選框集,并從每個候選框中提取特征;然后使用區域分類器預測候選框區域的類別。一階檢測器直接對特征圖上每個位置的對象進行類別預測,不經過二階中的區域分類步驟。


通常而言,二階檢測器通常檢測性能更優,在公開基準上取得了當前最優結果,而一階檢測器更省時,在實時目標檢測方面具備更強的適用性。


DL 目標檢測器該怎樣系統學習


本文目標是全面理解基于深度學習的目標檢測算法。下圖 3 展示了本文涵蓋主要方法的分類:根據深度學習目標檢測算法的不同貢獻將其分為三類:檢測組件、學習策略,以及應用與基準。


圖 3:本文涵蓋主要方法的分類。


對于檢測組件,這篇論文首先介紹了兩種檢測設置:邊界框級(bbox-level)定位和像素掩碼級(mask-level)定位。bbox-level 算法需要按照矩形邊界框進行目標定位,而 mask-level 算法則按照更準確的像素級掩碼進行目標分割。


接下來,論文總結了二階檢測和一階檢測的代表性框架。然后對每個檢測組件進行了詳細論述,包括主干架構、候選框生成和特征學習。


對于學習策略,論文首先強調了學習策略的重要性(因為訓練檢測器是很艱難的過程),然后詳細介紹了訓練和測試階段中的優化技術。最后,論文概覽了一些基于目標檢測的現實應用,并展示了近年來通用目標檢測技術在公開基準上的當前最優結果。


這些雖然是這篇綜述論文的寫作思路,但是對于希望系統了解該領域的讀者而言,也是非常好的學習路徑:先了解整體類別與研究現狀,再了解具體的組件與策略。


檢測范式


當前最優的深度學習目標檢測器可以分為兩大類:二階檢測器和一階檢測器。二階檢測器首先生成稀疏的候選框集合,然后使用深度卷積神經網絡編碼生成候選框的特征向量,并執行類別預測。一階檢測器沒有候選框生成這一單獨步驟,它們通常將圖像的所有位置都看作潛在對象,然后嘗試將每個感興趣區域分類為背景或目標對象。


二階檢測器


二階檢測器將檢測任務分成兩個階段:候選框生成和對候選框執行預測。在第一階段,檢測器嘗試識別圖像中可能存在對象的區域。其基本思想是以高召回率提出候選區域,使得圖像中的所有對象屬于至少一個候選區域。第二階段中,使用基于深度學習的模型為這些候選區域分配正確的類別標簽。每個區域可能是背景,也可能是屬于某個預定義類別標簽的對象。


圖 4:不同二階目標檢測框架概覽。紅色虛線矩形表示輸出(該輸出定義損失函數)。


一階檢測器


與把檢測流程分成兩部分的二階檢測器不同,一階檢測器沒有單獨的候選框生成步驟。它們通常將圖像上的所有位置都看作潛在對象,然后再把每個感興趣區域分類為背景或目標對象。


圖 5:不同一階目標檢測框架概覽。紅色虛線矩形表示輸出(輸出定義目標函數)。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


Redmon 等人提出了一種叫做 YOLO(You only Look Once)的實時檢測器。YOLO 將目標檢測看作回歸問題,將整個圖像分割為固定數量的網格單元(如使用 7 × 7 網格)。每個單元被看作一個候選框,然后網絡檢測候選框中是否存在一或多個對象。


基于精細設計的輕量級架構,YOLO 可以 45 FPS 的速度執行預測,使用更簡化的骨干網絡后速度可達 155 FPS。但是,YOLO 面臨以下挑戰:


對于給定位置,它至多只能檢測出兩個對象,這使得它很難檢測出較小的對象和擁擠的對象。


只有最后一個特征圖可用于預測,這不適合預測多種尺寸和寬高比的對象。


2016 年,Liu 等人提出另一個一階檢測器 Single-Shot Mulibox Detector (SSD),解決了 YOLO 的缺陷。SSD 也將圖像分割為網格單元,但是在每一個網格單元中,可以生成一組不同尺寸和寬高比的錨點框,從而離散化邊界框的輸出空間。


SSD 在多個特征圖上預測對象,且每一個特征圖基于其感受野來檢測特定尺寸的對象。整個網絡通過端到端訓練機制,使用位置損失和分類損失的加權和作為損失函數進行優化。最后網絡合并來自不同特征圖的全部檢測結果,得到最終的預測。


沒有候選框生成步驟來幫助篩選容易正確分類的負樣本,導致前景背景類別不均衡成為一階檢測器中的嚴重問題。Lin 等人提出一階檢測器 RetinaNet,用更靈活的方式解決了類別不均衡的問題。


RetinaNet 使用 focal loss 抑制易分負樣本的梯度,而不是簡單地摒棄它們。然后使用特征金字塔網絡,在不同級別的特征圖上檢測多尺寸對象。


Redmon 等人提出 YOLO 改進版本——YOLOv2,它顯著提升了檢測性能,且仍然維持實時推斷速度。YOLOv2 通過對訓練數據執行 k 折聚類(而不是手動設置)來定義更好的錨點先驗,這有助于降低定位中的優化難度。


以前的方法在訓練檢測器時需要手動設計錨點框,后來一批 anchor-free 目標檢測器出現,其目標是預測邊界框的關鍵點,而不是將對象與錨點框做匹配。


其中比較受關注的是基于關鍵點的檢測架構,它會預測左上角和右下角的熱圖,并用特征嵌入將其合在一起,CornerNet 就是基于關鍵點檢測中非常經典的架構。當然還有后續結合中心點和角點的 CenterNet,它具有更好的性能。


候選框生成


候選框生成在目標檢測框架中起著非常重要的作用。候選框生成器生成一組矩形邊界框,它們有可能包含對象。然后使用這些候選框進行分類和定位精煉(localization refinement)。


基于錨點的方法


監督式候選框生成器的一個大類是基于錨點的方法。它們基于預定義錨點生成候選框。Ren 等人提出區域候選網絡 (Region Proposal Network,RPN),基于深度卷積特征圖以監督方式生成候選框。


該網絡使用 3 × 3 卷積核在整個特征圖上滑動。對于每個位置,網絡都考慮 k 個 不同大小和寬高比的錨點(或邊界框的初始估計)。這些不同的尺寸和寬高比允許網絡匹配圖像中不同尺寸的對象。


基于真值邊界框,將對象的位置與最合適的錨點進行匹配,從而為錨點估計獲得監督信號。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


圖 6:RPN 圖示。


基于關鍵點的方法


另一種候選框生成方法基于關鍵點檢測,它分為兩類:基于角點(corner)的方法和基于中心(center)的方法。


基于角點的方法通過合并從特征圖中學得的角點對,來預測邊界框。這種算法無需設計錨點,從而成為生成高質量候選框的更高效方法。


Law 和 Deng 提出 CornerNet,直接基于角點建模類別信息。CornerNet 使用新型特征嵌入方法和角點池化層(corner pooling layer)建模左上角點和右下角點的信息,從而準確匹配屬于同一對象的關鍵點。該方法在公開基準上獲得了當前最優結果。


基于中心的方法在特征圖的每個位置上預測它成為對象中心的概率,且在沒有錨點先驗的情況下直接恢復寬度和高度。


Duan 等人 提出了 CenterNet,它結合了基于中心的方法和基于角點的方法。CenterNet 首先通過角點對預測邊界框,然后預測初始預測的中心概率,來篩除易分負樣本。相比基線,CenterNet 的性能獲得了顯著提升。


anchor-free 方法是未來很有前途的研究方向。


目標檢測公開基準


當然除了整體范式與候選框的生成,目標檢測還有更多的組件與細節,例如主體架構怎么選、數據增強/采樣怎么做、模型壓縮/加速怎么處理等等,本文就不一一介紹了。最后,讓我們看看當前目標檢測公開基準上的模型效果都怎么樣。


目標檢測的基準其實有挺多的,它們主要可以分為通用型、人臉檢測型、公共區域型,它們加起來差不多有 16 個基準。


幾個通用型目標檢測基準,及其數據集的樣本。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


在下面表 2 和表 3 中,論文展示了近幾年各種目標檢測方法在 VOC2007、VOC2012 和 MSCOCO 基準上的效果。


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


基于深度學習的視覺目標檢測技術 現有的目標檢測框架


文章來源: 機器之心

下一篇: PLC、DCS、FCS三大控

上一篇: UIUC華人團隊提出升級

推薦產品

更多
主站蜘蛛池模板: 日本无翼乌邪恶彩色大全 | 青青久操| 国产女同磨豆腐视频在线观看 | 操久久 | 中文字幕国产日韩 | 伊人黄色网 | 欧美激情一区二区三级高清视频 | 日韩免费黄色片 | 日韩国产综合 | 四虎黄色 | 成人18免费网站在线观看 | 欧美精品亚洲精品日韩1818 | 色免费观看 | 国产乱码一区二区三区四 | 999jjj在线播放 | 看黄色毛片 | 久久久全国免费视频 | 国产上床视频 | 中文字幕日韩亚洲 | 婷婷色5月 | 亚洲狼人香蕉香蕉在线28 | 亚洲福利院 | 亚洲色图国产精品 | 国产婷婷综合丁香亚洲欧洲 | 中国精品| 宅男在线永久免费观看99 | 中文字幕 日韩有码 | 久久国产中文字幕 | 中文字幕亚洲综合久久2 | 国产亚洲欧美日韩在线一区 | 日本成人黄色网址 | 国产精品任我爽爆在线播放66 | 一级黄色片黄色片 | 久久综合一区二区 | 性生大片一级毛片免费观看 | 国产成人综合日韩精品无 | 一级啊片 | 日本黄色绿像 | 中文字幕h | 亚洲欧美国产高清va在线播放 | 午夜激情视频在线播放 |