欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合正文

評(píng)論

柚子快報(bào)激活碼778899分享：基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法概述

Temu全球優(yōu)選綜合2025-05-11230

柚子快報(bào)激活碼778899分享：基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法概述

http://yzkb.51969.com/

0. 寫在前面

? ? ? ? 在開始目標(biāo)檢測(cè)算法學(xué)習(xí)之前，先建立基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法大局觀，了解目標(biāo)檢測(cè)算法的發(fā)展史，在了解背景的前提下，能更好地提升代入感，讓理論知識(shí)理解起來不會(huì)枯燥無味！廢話不多說，直接上干貨。

下一篇：Yolo系列算法-理論部分-YOLOv1-CSDN博客

1. What is Object-Detection?

? ? ? ?1.1 簡(jiǎn)介

????????目標(biāo)檢測(cè)的目的就是找出圖像中所有感興趣的目標(biāo)（物體Object）確定它們的位置和大小，是機(jī)器視覺領(lǐng)域的核心問題之一。

? ? ? ? 機(jī)器視覺領(lǐng)域遇到的難點(diǎn)：各類別的物體有著不同的外觀、形狀、姿態(tài)，實(shí)際生活中還有不同光照和遮擋等因素的干擾，讓目標(biāo)的檢測(cè)的難度在無形中增長(zhǎng)。

? ? ? ? 1.2 任務(wù)? ? ? ?

????????計(jì)算機(jī)視覺中關(guān)于圖像識(shí)別的四大類任務(wù)：

Classification(分類)-目標(biāo)是什么？：在一張圖片或者視頻中判斷里面包含什么類別的目標(biāo)；Location(定位)-目標(biāo)在哪里？：定位出目標(biāo)在圖像或者視頻中的位置；Detection(檢測(cè))-是什么？在哪里？:定位出目標(biāo)的位置，并且知道目標(biāo)是什么；Segmentation(分割)-劃定每個(gè)像素屬于哪個(gè)目標(biāo)或者場(chǎng)景：實(shí)例分割(Instance-level)和場(chǎng)景分割（Scene-level）。

? ? ? ? 目標(biāo)檢測(cè)解決的核心問題：

目標(biāo)可能出現(xiàn)在圖像中的任何位置；目標(biāo)有各種不同的大?。荒繕?biāo)可能有各種不同的形狀；不同目標(biāo)的矩形框有不同的寬高比，采用經(jīng)典的滑動(dòng)窗口+圖像縮放解決方案時(shí)間成本太高。

? ? ? ? 1.3 應(yīng)用

行人檢測(cè)：在視頻監(jiān)控，人流量統(tǒng)計(jì)，自動(dòng)駕駛中都有重要的地位；車輛檢測(cè)：智能交通，視頻監(jiān)控，自動(dòng)駕駛中有著重要的地位，車流量統(tǒng)計(jì)，車輛違章的自動(dòng)分析等，在自動(dòng)駕駛中，首先得知道道路在哪，周圍的車、人和障礙物，難度更大一些；交通燈、行駛規(guī)則標(biāo)志的識(shí)別，紅綠燈的狀態(tài)等等；在機(jī)器視覺領(lǐng)域，工業(yè)中材質(zhì)表面的缺陷檢測(cè)，硬件電路表面的缺陷檢測(cè)等等；農(nóng)作物表面的害蟲識(shí)別等等；人工智能在醫(yī)療上的醫(yī)學(xué)影像病變部位的檢測(cè)和自動(dòng)化識(shí)別等。

2. ALG in Object-Detection

? ? ? ? 2.1 DPM算法（Deformable Part Model）可變形的組件模型

? ? ? ? 在深度卷積神經(jīng)網(wǎng)絡(luò)出來之前，DPM是目標(biāo)檢測(cè)領(lǐng)域最優(yōu)秀的算法之一，基本思想是先提取DPM人工特征，再用LatentSVM分類；該算法的局限形在于：

DPM特征計(jì)算復(fù)雜，計(jì)算速度很慢；人工特征對(duì)旋轉(zhuǎn)、拉伸、視角變化的物體檢測(cè)效果差；

????????2.2 基于深度神經(jīng)網(wǎng)絡(luò)DCNN的目標(biāo)檢測(cè)算法發(fā)展路線圖?

? ? ?

? ? ? ? 圖1 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法發(fā)展路線圖

????????2.3 Alexnet

? ? ? ? 最早的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，2006年Hinton提出，直到2012年，隨著數(shù)據(jù)量的增大，深度神經(jīng)網(wǎng)絡(luò)通過豐富的訓(xùn)練數(shù)據(jù)和充分的訓(xùn)練，自主學(xué)習(xí)特征，特征的質(zhì)量遠(yuǎn)超人工提取的特征。

? ? ? ? 2.4 OverFeat

? ? ? ? Alexnet的改進(jìn)版，提出使用同一個(gè)卷積網(wǎng)絡(luò)完成多個(gè)任務(wù)的方法，充分利用卷積神經(jīng)網(wǎng)絡(luò)提取功能，把分類過程中提取到的特征同時(shí)用于定位檢測(cè)等各種任務(wù)，只需要修改網(wǎng)絡(luò)的最后幾層，不需要從頭開始訓(xùn)練整個(gè)網(wǎng)絡(luò)的參數(shù)，即CNN網(wǎng)絡(luò)結(jié)構(gòu)中特征共享的優(yōu)勢(shì)。

優(yōu)點(diǎn)：

共享卷積層，用于多任務(wù)學(xué)習(xí)；全卷積網(wǎng)絡(luò)的思想；在特征層進(jìn)行滑窗設(shè)計(jì)，避免大量重復(fù)運(yùn)算。

缺點(diǎn)：

采用多尺度貪婪的滑窗策略，導(dǎo)致計(jì)算量很大；沒有考慮多尺度特征融合，對(duì)小目標(biāo)效果差，整體的檢測(cè)效果不太好。

? ? ? ? 卷積神經(jīng)網(wǎng)絡(luò)輸入端圖像的大小固定，第一個(gè)全連接層和卷積層之間的權(quán)重矩陣大小都是固定的；但是卷積層、全連接層本身對(duì)輸入圖像的大小沒有限制。在做目標(biāo)檢測(cè)時(shí)，卷積網(wǎng)絡(luò)面臨的輸入候選區(qū)域圖像大小尺寸是不固定的。

? ? ? ? 2.5 R-CNN(13s/張-GPU || 53s/張 -CPU?)

? ? ? ? Region CNN，目標(biāo)檢測(cè)的里程碑之作，指明了目標(biāo)檢測(cè)的大致路徑，后續(xù)的深度學(xué)習(xí)領(lǐng)域的算法基本都是基于此算法基礎(chǔ)上的改進(jìn)。

圖2 R-CNN算法流程

????????R-CNN檢測(cè)算法流程：

使用Selective Search算法從待檢測(cè)圖像中提取2000個(gè)左右的區(qū)域候選框，這些候選框中可能包含目標(biāo)；把所有候選框縮放成固定大?。?27×227）；使用DCNN提取每一個(gè)候選框的特征，得到固定長(zhǎng)度的特征向量；把特征向量送入SVM進(jìn)行分類得到類別信息，送入全連接網(wǎng)絡(luò)進(jìn)行回歸，得到目標(biāo)對(duì)應(yīng)位置坐標(biāo)信息。

? ? ? ? 取消了滑動(dòng)窗口方案，降低了計(jì)算成本，同時(shí)沒有產(chǎn)生大量待分類的窗口，目標(biāo)不同寬高比的矩形框問題也得到了解決；

? ? ? ? 提取特征的卷積網(wǎng)絡(luò)有5個(gè)卷積層和2個(gè)全連接層，輸入固定大小的RGB圖像，輸出4096維特征向量；對(duì)候選區(qū)域的分類采用線性的支持向量機(jī)，對(duì)每一張待檢測(cè)圖像計(jì)算所有候選區(qū)域的特征向量，送入支持向量機(jī)中進(jìn)行分類，同時(shí)送入全連接網(wǎng)絡(luò)進(jìn)行坐標(biāo)位置回歸。

? ? ? ? 設(shè)計(jì)巧妙，但也有缺點(diǎn)：

重復(fù)計(jì)算，2000個(gè)左右的候選框，都需要單獨(dú)經(jīng)過backbone網(wǎng)絡(luò)提取特征，計(jì)算量依然很大，候選框之間會(huì)存在重疊，因此有不少重復(fù)計(jì)算；訓(xùn)練和測(cè)試比較復(fù)雜，候選區(qū)域提取、特征提取、分類、回歸都是分開操作，中間數(shù)據(jù)也需要單獨(dú)保存；? 推理的過程慢，各個(gè)環(huán)節(jié)都需要計(jì)算，導(dǎo)致出結(jié)果的推理過程也很漫長(zhǎng)；輸入的圖片Patch必須強(qiáng)制縮放成固定大?。?27×227），造成物體的形變，最終導(dǎo)致檢測(cè)性能下降。

????????2.6?SPP-Net（速度比R-CNN快了30倍）

? ? ? ? 在R-CNN基礎(chǔ)上提出了SPPNet，該方法雖然還是依賴候選框的生成，但將提取候選框特征向量的操作轉(zhuǎn)移到卷積后的特征圖上進(jìn)行，將R-CNN中多次卷積變?yōu)橐淮尉矸e，大大降低了計(jì)算量。

? ? ? ? R-CNN卷積網(wǎng)絡(luò)只能接受固定大小的輸入圖像，那么為了適應(yīng)圖像的尺寸，截取的圖像區(qū)域就會(huì)進(jìn)行縮放，產(chǎn)生扭曲，目標(biāo)檢測(cè)精度就會(huì)下降；因?yàn)榈谝粋€(gè)全連接層必須要固定尺寸的輸入，其他層都不需要固定尺寸，所以如果在最后一個(gè)卷積層與第一個(gè)全連接層之間做處理就可以解決問題。

????????故解決這個(gè)問題的SPP-Net引入了Spatial Pyramid Pooling層，對(duì)卷積特征圖像進(jìn)行空間金字塔采樣，獲取固定長(zhǎng)度的輸出，對(duì)特征層任意長(zhǎng)寬比和尺度區(qū)域進(jìn)行特征提取。

? ? ? ? 2.7 Fast R-CNN

? ? ? ? 針對(duì)SPP-Net進(jìn)一步改進(jìn)，主要?jiǎng)?chuàng)新點(diǎn):

ROI Pooling層，將不同大小候選框的卷積特征圖統(tǒng)一采樣成固定大小的特征;將backbone網(wǎng)絡(luò)層參與訓(xùn)練，只使用一個(gè)尺度進(jìn)行網(wǎng)格劃分和池化，該層可以直接求導(dǎo)，訓(xùn)練時(shí)直接將梯度傳導(dǎo)到backbone網(wǎng)絡(luò)中進(jìn)行優(yōu)化；在訓(xùn)練時(shí)，將深度網(wǎng)絡(luò)和后面svm分類兩個(gè)階段整合在了一起，使用新的網(wǎng)絡(luò)直接分類和回歸，訓(xùn)練速度和檢測(cè)推理速度都大大提升，0.32秒一張圖。

圖3 Fast R-CNN網(wǎng)絡(luò)流程圖

? ? ? ? 2.8 Faster R-CNN（端到端，第一個(gè)全流程算法）

? ? ? ? SPP-Net和Fast R-CNN都需要獨(dú)立生成候選區(qū)域，不易用GPU進(jìn)行加速。針對(duì)這個(gè)問題，Shaoqin Ren在Fast R-CNN基礎(chǔ)上提出了Faster R-CNN。

圖4 Faster R-CNN流程圖

在主干網(wǎng)絡(luò)中增加了RPN(Region Proposal Network)網(wǎng)絡(luò)，通過一定規(guī)則設(shè)置不同尺度的錨點(diǎn)（Anchor），使用RPN提取候選框代替Selective Search傳統(tǒng)候選框生成方法；實(shí)現(xiàn)了網(wǎng)絡(luò)端對(duì)端的訓(xùn)練，候選區(qū)域的生成、候選區(qū)域特征的提取、框回歸和分類全流程打通，在訓(xùn)練過程中模型各個(gè)部分不僅學(xué)習(xí)如何完成自己的任務(wù)，也會(huì)自主學(xué)習(xí)各個(gè)層的權(quán)重，真正意義上的深度學(xué)習(xí)目標(biāo)檢測(cè)算法。

? ? ? ? 2.9 R-FCN(Two stage）

? ? ? ? Faster R-CNN檢測(cè)網(wǎng)絡(luò)框架的計(jì)算量受3個(gè)因素的影響：

基礎(chǔ)網(wǎng)絡(luò)復(fù)雜度；候選框數(shù)量的多少；分類和位置回歸子網(wǎng)絡(luò)的復(fù)雜度（每個(gè)候選框的box都會(huì)獨(dú)立進(jìn)行前向計(jì)算）。

? ? ? ? 直接優(yōu)化前兩點(diǎn)的性價(jià)比不高，回到分類問題的本質(zhì)上，分類是要增加物體的平移不變性，即不同位置都是用一個(gè)物體；目標(biāo)檢測(cè)的本質(zhì)是減少物體的平移變化，目標(biāo)檢測(cè)需要得到物體所在的位置，通常訓(xùn)練都是使用backbone主干網(wǎng)絡(luò)進(jìn)行訓(xùn)練，再做finetuning，這就和分類任務(wù)出現(xiàn)了矛盾。

? ? ? ? 故Jifeng Dai團(tuán)隊(duì)提出了R-FCN網(wǎng)絡(luò)，通過position-positive score maps（位置敏感度得分圖）解決了這個(gè)矛盾。通過預(yù)測(cè)ROI中不同部位的類別投票表決產(chǎn)生該ROI的類別預(yù)測(cè)。在Faster R-CNN基礎(chǔ)上取消了ROI-wise subnetwork，直接在ppsm上利用ROI Pooling進(jìn)行信息采樣融合分類和位置信息。

? ? ? ? 2.10 Mask R-CNN（Two stage）

? ? ? ? 因?yàn)镕aster R-CNN在做下采樣和Roi Pooling時(shí)都對(duì)特征圖大小做了取整的操作，對(duì)分類問題基本沒有影響，但對(duì)檢測(cè)任務(wù)有一定的影響，對(duì)語義分割這種像素級(jí)任務(wù)精度影響更為嚴(yán)重。

? ? ? ? 故Mask R-CNN團(tuán)隊(duì)對(duì)網(wǎng)絡(luò)中涉及到特征圖尺寸變化的環(huán)節(jié)都不使用取整操作，通過雙線性插值填補(bǔ)非整數(shù)位置的像素，使下游特征圖向上游映射時(shí)沒有位置誤差，不僅提升了目標(biāo)檢測(cè)效果，還滿足語義分割任務(wù)的精度要求。

? ? ? ? 2.11 Yolo系列

? ? ? ? 2015年，隨著YOLO系列算法的出現(xiàn)，深度學(xué)習(xí)目標(biāo)檢測(cè)有了two-stage和one-stage之分。

? ? ? ? 詳細(xì)的介紹見我的下一篇博客。

柚子快報(bào)激活碼778899分享：基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法概述

http://yzkb.51969.com/