柚子快報(bào)邀請(qǐng)碼778899分享:人工智能 計(jì)算機(jī)視覺(jué)
柚子快報(bào)邀請(qǐng)碼778899分享:人工智能 計(jì)算機(jī)視覺(jué)
目標(biāo)檢測(cè):R-cnn、faster-r-cnn、YOLO等
R-cnn:
候選區(qū)域:使用 選擇性搜索(Selective Search) 等算法(合并像素,非常耗時(shí))在輸入圖像中生成一組候選區(qū)域。特征提?。汉蜻x區(qū)->特征向量。區(qū)域分類:SVM判斷是否有物體,并進(jìn)行分類。區(qū)域校準(zhǔn):對(duì)邊界框(bounding box)進(jìn)行校準(zhǔn)。
有大量的重復(fù)計(jì)算,非常耗時(shí)。
fast-r-cnn ICCV 2015
解決了特征圖重復(fù)計(jì)算的問(wèn)題。
候選區(qū)域:使用 選擇性搜索(Selective Search) 等算法(合并像素,非常耗時(shí))在輸入圖像中生成一組候選區(qū)域。特征提?。簩?duì)整張圖像進(jìn)行特征提取。候選區(qū)域特征:利用 RoIPooling 算法分別生成每個(gè)候選區(qū)域的特征。候選區(qū)域分類與回歸。
ROI Pooling:
ref ROI Pooling解決的是候選區(qū)域大小不一致的問(wèn)題,ROI Pooling之后,候選區(qū)域的大小一致,就可以進(jìn)行并行的計(jì)算,加快速度。
faster-r-cnn
ref1 zhihu ref2 bilibili
特征提?。菏褂靡唤M基礎(chǔ)的conv+relu+pooling層提取image的feature maps。該feature maps被共享用于后續(xù)RPN層等。生成錨框(anchors)。 注:其實(shí)這個(gè)錨框是作者自己人為設(shè)計(jì)的9個(gè)框。 每一個(gè)點(diǎn)都配備這9種anchors作為初始的檢測(cè)框。 使用RPN將每個(gè)框映射到兩個(gè)通道,一個(gè)用于二分類(目標(biāo)/非目標(biāo)),一個(gè)用于回歸(調(diào)整錨框大小和位置)。然后就可以根據(jù)得分大小,經(jīng)過(guò)回歸生成候選區(qū)域。這里面的回歸比較復(fù)雜,沒(méi)看懂。大概的意思就是利用候選框和真實(shí)目標(biāo)框訓(xùn)練一個(gè)回歸器,回歸器的輸出是四維向量,分別表示錨框的水平偏移、垂直偏移、寬度調(diào)整和高度調(diào)整。ROI Pooling。分類。
YOLO
思想:one-stage,本質(zhì)上是一個(gè)回歸算法。
非極大值抑制(NMS):一圖多目標(biāo)時(shí)候用,IoU大于閾值時(shí),就抑制置信度小的檢測(cè)框。
ViT
ref 思想:將圖像分成
N
=
H
?
W
/
(
P
?
P
)
N=H*W/(P*P)
N=H?W/(P?P) 個(gè) patch,把patch flatten為
P
?
P
P*P
P?P 的一維向量,再進(jìn)行線性映射,得到
N
N
N 個(gè) 維度為
e
m
b
e
d
_
d
i
m
embed\_dim
embed_dim patch embedding, 等價(jià)于對(duì)輸入圖像 HxWxC 執(zhí)行一個(gè)內(nèi)核大小為 PxP ,步長(zhǎng)為 P 的卷積操作
self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
再和絕對(duì)位置編碼的embedding(也是一個(gè)矩陣)相加,再通過(guò)transformer進(jìn)行處理。
Swin Transformer
ref1 ref2 主要內(nèi)容:Swin Transformer 是在Vit的基礎(chǔ)上進(jìn)行的改進(jìn),針對(duì)Vit的全局自注意力計(jì)算復(fù)雜度過(guò)大的問(wèn)題,提出了window的思想,使得自注意力的計(jì)算局限在window里面,從而減少?gòu)?fù)雜度。還提出了相對(duì)位置編碼的思想。為了在不同窗口間進(jìn)行信息交互,還提出了shift window attention、Attention Mask的思想(非常巧妙)。巧妙的利用Attention Mask實(shí)現(xiàn)了與window attention等價(jià)的計(jì)算。
Swin Transformer V2
CV最常用的損失函數(shù)
交叉熵
:
?
∑
i
p
A
(
v
i
)
l
o
g
(
p
B
(
v
i
)
)
交叉熵:{\large -\sum_ip_A(v_i)log(p_B(v_i))}
交叉熵:?i∑?pA?(vi?)log(pB?(vi?))
其中
p
B
(
v
i
)
是樣本
i
屬于類別
B
的概率,
p
A
(
v
i
)
取
0
或
1
,當(dāng)樣本
i
屬于類別
B
時(shí)為
1
,否則取
0
。
其中p_B(v_i)是樣本i屬于類別B的概率,\\ p_A(v_i)取0或1,當(dāng)樣本i屬于類別B時(shí)為1,否則取0。
其中pB?(vi?)是樣本i屬于類別B的概率,pA?(vi?)取0或1,當(dāng)樣本i屬于類別B時(shí)為1,否則取0。 注:KL散度用于度量?jī)蓚€(gè)不同分布之間的差異,通過(guò)推導(dǎo)科研得到交叉熵的公式(應(yīng)該說(shuō)“最小化KL散度等價(jià)于最小化交叉熵”),所以交叉熵可以用來(lái)作為loss函數(shù)。 交叉熵常常用于分類問(wèn)題。
L1 loss(又稱MAE),平均絕對(duì)誤差:預(yù)測(cè)值和真實(shí)值之間的誤差:sum(|y_pre - y_true|)/n ,用于回歸問(wèn)題。 L2損失函數(shù),又稱均分誤差 MSE: sum((y_pre-y_true)^2)/n,用于回歸問(wèn)題。
最先進(jìn)的模型的好像是InternImage,基于cnn的模型。
柚子快報(bào)邀請(qǐng)碼778899分享:人工智能 計(jì)算機(jī)視覺(jué)
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。