欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合正文

評論

柚子快報激活碼778899分享：聚類算法多示例學習回顧

Roku跨境娛樂坊綜合2025-05-05240

柚子快報激活碼778899分享：聚類算法多示例學習回顧

http://yzkb.51969.com/

文章目錄

1、聚類：· K-Means· Bamic· Density Peak· SMDP· MIDIE

2、嵌入· Bamic· SMDP· MIDIE· ELDB· miGraph

3、距離度量

1、聚類：

剛接觸的聚類算法就是K-Means，當時也通過復現了算法代碼來理解了原理。在后面的許多論文中，都利用了聚類的思想。聚類的最主要思想為：找到一簇數據中的最具代表性的數據作為代表，并以此來代表某一類別的數據。再通過度量其他數據與這些代表的相似性實現分類。

· K-Means

主要原理見這篇文章，主要是通過這個算法來理解聚類的意義。

· Bamic

該算法是基于包，距離度量方式為豪斯多夫距離。論文閱讀見這一篇，代碼見這一篇。

這個算法與K-Means有一定關聯，因為算法利用K-Medoids算法進行聚類：隨機選出K個點作為中心，計算每個簇的平均距離，并通過平均距離找到新的中心，依次迭代，直到中心不再變化為止。

在嵌入方面，Bamic通過計算每個包與k個中心的距離，將包映射為k維的特征向量，每一維都是該包與第k個中心的間距。得到映射向量后，再進行分類處理。

· Density Peak

參考這篇文章，算法的核心思想是：密度比鄰居節(jié)點高、與比其密度大的點的距離相對大的點是聚類中心。目的是為了找到最具代表性的點算法中的一些具體細節(jié)會在SMDP中提到。

DP算法將密度

\rho

ρ與距離

\delta

δ組合成為

(

)

(\rho, \delta)

(ρ,δ)并映射到二維空間中進行決策。

· SMDP

該算法是基于包，距離度量方式為豪斯多夫距離。論文閱讀見這一篇，代碼在這一篇。算法以Density Peak為基礎，找出數據集中的代表包，并將其利用到多示例學習中。SMDP的算法思想為：通過計算密度選出那些周圍包數量多的包作為master，這樣的master最具代表性，能夠代表周圍一圈的包。然后計算每一個包到它們所屬master的距離并映射。最終對映射的向量通過svm等分類器進行分類得到預測結果。

算法流程圖：由于cutoff kernel得到的是整數，得到的結果是整數，會出現密度相同的情況，而Gaussian kernel很少出現這種情況。因此常選用高斯核為核函數。下面的MIDIE也同樣使用了高斯核。

之所以求每個包距其master的距離，就是來度量包與每個代表包的相似度，從而判斷這個包的類型。通過距離來側面體現每個包的特征。

該算法在DP的基礎上增加了嵌入，得到每個包的映射向量。最后再對這些向量通過SVM等分類器進行分類。算法利用了聚類的思想，關鍵就是如何找到最具代表性的包。

· MIDIE

該算法是基于實例，距離度量方式為歐氏距離。論文閱讀見這一篇，代碼見這一篇。算法沿用了SMDP中的聚類思想來找出代表實例，且也包含miGraph中的一些方法。

同樣，MIDIE通過聚類選出了每個包中最能夠代表這個包的實例原型，其中加入了關聯性，在miGraph中也有用同樣的方式來構建affinity matrix。關聯性體現了某個實例與其他實例的關聯程度，若某個實例與周圍實例的關聯性高（距離小于包內實例平均距離），則該實例稱為實例原型的幾率越大。 MIDIE同時考慮了密度與關聯性，從兩個角度綜合起來選出了一個包中最具代表性的那一個實例原型，構成了實例原型池。

在代表實例選擇階段，則依舊沿用了SMDP中的思想來選出實例原型中的代表實例。這一階段與SMDP差別不大，同樣考慮了每個實例原型的重要性與獨立性，都是通過計算密度與距離來計算得分，并選出實例原型。從實例原型池中選出代表實例，更能凸顯出代表實例的代表性。

算法流程圖：

在映射部分，與SMDP不同，MIDIE是通過差值來體現每個包的特征。若差值較小，則說明該實例與其代表實例差別不大，則為同一類別的可能性越大；反之則越小。

2、嵌入

· Bamic

通過Bamic算法得到k個簇與中心后，通過計算N個包與k個中心的距離，將每個包映射為k維向量，最后再通過預測算法對嵌入后的向量進行處理。

由于每個中心都能夠代表一種特征，因此計算每個包與中心的距離就能夠體現每個包的所屬特征，就能夠對該包的向量進行預測。

· SMDP

通過DP聚類得到每個包的master以及它們的距離后，通過計算每個包到

n_{c}

nc?個中心的距離，映射為

n_{c}

nc?維特征向量。最后再通過預測算法對嵌入后向量進行分類處理。

這里的嵌入方式與Bamic類似。

· MIDIE

MIDIE是通過差值來體現每個包的特征。若差值較小，則說明該實例與其代表實例差別不大，則為同一類別的可能性越大；反之則越小。計算每個包中的實例與其對應的實例代表作差值處理，并將每個包中差值處理后的實例疊加，得到這個包的映射向量。

· ELDB

論文閱讀在這一篇，代碼在這一篇。

算法的映射方式為：計算每個包

B_{i}

Bi?與判別包集合

\mathcal{T}_{e}

Te?中之間的平均豪斯多夫距離來度量關聯性：

(

)

[

]

f_(\mathbf B_{i},\mathcal{T}_{e})\mapsto \mathbf b_{i}=[b_{i\zeta_{1}},...,b_{i\zeta_{\psi }}]

fb?(Bi?,Te?)?bi?=[biζ1??,...,biζψ??] 其中，

∣

b_{ik}=||\bar{\mathbf{\mathit{x}}_{i} }-\bar{\mathbf{\mathit{x} }_{k}} ||

bik?=∣∣xi?ˉ??xk?ˉ?∣∣，

∑

\bar{x_{i}}=\sum_{j=1}^{n_{i}}x_{ij}/n_{i}

xi?ˉ?=∑j=1ni??xij?/ni?。

判別包集合就是包集合中最具區(qū)分度的包，也就是代表包集合，與其他包差別大的包。通過映射，能夠得到每個包與代表包之間的差別，映射為向量

\mathbf b_{i}

bi?。

此外，ELDB擁有判別性分析技術，即使得

\mathcal{T}_3ih7pjjnjzpn

Td?中任意兩個不同標簽的包之間距離累積之和最大；任意兩個相同標簽的包之間距離累積之和最?。?/p>

max

(

)

∑

∈

\max_{\mathcal{T} _{e}\subseteq \mathcal{T} _3ih7pjjnjzpn\subset \mathcal{T}}\mathcal{J}(\mathcal{T}_3ih7pjjnjzpn,\mathcal{T}_{e})=\frac{1}{2} \sum_{B_{\xi _{i}},B_{\xi _{j}}∈\mathcal{T}_3ih7pjjnjzpn}^{} d_{ij}\delta _{ij}

Te??Td??Tmax?J(Td?,Te?)=21?Bξi??,Bξj??∈Td?∑?dij?δij? 其中，

d_{ij}

dij?為包間距離，

\delta _{ij}

δij?為bag-link矩陣中對應位置的值。若兩個包對應標簽相同，則為

\lambda

λ，否則為

-\lambda

?λ。意味著標簽不同的包之間區(qū)別越大，這個矩陣也能夠凸顯包與包之間的區(qū)別：

{

≠

\delta _{ij}=\begin{cases} \lambda _{ij}, y_{\xi _{i}}\ne y_{\xi _{j}}\\ -\lambda _{ij}, y_{\xi _{i}}= y_{\xi _{j}} \end{cases}

δij?={λij?,yξi??=yξj???λij?,yξi??=yξj???

· miGraph

論文閱讀在這一篇。miGraph提供了一種全新的思路，將包映射為一個affinity matrix：若包內實例間距大于閾值，矩陣對應位置的值置為1，否則為0。這也是MIDIE算法在衡量實例關聯性時的做法。

映射部分，miGraph設計了一個Graph Kernel來度量包與包之間的相似性（關聯性）。計算每一個包與其他包之間的相似性并映射為向量。該方法依然離不開距離度量，因為核函數中處理了affinity matrix，而affinity matrix中數據是通過距離計算得到的。

3、距離度量

在多示例學習中，常通過距離來衡量相似性，計算包與包、實例與實例、包與實例的距離。但距離函數又不等同于相似度函數。

所以，要度量包間相似度，距離度量是關鍵一步。距離越近，兩個包就越相似。正如疫情期間，那些接觸過患者的人往往患病幾率就愈大。常通過

d=1-s

d=1?s、

(

)

d=-ln(s)

d=?ln(s)等來將距離轉換為相似度。因為距離

s越小，相似度

s就越大，代表越相似。

在機器學習中有許多距離度量方式，這篇文章很好的總結了各自距離度量方法。在目前已經閱讀的論文中，最常見的距離公式為Hausdorff Distance與Euclidean Distance 。前者用于度量包間的距離，后者用于度量實例間的距離。在miGraph中使用了Gaussian Distance。

算法SMDPMIDIEELDBBamicmiGraph度量方式豪斯多夫歐氏豪斯多夫豪斯多夫高斯

歐式距離計算公式：

(

)

∑

(

)

d(x,y)=\sqrt{\sum_{i=1}^{n}(x_{i}-y_{i})^{2}}

d(x,y)=i=1∑n?(xi??yi?)2

豪斯多夫距離是基于歐式距離的，用于描述兩個集合之間的相似程度，因此也適用于度量多示例學習中包間相似度。又分為：最小Hausdorff距離、平均Hausdorff距離、最大Hausdorff距離。選用哪一種通常是通過做實驗后，找出性能最佳的一個作為最終的算法距離度量方式。

由于不同數據集包中的實例分布的不同，需要選擇不同的距離度量方式。一般分為：1）數據相關型；2）數據不相關型。

1）數據相關型：指的是計算距離時需要依據其他對象來計算，公式一般為

(

媒介

)

distance(A,B,媒介)

2）數據不相關型：指的是直接計算距離而不需要其他對象作為媒介，如豪斯多夫距離，公式一般為

(

)

distance(A, B)

distance(A,B)

由于距離能夠計算包與包的特征值之間的關系，而包的特征值往往能夠代表這個包的類別、性質。對于不同的數據分布。這一切都與數據分布有關?？梢酝ㄟ^對不同的算法試驗不同的距離度量方式，找出最適合算法的距離。

柚子快報激活碼778899分享：聚類算法多示例學習回顧

http://yzkb.51969.com/

您暫未設置收款碼

請在主題配置——文章設置里上傳

金鑰匙跨境

掃描二維碼手機訪問

文章目錄

欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報激活碼778899分享：聚類算法多示例學習回顧

隨便看看

特朗普要求美國最高法院暫停執(zhí)行TikTok強制出售令

最新留言

您暫未設置收款碼

欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報激活碼778899分享：聚類 算法 多示例學習回顧

隨便看看

特朗普要求美國最高法院暫停執(zhí)行TikTok強制出售令

最新留言

您暫未設置收款碼

柚子快報激活碼778899分享：聚類算法多示例學習回顧