欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合正文

評(píng)論

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀

Fyndiq發(fā)現(xiàn)出海綜合2025-05-05600

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀

http://yzkb.51969.com/

英文名稱: High-Resolution Image Synthesis with Latent Diffusion Models 中文名稱: 使用潛空間擴(kuò)散模型合成高分辨率圖像地址: https://ieeexplore.ieee.org/document/9878449/ 代碼: https://github.com/CompVis/latent-diffusion 作者：Robin Rombach 日期: 2022-06-01 引用: 2275

1 讀后感

Latent Diffusion Models （LDMs）基于潛空間的擴(kuò)散模型，是目前主流的基礎(chǔ)模型，Stable diffusion 就是基于 LDMs 原理工作的。之前的擴(kuò)散模型運(yùn)算都在像素層面，優(yōu)化通常會(huì)消耗數(shù)百個(gè) GPU 天，且評(píng)估和推理成本也很高。LDMs 大量自編碼器的運(yùn)算基于潛空間數(shù)據(jù)，降低了計(jì)算復(fù)雜度，從而大幅節(jié)省了算力，并保持了圖像質(zhì)量和靈活度，它讓更多人可以訓(xùn)練模型。其應(yīng)用場景包含有條件（根據(jù)文本或圖像生成圖像）和無條件（去噪/著色/根據(jù)涂鴉合成）的圖像生成。

研究背景和動(dòng)機(jī)

擴(kuò)散模型是由逐層去噪的自動(dòng)編碼器構(gòu)建的，基于似然的模型。這種模型傾向于花費(fèi)過多的容量和資源對(duì)難以察覺的細(xì)節(jié)進(jìn)行建模，盡管使用了重新加權(quán)的變分目標(biāo)，但在 RGB 圖像的高維空間中訓(xùn)練和生成仍需要大量計(jì)算。

LDMs 學(xué)習(xí)可以分為兩個(gè)階段：首先找到一個(gè)感知上等效但計(jì)算上更合適的空間（感知壓縮）；然后，在其上訓(xùn)練擴(kuò)散模型（語義壓縮）。另外，本中還通過設(shè)計(jì)架構(gòu)，分離了自動(dòng)編碼和具體的任務(wù)，使得同一編碼器可用于多個(gè)任務(wù)。

論文貢獻(xiàn)如下：

優(yōu)化壓縮，支持更忠實(shí)和詳細(xì)的重建效果，有效構(gòu)建高分辨率圖像。在多種任務(wù)中，顯著降低了推理成本。不需要對(duì)重建和生成能力進(jìn)行微妙的加權(quán)，幾乎不需要對(duì)潛在空間進(jìn)行正則化。模型可以卷積方式使用并渲染約 1024x1024 像素的大而一致的圖像。設(shè)計(jì)了基于交叉注意力的調(diào)節(jié)機(jī)制，實(shí)現(xiàn)了多模式訓(xùn)練模型（一個(gè)模型支持多個(gè)功能）。在github上開源了算法。

方法

明確分離壓縮階段和生成階段有以下優(yōu)勢：(1) 脫離高維空間，在低維空間中的擴(kuò)散模型更高效；(2) 繼承了 UNet 架構(gòu)的歸納偏差，這對(duì)具有空間結(jié)構(gòu)（上下左右的相關(guān)性）的數(shù)據(jù)特別有效； (3) 獲得通用壓縮模型，其潛在空間可用于訓(xùn)練多種生成模型，也可用于其他下游應(yīng)用。

主邏輯分成三部分，第一部分是像素空間與潛空間之間的轉(zhuǎn)換，即感知圖像壓縮（粉色）；第二部分是在潛空間操作的擴(kuò)散模型（綠色）；第三部分是用文本描述或其它圖片作為條件，控制圖像生成（白色）。

感知圖像壓縮

感知壓縮模型由一個(gè)通過感知損失和基于 patch 的對(duì)抗目標(biāo)相結(jié)合的自編碼器組成。給定 RGB 空間中的圖像 x ∈ RH×W ×3，編碼器 E 將 x 編碼為潛在表示 z = E(x)，解碼器 D 從潛在表示重建圖像，給出 ? x = D( z) = D(E(x))，其中 z ∈ Rh×w×c。編碼器按因子 f = H/h = W/w 對(duì)圖像進(jìn)行下采樣（后面實(shí)驗(yàn)發(fā)現(xiàn)，下采樣在4,8,16時(shí)效果最好）。

潛空間擴(kuò)散模型

擴(kuò)散模型

擴(kuò)散模型原理比較復(fù)雜，之后會(huì)寫文章專門詳述，這里只做簡單介紹：

有一張圖x0，分多步，每步向圖里加入少量噪聲，圖將變得越來越模糊，最后變成了一張全是噪聲的圖xT，將加噪操作設(shè)為q。在中間過程第t步，有可能從第t步還原出第t-1步的圖像，以此類推，一步一步往上倒，理論上，就能從最后一步xT還原出原圖x0。將去噪操作設(shè)為p。所以建模的目標(biāo)是找到從t步還原第t-1步的方法，也就是對(duì)p建模。

經(jīng)過簡化，最終擴(kuò)散模型的目標(biāo)函數(shù)是：

～

(

)

[

∥

(

)

∥

]

L_{D M}=\mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(x_{t}, t\right)\right\|_{2}^{2}\right]

LDM?=Ex,?～N(0,1),t?[∥???θ?(xt?,t)∥22?] 這里考慮第t步，xt是第t步的加噪圖像，經(jīng)過訓(xùn)練來預(yù)測其輸入 xt 的去噪變體 ε，目標(biāo)是讓實(shí)際值和模型預(yù)測值盡量一致，通過訓(xùn)練給模型調(diào)參。

潛空間的擴(kuò)散模型

將作用于像素級(jí)的擴(kuò)散模型轉(zhuǎn)換為作為于壓縮低頻空間（潛空間）的擴(kuò)散模型。與高維像素空間相比，該空間更適合基于似然的生成模型，因?yàn)樗梢詫Ｗ⒂跀?shù)據(jù)的重要語義；且在較低維度進(jìn)行訓(xùn)練更為高效。

公式變?yōu)椋?/p>

(

)

～

(

)

[

∥

(

)

∥

]

{L D M}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\|_{2}^{2}\right]

LDM:=EE(x),?～N(0,1),t?[∥???θ?(zt?,t)∥22?] 文中模型的主干 εθ 通過時(shí)間條件 UNet 實(shí)現(xiàn)。由于前向過程是固定的，在訓(xùn)練期間可以通過 E 有效地獲得 zt，并且只需通過 D 即可將來自 p(z) 的樣本解碼到圖像空間。

條件機(jī)制

擴(kuò)散模型原則上能夠?qū)?p(z|y) 形式的條件分布進(jìn)行建模。它通過條件去噪自動(dòng)編碼器 εθ(zt, t, y) 來實(shí)現(xiàn)，通過輸入條件 y（通過文本生成圖像，通過圖像生成圖像）控制合成過程。

具體方法是通過交叉力注意機(jī)制增強(qiáng)其底層 UNet 主干網(wǎng)，Attention(Q, K, V )，

(

)

(

)

(

)

(

)

(

)

(

)

Q=W_{Q}^{(i)} \cdot \varphi_{i}\left(z_{t}\right), K=W_{K}^{(i)} \cdot \tau_{\theta}(y), V=W_{V}^{(i)} \cdot \tau_{\theta}(y)

Q=WQ(i)??φi?(zt?),K=WK(i)??τθ?(y),V=WV(i)??τθ?(y) 其中y是條件，φi(zt) 是 UNet 的中間表示，的WQ, WK, WV是可學(xué)習(xí)的投影矩陣。

(

)

～

(

)

[

∥

(

)

∥

]

L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t, \tau_{\theta}(y)\right)\right\|_{2}^{2}\right]

LLDM?:=EE(x),y,?～N(0,1),t?[∥???θ?(zt?,t,τθ?(y))∥22?] 通過圖像條件對(duì)數(shù)據(jù)來訓(xùn)練模型。其中 τθ 和 εθ 聯(lián)合優(yōu)化。這種調(diào)節(jié)機(jī)制非常靈活，因?yàn)?τθ 可以由特定領(lǐng)域的專家網(wǎng)絡(luò)進(jìn)行參數(shù)化，τθ處理后條件入引綠色塊，通過交叉注意力，作用于主干網(wǎng)絡(luò)εθ，影響圖像的生成。有效地解耦了條件模塊和圖像模塊，即使后面加入其它條件，也不需要考慮修改綠色的主干網(wǎng)。

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀

http://yzkb.51969.com/

精彩鏈接

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/18791137.html