欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀

http://yzkb.51969.com/

英文名稱: High-Resolution Image Synthesis with Latent Diffusion Models 中文名稱: 使用潛空間擴(kuò)散模型合成高分辨率圖像 地址: https://ieeexplore.ieee.org/document/9878449/ 代碼: https://github.com/CompVis/latent-diffusion 作者:Robin Rombach 日期: 2022-06-01 引用: 2275

1 讀后感

Latent Diffusion Models (LDMs)基于潛空間的擴(kuò)散模型,是目前主流的基礎(chǔ)模型,Stable diffusion 就是基于 LDMs 原理工作的。之前的擴(kuò)散模型運(yùn)算都在像素層面,優(yōu)化通常會(huì)消耗數(shù)百個(gè) GPU 天,且評(píng)估和推理成本也很高。LDMs 大量自編碼器的運(yùn)算基于潛空間數(shù)據(jù),降低了計(jì)算復(fù)雜度,從而大幅節(jié)省了算力,并保持了圖像質(zhì)量和靈活度,它讓更多人可以訓(xùn)練模型。其應(yīng)用場景包含有條件(根據(jù)文本或圖像生成圖像)和無條件(去噪/著色/根據(jù)涂鴉合成)的圖像生成。

研究背景和動(dòng)機(jī)

擴(kuò)散模型是由逐層去噪的自動(dòng)編碼器構(gòu)建的,基于似然的模型。這種模型傾向于花費(fèi)過多的容量和資源對(duì)難以察覺的細(xì)節(jié)進(jìn)行建模,盡管使用了重新加權(quán)的變分目標(biāo),但在 RGB 圖像的高維空間中訓(xùn)練和生成仍需要大量計(jì)算。

LDMs 學(xué)習(xí)可以分為兩個(gè)階段:首先找到一個(gè)感知上等效但計(jì)算上更合適的空間(感知壓縮);然后,在其上訓(xùn)練擴(kuò)散模型(語義壓縮)。另外,本中還通過設(shè)計(jì)架構(gòu),分離了自動(dòng)編碼和具體的任務(wù),使得同一編碼器可用于多個(gè)任務(wù)。

論文貢獻(xiàn)如下:

優(yōu)化壓縮,支持更忠實(shí)和詳細(xì)的重建效果,有效構(gòu)建高分辨率圖像。在多種任務(wù)中,顯著降低了推理成本。不需要對(duì)重建和生成能力進(jìn)行微妙的加權(quán),幾乎不需要對(duì)潛在空間進(jìn)行正則化。模型可以卷積方式使用并渲染約 1024x1024 像素的大而一致的圖像。設(shè)計(jì)了基于交叉注意力的調(diào)節(jié)機(jī)制,實(shí)現(xiàn)了多模式訓(xùn)練模型(一個(gè)模型支持多個(gè)功能)。在github上開源了算法。

方法

明確分離壓縮階段和生成階段有以下優(yōu)勢:(1) 脫離高維空間,在低維空間中的擴(kuò)散模型更高效;(2) 繼承了 UNet 架構(gòu)的歸納偏差,這對(duì)具有空間結(jié)構(gòu)(上下左右的相關(guān)性)的數(shù)據(jù)特別有效; (3) 獲得通用壓縮模型,其潛在空間可用于訓(xùn)練多種生成模型,也可用于其他下游應(yīng)用。

主邏輯分成三部分,第一部分是像素空間與潛空間之間的轉(zhuǎn)換,即感知圖像壓縮(粉色);第二部分是在潛空間操作的擴(kuò)散模型(綠色);第三部分是用文本描述或其它圖片作為條件,控制圖像生成(白色)。

感知圖像壓縮

感知壓縮模型由一個(gè)通過感知損失和基于 patch 的對(duì)抗目標(biāo)相結(jié)合的自編碼器組成。 給定 RGB 空間中的圖像 x ∈ RH×W ×3,編碼器 E 將 x 編碼為潛在表示 z = E(x),解碼器 D 從潛在表示重建圖像,給出 ? x = D( z) = D(E(x)),其中 z ∈ Rh×w×c。編碼器按因子 f = H/h = W/w 對(duì)圖像進(jìn)行下采樣(后面實(shí)驗(yàn)發(fā)現(xiàn),下采樣在4,8,16時(shí)效果最好)。

潛空間擴(kuò)散模型

擴(kuò)散模型

擴(kuò)散模型原理比較復(fù)雜,之后會(huì)寫文章專門詳述,這里只做簡單介紹:

有一張圖x0,分多步,每步向圖里加入少量噪聲,圖將變得越來越模糊,最后變成了一張全是噪聲的圖xT,將加噪操作設(shè)為q。在中間過程第t步,有可能從第t步還原出第t-1步的圖像,以此類推,一步一步往上倒,理論上,就能從最后一步xT還原出原圖x0。將去噪操作設(shè)為p。所以建模的目標(biāo)是找到從t步還原第t-1步的方法,也就是對(duì)p建模。

經(jīng)過簡化,最終擴(kuò)散模型的目標(biāo)函數(shù)是:

L

D

M

=

E

x

,

?

N

(

0

,

1

)

,

t

[

?

?

?

θ

(

x

t

,

t

)

2

2

]

L_{D M}=\mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(x_{t}, t\right)\right\|_{2}^{2}\right]

LDM?=Ex,?~N(0,1),t?[∥???θ?(xt?,t)∥22?] 這里考慮第t步,xt是第t步的加噪圖像,經(jīng)過訓(xùn)練來預(yù)測其輸入 xt 的去噪變體 ε,目標(biāo)是讓實(shí)際值和模型預(yù)測值盡量一致,通過訓(xùn)練給模型調(diào)參。

潛空間的擴(kuò)散模型

將作用于像素級(jí)的擴(kuò)散模型轉(zhuǎn)換為作為于壓縮低頻空間(潛空間)的擴(kuò)散模型。與高維像素空間相比,該空間更適合基于似然的生成模型,因?yàn)樗梢詫W⒂跀?shù)據(jù)的重要語義;且在較低維度進(jìn)行訓(xùn)練更為高效。

公式變?yōu)椋?/p>

L

D

M

:

=

E

E

(

x

)

,

?

N

(

0

,

1

)

,

t

[

?

?

?

θ

(

z

t

,

t

)

2

2

]

{L D M}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\|_{2}^{2}\right]

LDM:=EE(x),?~N(0,1),t?[∥???θ?(zt?,t)∥22?] 文中模型的主干 εθ 通過時(shí)間條件 UNet 實(shí)現(xiàn)。由于前向過程是固定的,在訓(xùn)練期間可以通過 E 有效地獲得 zt,并且只需通過 D 即可將來自 p(z) 的樣本解碼到圖像空間。

條件機(jī)制

擴(kuò)散模型原則上能夠?qū)?p(z|y) 形式的條件分布進(jìn)行建模。它通過條件去噪自動(dòng)編碼器 εθ(zt, t, y) 來實(shí)現(xiàn),通過輸入條件 y(通過文本生成圖像,通過圖像生成圖像)控制合成過程。

具體方法是通過交叉力注意機(jī)制增強(qiáng)其底層 UNet 主干網(wǎng),Attention(Q, K, V ),

Q

=

W

Q

(

i

)

?

φ

i

(

z

t

)

,

K

=

W

K

(

i

)

?

τ

θ

(

y

)

,

V

=

W

V

(

i

)

?

τ

θ

(

y

)

Q=W_{Q}^{(i)} \cdot \varphi_{i}\left(z_{t}\right), K=W_{K}^{(i)} \cdot \tau_{\theta}(y), V=W_{V}^{(i)} \cdot \tau_{\theta}(y)

Q=WQ(i)??φi?(zt?),K=WK(i)??τθ?(y),V=WV(i)??τθ?(y) 其中y是條件,φi(zt) 是 UNet 的中間表示,的WQ, WK, WV是可學(xué)習(xí)的投影矩陣。

L

L

D

M

:

=

E

E

(

x

)

,

y

,

?

N

(

0

,

1

)

,

t

[

?

?

?

θ

(

z

t

,

t

,

τ

θ

(

y

)

)

2

2

]

L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t, \tau_{\theta}(y)\right)\right\|_{2}^{2}\right]

LLDM?:=EE(x),y,?~N(0,1),t?[∥???θ?(zt?,t,τθ?(y))∥22?] 通過圖像條件對(duì)數(shù)據(jù)來訓(xùn)練模型。其中 τθ 和 εθ 聯(lián)合優(yōu)化。 這種調(diào)節(jié)機(jī)制非常靈活,因?yàn)?τθ 可以由特定領(lǐng)域的專家網(wǎng)絡(luò)進(jìn)行參數(shù)化,τθ處理后條件入引綠色塊,通過交叉注意力,作用于主干網(wǎng)絡(luò)εθ,影響圖像的生成。有效地解耦了條件模塊和圖像模塊,即使后面加入其它條件,也不需要考慮修改綠色的主干網(wǎng)。

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀

http://yzkb.51969.com/

精彩鏈接

評(píng)論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18791137.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄