柚子快報邀請碼778899分享:中國AIGC文生圖產(chǎn)業(yè)白皮書
柚子快報邀請碼778899分享:中國AIGC文生圖產(chǎn)業(yè)白皮書
今天分享的是AIGC系列深度研究報告:《AIGC專題:中國AIGC文生圖產(chǎn)業(yè)白皮書》。
(報告出品方:中國 AIGC 產(chǎn)業(yè)聯(lián)盟 x 無界 AI)
報告共計:48頁
人工智能生成內(nèi)容(AIGC)風(fēng)靡全球
AIGC,即 Artificial Intelligence Generated Content,人工智能生成內(nèi)容。它是 生成式 AI(Generative AI)技術(shù)所激發(fā)的新一輪內(nèi)容創(chuàng)作者經(jīng)濟浪潮;讓人人都 可以簡易、便捷、低成本地借助 AI 的力量完成文本、圖片、視頻、音頻等多媒體內(nèi) 容的高效高質(zhì)量生產(chǎn);是對以短視頻、自媒體等為代表的大規(guī)模 UGC(用戶生成內(nèi)容)經(jīng)濟的進一步范式升級,故稱“AIGC”。AIGC 擅長制造和傳播爆款內(nèi)容,尤 以圖片、視頻等視覺形態(tài)最為突出。
AIGC 就在身邊:新西湖、古良渚、古溫州
? AI“新西湖”全名為《新西湖繁盛全景圖》,由人類畫師與 AIGC 共同參與完成。主要用到三項主流的 AI 繪畫技術(shù):線稿上色(ControlNet Lineart)、無限拓展(Outpainting)、建筑模型訓(xùn)練(Dreambooth & Lora)等。創(chuàng)作方將該作品的使用權(quán)無償捐贈給杭州市貿(mào)易促進會、中國國際 動漫節(jié)執(zhí)行委員會、杭州西湖風(fēng)景名勝區(qū)管委會、杭州萬事利絲綢文化股份有限公司、杭州靈伴科技有限公司(Rokid)等多家單位和企業(yè)以共創(chuàng)、推廣 杭州文化,共享 AI 作品版權(quán)。
? AI“古溫州”,則以溫州朔門古港遺址的資料為基礎(chǔ),以“千年商港,未來溫州”為主題,借助 AI 工具為古港遺址勾勒出了一幅“東方威尼斯”繁華景象。2023 年 3 月 29 日,這幅圖片刊登在溫州日報,成為溫州日報“商周刊·文博”板塊元宇宙主題報道的靚麗一筆。
? 案例雖小,管中窺豹,可見一斑。從 2022 年至 2023 年,國內(nèi) AI 繪畫產(chǎn)業(yè)正是從這樣微小的案例開始了舉世矚目的產(chǎn)業(yè)應(yīng)用浪潮,從最初的靜態(tài)圖片 走向復(fù)雜、交互式的 AIGC 產(chǎn)業(yè)應(yīng)用場景。
2022 遇見 AIGC 的序章:AI 文生圖
2022 年春,國內(nèi)掀起的 AI 藝術(shù)熱潮源于海外 A 技術(shù)在圖像生成領(lǐng)域的革命性進步,以 DiscoDiffusion、Stable Diffusion、Midjourney 等為頭部代表的擴散模型(Diffusion Model)開始在數(shù)字藝術(shù)領(lǐng)域大放異彩!這一關(guān)鍵節(jié)點要早于隨后大火的 ChatGPT 以及大模型(LLM)風(fēng)口。因此可以認為,國內(nèi)第一批全民級大規(guī)模參與 AIGC 活動的用戶群來自 AI 繪(即文生圖)領(lǐng)域。
AI 文生圖的藝術(shù)質(zhì)量呈現(xiàn)出指數(shù)級進化速度
故事始于 2022 年春天,Disco Diffusion 的開源打開了 AI 繪畫的浪潮之門——
? 2022 年 4、5 月份:AI 繪畫只擅長抽象之美或者色彩美學(xué),以令人“眼花繚亂”的色彩涂抹構(gòu)圖向世人展 示出 AI 藝術(shù)的別樣魅力。這段時期人們常用的工具是 Disco Diffusion 以及 Midjourney 初代版本。
? 2022 年 6、7、8 月份:AI 繪畫開始集中突破繪畫的邏輯性和質(zhì)量,可以逐步寫實、產(chǎn)出具有藝術(shù)性的作 品。這段時期以 Midjourney 為主要工具代表。
? 2022 年 9 月份:AI 繪畫最重要開源力量 Stable Diffusion 成為社區(qū)大熱門,且憑借成本低、高質(zhì)量、高邏 輯性、更強的通用繪制能力以及快速生成等優(yōu)勢迅速占領(lǐng)市場,AI 繪畫的藝術(shù)質(zhì)量和邏輯能力開始進入“飛輪式”發(fā)展,且 Midjourney 也開始引入其開源技術(shù)。
? 2022 年 10、11 月份:AI 繪畫的第一個現(xiàn)象級潮流“二次元模型”橫空出世,以 NovelAI 等開源產(chǎn)品和力量為突出代表,進一步蔓延到整個 Stable Diffusion 社區(qū),更多的開源模型和產(chǎn)品加入到這個隊伍中,生態(tài)力量開始形成。二次元模型的高質(zhì)量性和現(xiàn)實影響力也令世人展開了對 AI 繪畫版權(quán)的爭議。11 月份,國內(nèi) AI 繪畫第一波大浪潮啟動,抖音迅速推出的“抖音 AI 繪畫(二次元)”流量成功輻射數(shù)以千萬計網(wǎng)民,國內(nèi)第一波千萬級 AI 繪畫用戶群形成。 ? 2022 年 12 月份:緊接著二次元浪潮,人們仿佛打開了“通往異次元的大門”,開始讓三次元、2.5 次元照 進 AI 繪畫,于是新一波浪潮“ AI 真人模型”形成。傳統(tǒng)互聯(lián)網(wǎng)上充斥著大量由 AI 生成的“美女”、“真 實場景”、“平行時空新聞”等新形態(tài)內(nèi)容。與此同時,閉源力量 Midjourney 也幾近 AI 繪畫的藝術(shù)巔峰, 各行業(yè)的大量設(shè)計師與內(nèi)容工作者群體開始用 Midjourney 生成極高質(zhì)量且滿足現(xiàn)實生產(chǎn)需求的 AI 圖片。
? 2023 年至今:AI 繪畫在極高質(zhì)量、通用邏輯能力、細節(jié)完美度以及精準(zhǔn)控制層面已經(jīng)開始大范圍“侵蝕”各行各業(yè)的生產(chǎn)與消費過程,各產(chǎn)業(yè)以及互聯(lián)網(wǎng)都到處充斥著 AI 生成的內(nèi)容。第一波 AI 大范圍賦能產(chǎn)業(yè)的 共識正逐步形成。Stable Diffusion 生態(tài)力量和 Midjourney 產(chǎn)品力成為當(dāng)下人們唯二選擇。
2023 年 AI 文生圖“侵蝕”的商業(yè)版圖:實用性 AI 繪畫時代到來
? 我們在 2022 年曾預(yù)測,2023 年數(shù)以億計的 AIGC 內(nèi)容將充斥著整個互聯(lián)網(wǎng),絕大多數(shù)網(wǎng)民在刷抖音或者小紅書時都會在 不知不覺中瀏覽到 AIGC 內(nèi)容,占比可能達到 5~10%;以小紅書平臺為例,都會將疑似 AI 生成的內(nèi)容打上“疑似包含 AI 創(chuàng)作信息,請注意甄別真實度”的標(biāo)簽以供用戶警惕。一時間,泛娛樂場景成為 AI 文生圖商業(yè)化的“第一陣地”。
? 面對 AI 繪畫一年來指數(shù)級的進化速度,2023 年 AI 繪畫正式開啟“全面商用”時刻。從多樣性的藝術(shù)維度沖擊多樣性的行業(yè)商業(yè),在流量平臺等虛擬內(nèi)容經(jīng)濟的加持下,數(shù)以千萬甚至上億計的互聯(lián)網(wǎng)用戶群深受其影響。其中以“攝影模型”和“真人模型”等為代表的“真實世界模型”對現(xiàn)實世界的沖擊最為顯著,包含商業(yè)應(yīng)用、泛娛樂消費甚至諸多負面影響。
AI 文生圖模型陣營及簡史
? 一切都始于 CLIP 開源,CLIP 是一個通過自然語言監(jiān)督有效地學(xué)習(xí)視覺概念的神經(jīng)網(wǎng)絡(luò)。通過使用 CLIP 可將文本和圖像連接在一起。
? CLIP(Contrastive Language–Image Pre-training)是文本和圖像對照的預(yù)訓(xùn)練模型,數(shù)據(jù)集使用的是 LAION-400M,包含 4 億組從互聯(lián)網(wǎng)上收集的文本圖像對。文本編碼器 提取文本特征,圖像編碼器提取圖像特征,兩個放到一起對比相似度,從而讓 AI“掌握”文本圖像的匹配關(guān)系。
開源之王 中國 AIGC 文生圖產(chǎn)業(yè)白皮書 Stable Diffusion 的模型風(fēng)格化細分及其生態(tài)占比
? 2022 年 8 月,AI 繪畫最為重要的開源力量 Stable Diffusion 正式向全世 界開放其模型代碼、訓(xùn)練數(shù)據(jù)集、生產(chǎn)內(nèi)容的版權(quán)歸屬協(xié)議。完全自由的開源運動激起了全世界開發(fā)者、創(chuàng)業(yè)者、產(chǎn)業(yè)公司和普通愛好者的熱忱, 在短短半個月時間內(nèi),SD 的谷歌搜索趨勢徹底超越大名鼎鼎的 DALL·E,成為人們談?wù)?AI 繪畫不可規(guī)避的話題。SD 的開源也令 AI 巨 頭們倍感震驚。
? 2022 年,Stable Diffusion 的開源發(fā)布由兩大公司實體驅(qū)動,分別是 Stability.Ai 和 RunwayML。二者共同促進了 SD 大版本的成功。
? 截止 2023 年 7 月份,Stability.Ai 已將 SD 開源版本迭代至 Stable Diffusion XL 1.0(SDXL 1.0)。
? SD 所基于的開創(chuàng)性的“潛在空間”(Latent Space)技術(shù)將擴散模型 (Diffusion Model)再次推上新的臺階,是 AI 繪畫走向大規(guī)模商用化的 關(guān)鍵一步(如 latent 空間讓快速生成高分辨率圖像成為可能,對比之下, 過往的 DALL-E2 和 Google Imagen 則是基于傳統(tǒng)的 pixel 空間)。
Stable Diffusion 重要開源技術(shù)路線:全民訓(xùn)練,無盡的模型生態(tài)
僅依靠 SD 官方基礎(chǔ)版本大模型并不足以產(chǎn)生五彩繽紛的 AI 繪畫體驗,它只是一 個基礎(chǔ)的“通用底子”,需要更多開發(fā)者在其之上進行更多樣化、更高質(zhì)量的風(fēng)格 化訓(xùn)練。便有了以模型廣場、精準(zhǔn)控制、訓(xùn)練框架為代表的開源模型生態(tài)的繁榮。 可以適配千行百業(yè)的垂直模型開始涌現(xiàn),同時也造就了行業(yè)應(yīng)用 AI 的場景涌現(xiàn)。
實現(xiàn) AIGC 精準(zhǔn)創(chuàng)作的“利刃”:ControlNet
? 2023 年初,Stable Diffusion 生態(tài)重要控制組件 ControlNet 橫空出世,給出了 一條完美解決 AI 繪畫發(fā)展進程中“精準(zhǔn)控制”難題的道路。
? 該開源技術(shù)使用了一種稱為 “Conditional Generative Adversarial Networks”(條件生成對抗網(wǎng)絡(luò))的技術(shù)來生成圖像,與傳統(tǒng)的生成對抗網(wǎng)絡(luò) 不同,ControlNet 允許用戶對生成的圖像進行精細的控制。
? 例如它將傳統(tǒng)意義上的【設(shè)計】抽象分解為 AI 或者計算機視野下的【線/輪廓】、【深度】、【語義】、【姿勢】 等眾多基礎(chǔ)原子操作。根據(jù)應(yīng)用場景, 隨心所欲地組合這些基本原子和元素, 實現(xiàn)繪制的整體可控性和對大千世界通 用場景的繪制。
? 騰訊 AI 實驗室開源推出的 IP-Adapter 模型為 Controlnet 生態(tài)做出了突出貢獻,可識別參考圖的風(fēng)格和內(nèi)容,然后生成相似的作品,且可搭配其他控制器使用。
報告共計:48頁
精選報告來源/公眾號:海選智庫 本文僅供參考,不代表我們的任何投資建議。海選智庫整理分享的資料僅推薦閱讀,如需使用請參閱報告原文。
柚子快報邀請碼778899分享:中國AIGC文生圖產(chǎn)業(yè)白皮書
相關(guān)閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。