每日快報(bào)!我們嘗試讓繪畫 AI 成為負(fù)責(zé)插圖的新同事

2022-12-29 12:04:17|

來源：作者：

本文來自微信公眾號(hào)：觸樂（ID：chuappgame），作者：劉翁婳

(資料圖)

技術(shù)正在突飛猛進(jìn)。

隨著討論熱度逐漸褪去，“AI 繪畫”的話題在最近這段時(shí)間似乎已經(jīng)漸漸不再掀起波瀾，卻已有不少游戲公司悄無聲息地將 AI 繪畫加入了自己的工作流程中。在探索 AI 繪畫工具化的浪潮中，作為一群繪畫方面的外行人，觸樂也踏出了自己的第一步 —— 在祝佳音老師的指示下，我們正在嘗試使用 AI 繪畫工具生成文章所需的插圖。

文章插圖的版權(quán)問題對(duì)大部分使用者而言都是個(gè)不小的隱患，要想在開源或有版權(quán)的圖片網(wǎng)站上為文章找到切合主題的插圖也不是件容易的事。AI 繪畫似乎成了一個(gè)不錯(cuò)的選擇 —— 在我們的想象中，只要為 AI 提供幾段描述或是關(guān)鍵詞，AI 就能“讀懂并畫出”我們想要的圖片。事實(shí)真的如此簡單嗎？為了實(shí)現(xiàn)“讓 AI 幫我們畫插圖”的目標(biāo)，最大程度上解放勞動(dòng)力，我們做出了一些嘗試。

畫風(fēng)、付費(fèi)、本地化？

要想生成對(duì)應(yīng)風(fēng)格的插圖，第一步當(dāng)然是挑選一個(gè)合適的模型。AI 繪畫的模型演化進(jìn)度在最近短短半年間可謂突飛猛進(jìn)，光是國內(nèi)外主流模型便已有五六個(gè)，各類風(fēng)格化模型更是百花齊放。不過，要找到一個(gè)適合生成文章插圖的模型并不容易。有些模型是開源的，有些需要付費(fèi)才能使用，有些游走于法律的灰色地帶，被人破解后偷偷下載……

無論是哪種，總要上手試試才行。我們?cè)谧詈筮x擇了 4 種模型作為備選方案：開源后支持本地部署，曾經(jīng)一度號(hào)稱“最強(qiáng)繪畫 AI”的 Stable Diffusion；老牌 AI 研究團(tuán)隊(duì) OpenAI 旗下最早的幾個(gè)圖像生成 AI 之一 DALL?E；架設(shè)在 Discord 頻道中，持續(xù)更新模型的 Midjourney；以及最后，支持日式畫風(fēng)的 NovelAI 本地部署版本。

首先必須聲明的是，盡管目前的 AI 繪畫版權(quán)問題仍不明朗，但“本地部署版 NovelAI”一定是其中最不靠譜的一個(gè) —— 不提圖片庫的版權(quán)問題，模型的來源本身便游走在法律的灰色地帶。相比起來，本地部署的 Stable Diffusion 則“名正言順”得多。自 Stable Diffusion 宣布開源之后，在 GitHub 上即可下載 Stable Diffusion 的新舊版本，在本地架設(shè)后，借助 WebUI 工具便可以直觀地調(diào)整生成圖片的各項(xiàng)參數(shù)與圖片預(yù)覽。

不過，天下沒有免費(fèi)的午餐 —— 雖然開源的行為接近于“將午餐送到你的嘴里”，但運(yùn)行程序同樣需要有足夠的算力。幾年前還算得上配置不錯(cuò)的 GeForce RTX 2060 顯卡如今多少有些力不從心。有人曾統(tǒng)計(jì)過不同的顯卡利用 Stable Diffusion 模型生成 512×512 大小圖像時(shí)所耗費(fèi)的時(shí)間，2060 顯卡需要 17 秒，3080 只需要 7 秒 —— 不一定足夠精準(zhǔn)，但也有參考價(jià)值。

3080 的用時(shí)還不到 2060 的二分之一

當(dāng)然，實(shí)際使用過程中，你會(huì)意識(shí)到 17 秒只是一種理想狀況。隨著迭代步數(shù)的增加、畫幅的調(diào)整與生成數(shù)量的增多，生成圖片所需的時(shí)間幾乎呈指數(shù)式上漲。最合理的方式，還是先生成 512 大小的圖片，再通過圖片擴(kuò)大算法將其放大。即便如此，當(dāng)你把迭代步數(shù)不斷調(diào)高，也可能面臨內(nèi)存溢出的風(fēng)險(xiǎn)。更直觀的感受是，在圖片生成過程中，電腦的風(fēng)扇聲幾乎沒有停過。

相比起來，另外兩家付費(fèi)的繪畫 AI——DALL?E 與 Midjourney 就對(duì)電腦顯卡友善得多。它們的圖片生成并不需要你緊張地監(jiān)控顯卡溫度，防止燒壞，只需要向它們的服務(wù)器發(fā)送對(duì)應(yīng)描述詞，服務(wù)器便會(huì)吐出一組圖片以供用戶選擇。只是與此相應(yīng)，每次占用服務(wù)器資源生成圖片需要消耗用戶一定量的積分，開始你可以免費(fèi)試用，試用完每個(gè)賬號(hào)的免費(fèi)額度之后，必須得為賬號(hào)充值積分才能繼續(xù)生成。

一般而言，用一組關(guān)鍵字生成 4 張 512×512 的例圖大約需要 1 積分。每個(gè)繪畫 AI 的積分定價(jià)略有差別 ——DALL?E 的付費(fèi)積分相對(duì)更貴一些，大約是 15 美元 115 積分，折合人民幣大約 1 元生成一次；Midjourney 提供了每月 10 美元約 200 張圖的包月套餐，算下來便宜不少。

不管是 DALL?E、Midjourney 還是 Stable Diffusion，最關(guān)鍵的，當(dāng)然還是圖片生成的質(zhì)量。我們使用了幾組不同的關(guān)鍵詞，測(cè)試 AI 們的表現(xiàn)。

描述與關(guān)鍵詞

在插圖這方面，相比起精美的 3D 建模圖片或是貼近照片的現(xiàn)實(shí)風(fēng)格圖片，祝佳音老師更加青睞的是手繪雜志插圖風(fēng)格。但在風(fēng)格的描述上卻遇見了不少麻煩：該怎樣告訴 AI 我們需要什么？

一開始，我們嘗試用某一本雜志的刊名籠統(tǒng)地描述它的插圖風(fēng)格：例如，在關(guān)鍵詞里加上《紐約客》（New Yorker）。問題隨之而來：即使在同一本雜志里，插圖風(fēng)格并非單一不變。在這一點(diǎn)上，免費(fèi)的 Stable Diffusion 為我們提供了不少試錯(cuò)的案例 —— 即便你加入了“手繪”“無模糊”“清晰線稿”與藝術(shù)家的名字等關(guān)鍵詞，繪畫 AI 還是不太明白你究竟想要什么，只能一次給你端上來幾張不同風(fēng)格的圖片任你挑選，你可以看得出來，這些風(fēng)格確實(shí)都曾出現(xiàn)在雜志中。至于是否能夠找到你想要的，就得指望運(yùn)氣了。

指定的范圍比較寬泛時(shí)，Stable Diffusion 會(huì)一次生成數(shù)張不同風(fēng)格的圖片

想知道某種具體繪畫風(fēng)格的名字也不算容易。在大多數(shù)情況下，我們想了半天也只能想出來“手繪”或是“水彩”等籠統(tǒng)的描述。好在我們找到了搜索引擎 Lexica，網(wǎng)站上整理了不少描述詞與生成圖片的案例，可以通過文字或是圖片搜索找到你想要的詞匯。

Lexica 上可以搜索到其他用戶分享的案例

不過，Lexica 也并非百試百靈。一方面，如果你瞄準(zhǔn)的是不那么大眾的藝術(shù)家，嘗試生成對(duì)應(yīng)風(fēng)格圖片的用戶不多，能提供的例子也十分有限。另一方面，AI 生成圖片的過程伴隨不小的隨機(jī)性，用戶上傳的圖片與關(guān)鍵詞不是每次都足夠準(zhǔn)確 —— 上傳的例圖看起來不錯(cuò)，實(shí)際生成時(shí)怎么也跑不出類似的圖片更是常態(tài)。

Stable Diffusion 的問題在這里也漸漸顯露：模型在生成真實(shí)照片風(fēng)格或是細(xì)膩的原畫風(fēng)格上可謂一騎絕塵，特別是更新后的 Stable Diffusion2.1 版本，生成的照片風(fēng)格圖像幾乎可以以假亂真。但相對(duì)應(yīng)的，當(dāng)涉及相對(duì)平面的藝術(shù)風(fēng)格時(shí)，想要生成出合適的圖片，需要做出不少嘗試。

Stable Diffusion 在生成真實(shí)照片風(fēng)格的圖片上做得相當(dāng)好

生成平面風(fēng)格的圖像，則需要更多嘗試

當(dāng)然，描述詞帶來的門檻也是問題之一 —— 任何人在生成圖片的過程中，不斷調(diào)整、修正并找到合適的關(guān)鍵詞同樣需要時(shí)間。從這一點(diǎn)上來說，Stable Diffusion 對(duì)零基礎(chǔ)使用者并非那么友好。如果不細(xì)致調(diào)整關(guān)鍵詞，直接用自然語言描述想要的圖片，可能需要生成不少圖片才能獲得一張令人滿意的圖像。例如，我們描述了一個(gè)具體的場(chǎng)景：“一個(gè)女孩在堆滿了雜物的辦公桌前，桌上的外賣袋和泡面摞得很高，墻上有個(gè)日歷，日歷上‘發(fā)售日’后面的數(shù)字被紅筆劃掉了好幾道。女孩抱著頭，顯得非常痛苦?！?/p>

直接將這一整段描述塞給 Stable Diffusion 之后，它展現(xiàn)出了前所未有的疑惑。

如果描述不太準(zhǔn)確，Stable Diffsion 生成的圖片并不總能令人滿意

相比起來，付費(fèi)的 DALL?E 與 Midjourney 模型在經(jīng)歷了不斷的迭代與調(diào)整之后，生成無法使用的“廢圖”的概率要低得多。在 Midjourney 中使用同一組關(guān)鍵詞，只需要一個(gè)簡單的關(guān)鍵詞“by Yuko Shimizu”來指定畫風(fēng)，便可得到表現(xiàn)相當(dāng)不錯(cuò)的結(jié)果。

可以看出，Midjourney 正確理解了“外賣盒”，但對(duì)于“痛苦的”（Painful）的理解則有些奇怪

DALL?E 對(duì)畫風(fēng)的理解不太到位，卻正確理解了描述的內(nèi)容。在數(shù)個(gè)模型中，DALL?E 描繪的人物情感可謂惟妙惟肖。

DALL?E 將“痛苦”與“雙手抱頭”聯(lián)系了起來

在生成文章插圖的需求當(dāng)中，如果考慮實(shí)際投入使用，付費(fèi)的 DALL?E 與 Midjourney 看起來確實(shí)是更好的選擇。在風(fēng)格化插畫方面，Midjourney 的表現(xiàn)又更勝一籌。只需要幾個(gè)關(guān)于繪畫風(fēng)格或作者的關(guān)鍵詞，Midjourney 就能很快“理解”你想要的究竟是什么。

美式漫畫與故事板風(fēng)格

版權(quán)，與接下來的麻煩

顯而易見，目前已經(jīng)有一些繪畫 AI 投入商業(yè)運(yùn)營了，它的用戶中也有一些要將 AI 生成的圖片投入商業(yè)使用。既然如此，版權(quán)自然是個(gè)繞不過去的話題。在這一點(diǎn)上，由于 AI 繪畫領(lǐng)域的發(fā)展速度實(shí)在太快，總體上，相關(guān)的法律法規(guī)都沒來得及跟上。目前，大部分 AI 繪畫模型的版權(quán)條款都秉承著“撒手掌柜”的風(fēng)格。Midjourney 與 Stable Diffusion 都明確表示，生成圖片的版權(quán)將歸于生成者所有，但同時(shí)也這樣指出：請(qǐng)勿嘗試創(chuàng)建涉及色情、歧視等可能對(duì)他人造成傷害的圖像。如若引起爭(zhēng)議，一切職責(zé)與平臺(tái)無關(guān)，由爭(zhēng)議雙方自行解決。

判定內(nèi)容是否合法，最后還是落在了具體的作品上。如果是已經(jīng)不再受到版權(quán)法保護(hù)的畫家作品（一般是畫家去世 50 年以后），模仿他們的風(fēng)格進(jìn)行再次創(chuàng)作當(dāng)然沒有問題。如果要模仿仍受版權(quán)法保護(hù)的現(xiàn)代畫家們，便要好好斟酌尺度才行。

Stable Diffusion 生成的梵高風(fēng)格畫作

盡管在大多數(shù)情況下，AI 繪畫并不能完美地生成你所想要的單一風(fēng)格，看起來更像是多種風(fēng)格的雜糅，但如果針對(duì)某種風(fēng)格或某一位畫師的作品進(jìn)行訓(xùn)練，AI 生成的作品難免會(huì)出現(xiàn)跟模仿對(duì)象過于相似的問題。在這一點(diǎn)上，主流的幾個(gè)大型模型其實(shí)都“做得不錯(cuò)”：即便指定了作者，在 DALL?E 或 Midjourney 中，也很難做到和作者畫得一模一樣。

值得再次強(qiáng)調(diào)的是，在最近短短半年的時(shí)間里，AI 繪畫模型的進(jìn)化速度可謂突飛猛進(jìn)，但法律法規(guī)還沒能趕上這個(gè)速度，目前國際上仍不存在對(duì)應(yīng)的法律法規(guī)用以規(guī)范 AI 繪畫的版權(quán)問題。AI 圖像的商業(yè)使用仍舊存在一定的風(fēng)險(xiǎn) —— 當(dāng)我們向 AI 繪畫平臺(tái)付費(fèi)后，平臺(tái)是否應(yīng)當(dāng)為訓(xùn)練所使用的網(wǎng)絡(luò)圖片集付費(fèi)？

個(gè)人使用者面對(duì)的問題相對(duì)簡單，只要 AI 繪畫平臺(tái)不倒打一耙，突然宣稱版權(quán)不歸屬于生成者，一般來說在版權(quán)上不會(huì)出現(xiàn)什么幺蛾子，尤其是個(gè)人非商業(yè)的使用，并無太大風(fēng)險(xiǎn)。對(duì)借助 AI 工具輔助工作的美術(shù)工作者們來說，另一方面的問題是，AI 生成圖像并不一定能被所有受眾接受。幾天前，某款移動(dòng)端游戲的宣傳圖片便被懷疑是借助 AI 工具進(jìn)行了輔助繪畫 —— 背景中的金屬部件很明顯“不像是人畫的”。這件事在玩家間激起了一陣波瀾 —— 一些玩家對(duì)此十分失望，在他們看來，“AI 繪畫”似乎天然與“廉價(jià)”“不認(rèn)真”等描述掛鉤。

這件事并不是個(gè)例，不少游戲開發(fā)者透露，他們已將 AI 繪畫加入自己的工作流，卻不敢將這個(gè)事實(shí)公之于眾。但從另一個(gè)角度出發(fā)，如果將 AI 繪畫作為輔助工具，排除訓(xùn)練庫版權(quán)上的隱患問題，它與 Blender、Enscape 等 3D 輔助軟件的差別在哪里？如果將 AI 繪畫作為圖片素材庫，它與 Unsplash 等無版權(quán)素材庫得到的結(jié)果又有多大的差別？

無論如何，現(xiàn)在的 AI 繪畫模型確實(shí)還不太成熟，但你可以直觀地感受到技術(shù)的快速進(jìn)步 —— 說不定過不了多久，我們真的會(huì)使用 AI 生成插圖，那會(huì)是更逼真、更像是人畫的插圖，到那時(shí)，不知各位讀者是否能發(fā)現(xiàn)呢？

Midjourney 生成的“手握柯基與蘸醬薯片的教皇”，看起來真是有模有樣

（本文題圖均由繪畫 AI Midjourney 生成。）

標(biāo)簽： AI繪畫