AnimagineXL是用于AI绘图工具Stable Diffusion的一款模型,风格主要为日本ACGN的插画,也就是所谓的二次元画风。在之前的一篇文章《比较AnimagineXL模型对于游戏风格、游戏主机以及奇幻世界职业相关标签的表现》中,我比较了该模型对于不同的游戏风格(3D、像素画艺术、MMORPG等)以及游戏主机平台,还有就是奇幻职业等标签的反应及表现。在之前的比较中,我注意到了该模型对于3D和像素画艺术(pixel art)有较为明显的反应。
这一次,我尝试用不同的方法来融合这两个要素,即既3D,又像素。此外,我还比较了Stable Diffusion WebUI下4种不同的采样器对于同样提示词的画面表现。
在比较过程中我生成了许多图片,并构成了一系列的对比图表。其中我最喜欢的是这一张:
虽然这不能说是一张成功的生成图,因为AI程序并没有按照我提示词的指示生成一个人。不过这张图看起来简洁、宁静、可爱,既有从近景到远景的焦外模糊的效果,也有书架线条所凸显呈现出的空间透视感。在本文下方,我也把包括这张图在内的同随机数种子、同参数的对比图表放了出来。大家可以找找看。我觉得可以说这张就是3D和像素画风格结合的一个典型效果。
我用到的提示词,正面的有:
(masterpiece), ((best quality)), detailed,fantasy world,1girl,fantasy_world_job,a cute slime,fantasy_world_places,looking at viewer,3D
负面的有:
(worst quality:1.6),(low quality:1.6), easynegative,extra limbs,(2girls),NSFW
其中fantasy_world_job以及fantasy_world_places是用到了wildcards类插件用来给每一次的对比替换一些元素。这里替换的是奇幻世界的职业以及奇幻世界的场景。
作为画面风格呈现的比较。我在Stable Diffusion webui的脚本(Script)功能中使用了X/Y/Z plot比较功能。在X方向上,我使用的语句是:3D,[3D:pixel art],[3D:pxiel art:0.2],[3D:[3D:pixel art]:0.2],pixel art;在Y方向上,我比较的是Euler、DPM++ SDE Karras、DPM++ 2M SDE Karras、UniPC这几个采样器。
我想需要说明的是X行的比较参数。其实我自己也不知道,在Stable Diffusion webui中是否支持这种混合语句的套用,更不知道将这样套用的混合语句填写入脚本(Script)功能处,是不是还能依照我的预期生效。不过至少看起来填入之后,产生了不同的画面表现。我来介绍一下其中最难的一个吧:[3D:[3D:pixel art]:0.2]。
要说难也不是很难,这个语句就是[A:B:m]内嵌[C:D]语句。具体来说,就是前20%的步骤执行3D,后80%的步骤逐步交替执行3D与pixel art。
我之所以要把3D放在开头20%的步骤执行,是因为开头的步骤往往决定了整个画面的内容布局排版。就像我在之前的文章《使用StableDiffusion的基本文生图功能绘制大致相同角色的不同表情绘图》中所展示的那样。
下面来看看比较结果(以下各对比表之间,除了随机数种子不同外,还有2个wildcards类随机抽卡元素fantasy_world_job以及fantasy_world_places的不同,不过这两个wildcards中的单词应该不会影响画面表现吧……)
经过简单比较和观察可以看到,左右两列的3D和pixel art各自代表着非融合的两个典型。pixel art那一行的背景图倾向于呈现出平面的背景,平行于观察者的视觉平面(但并非都是如此),而带有3D的那几个替换提示词往往更容易表现出俯瞰、仰视等3D游戏常见而像素风格游戏不常见的视角表达。这正符合了我写替换提示词的预期:在多个步骤的早期阶段被执行的提示词,往往对于决定整个画面内容的布局起到了关键性作用,而靠后步骤的提示词则往往起到修饰作用。
另外我还注意到中间那一列(即使用了[3D:pixel art:0.2]来替换的那一列)所产生的图片往往其色彩表现往往偏暗,且略有杂色,甚至有一种不明快的阴郁感。这个我还没想好怎么解释。
总之,这一次的比较就先到这里啦。你喜欢哪一种混合语句提示词?