我构想出了一种功能方法,仅利用StableDiffusion(这里以Automatic1111所开发的WebUI为例)的文生图功能,就能连续产生许多画面内容大体上一致的、不同表情的角色。
效果(以3张图为例):
该种子生成的整体比较图:
简单来说,该构想实现的核心思路就是利用[提示词A:提示词B:百分比]这个语句。
这个语句意味着,假设有提示语句:[A:B:m]在使用StableDiffusion进行作图推理的全部n步(Sampling steps参数)的过程中,前nm100%步骤使用提示词A,在之后的n(1-m)100%步骤使用提示词B。
再用具体的实例来说:以提示语句[expressionless:happy face:0.6]进行40步推理作图。前400.6100%=24步会使用提示词expressionless来进行创作(画出一个无表情的人),后40(1-0.6)100%=16步会使用happy face来进行创作(画出一个高兴表情的人)。
由于在所有的推理步骤中,先计算的步骤对于画面整体构图以及人物整体形象起到了决定性作用,所以之前的步骤一律绘制expressionless,即无表情角色。而在之后的步骤里,则以各种不同的表情的提示词去替代expressionless。这样可以得到整体上大致相同,表情些许不同的一组角色图片。当然,需要指出的是,这里仅仅能做到大致相同,因为该方法既没有用到ContorlNet,也没有用到局部重绘,所以事实上每一步的推理绘图都会把图片整体都进行重新制作。仔细看例图的话,你会发现我这里发出的图,其实每一个小格子的整体画面都是略有差异的。
再配合Automatic1111的WebUI的Script模块中差异对比的功能,就可以此方法,在控制其他变量的情况下,生成每张略微不同表情的图片了。
在本文的例子中,用到的正向提示词是:(masterpiece), ((best quality)), detailed,black background,a bard with musical instrument,(solo),TRPG,8K,RAW,,medieval fantasy world compendium,[expressionless:((((happy face)))):0.4],looking at viewer
有一些还用到了:((loli,mesugaki))或者((noblewoman,lipstick,lady,jewelry))来指定将角色画为萝莉或贵妇。
用到的负面提示词是:(worst quality:1.6),(low quality:1.6), easynegative,extra limbs,(2girls)
使用Script模块中的差异对比Prompt S/R,其中X type给出的差异替换是:happy,bored,excited,angry,sad,crying,eyes closed,thrilled,shyly blushing,winking,ahegao,这些被逗号分隔开来的提示词,将以此替换掉上方正向提示词中的happy一词;而Y type给出的差异替换是:0.4,0.6,0.8,用以尝试在整个生成步骤中,在不同(40%、60%或80%)百分比的时候进行从expressionless到各种表情的切换。
使用该方法要注意一点的是:整个推理过程的步数(Sampling steps)不能太少,否则就会没有足够的剩余步数来修改表情。在我的用例中,Sampling steps设置为40。如果这里的Sampling steps太小,比如只进行20步推理绘图的话,那么但当使用[expressionless:((((happy face)))):0.8]时,用于执行expressionless的为16步骤,用于执行((((happy face))))的为4步——这剩下的4步几乎无法改变什么表情。
另外,虽然我没有自己尝试,不过该方法应该也不会排斥ContorlNet或Lora的使用,也就是说,爱好者可以结合更高级的技术,来使用该方法。
我认为,该构想方法适合于:不想进行太多手工干预调整,希望持续生成图片;而对角色图片的一致性要求也不太高。如果说有什么实际运用情景的话,或许会比较适合TRPG游戏中NPC的肖像图?(GM可以根据玩家不同的反应,给出同一NPC的不同表情图)。
附:提示词注解
提示词 | 注解 |
---|---|
masterpiece | 高质量 |
best quality | 最佳质量 |
detailed | 充满细节 |
black background | 黑色背景 |
a bard with musical instrument | 吟游诗人伴随乐器 |
solo | 单人 |
TRPG | 桌面角色扮演游戏 |
8K | 8K分辨率 |
RAW | 原始照片素材。呃……这个好像多余了 |
medieval fantasy world compendium | 中世纪奇幻世界手册…… 呃,我应该删掉compendium这个词的。之前在做别的内容。 |
expressionless | 无表情 |
face | 脸 |
looking at viewer | 看着观看者 |
loli | 萝莉 |
mesugaki | 雌饿鬼(雌小鬼) |
noblewoman | 贵妇 |
lipstick | 唇膏 |
lady | 女士 |
jewelry | 首饰 |
happy | 高兴 |
bored | 无聊 |
excited | 激动 |
angry | 愤怒 |
sad | 悲伤 |
crying | 哭泣 |
eyes closed | 闭眼 |
thrilled | 震惊 |
shyly blushing | 害羞脸红 |
winking | 闭上单眼眨眼 |
ahegao | アヘ顔 |
本例中用到的模型:Animagine XL V3.1