SDXL的之旅
最新发布的SDXL(Stable Diffusion X Language)要解决更精准地控制它生成我们想要的图片。SDXL理解自然语言描述,并可精确控制Stable Diffusion输出特定风格和内容的图像。只需简单的自然语言,你就可以生成理想中的场景、人物、物体等。
相比于原版Stable Diffusion,SDXL增强了对语义和细节的控制能力。它内置了对各种艺术流派、风格的理解, véritablement你的创意想法变为可视化的图像。从生成写实人像到拟真风景,从印象派绘画到8位像素艺术,SDXL为Stable Diffusion加入了无限可能。
作为Stable Diffusion的升级,SDXL带来了更人性化的交互方式和前所未有的创作精度。想探索这个奇妙工具带来的无限创作乐趣吗? 让我们开始SDXL之旅。
UI的选择
社区上一直关注的都是web UI和comfyUI的比较,我也一样,但我也希望能找到一个结合二者优势的工具,很碰巧,我发现了Fooocus。
然而实际学习过程中我发现很多人误解了fooocus,它的目标好像更大更宏伟,它视为对手的是Stable diffusion和minjourney。
FOOOCUS的自我介绍
Fooocus是一款图像生成软件。
Fooocus是对Stable Diffusion和Midjourney的设计的重新思考:
- 从Stable Diffusion中学到的,该软件是离线的、开源的,而且免费的。
- 从Midjourney中学到的,不需要手动调整,用户只需专注于提示和图像。
Fooocus包含并自动化了许多内部优化和质量改进。用户可以忘记所有那些复杂的技术参数,只需享受人与计算机之间的互动,以“探索思维的新媒体并拓展人类的想象力”[1]。
Fooocus简化了安装过程。在点击“下载”和生成第一张图像之间,所需的鼠标点击次数严格限制在不到3次以内。最低的GPU内存要求是4GB(Nvidia)。
Fooocus还为高级用户开发了许多“Fooocus专属”功能,以获得完美的结果。点击这里浏览高级功能。、
Fooocus的实践
Fooocus的安装
软件的安装非常简单,首先下载对应操作系统的安装文件,软件包大概1.6G,
软件下载 :
Fooocus的启动
直接在解压路径下运行run.bat就行,但是启动时会自动下载几个SDXL的模型文件。因为默认是从huggingface下载,速度较慢,所以建议各位下载好了直接拷贝到.\Fooocus\models\checkpoints的路径下。通过启动下载不仅慢,而且没有断点续传,用下载工具则方便的多。
另外需要注意一点,有些同学之前下载过更新版本的SDXL的base和refiner模型,不想用0.9的模型,那可以直接修改launch.py文件,改成自己版本的就行。找到下面这个代码段,修改就可以了。
model_filenames = [
('sd_xl_base_1.0_0.9vae.safetensors',
'https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors'),
('sd_xl_refiner_1.0_0.9vae.safetensors',
'https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors')
]
Fooocus的自动更新
Fooocus会自动更新,这点大家要注意了。它的run.bat里面首先就是检查自己git是否发布了最新版本,然后更新代码,如果大家不想更新那么快,可以通过修改源码绕过更新。
Fooocus的远程访问
默认情况下,只能本机访问,但是可以修改webui.py来共享你本机的实例,最简单就是修改最后一句话
shared.gradio_root.launch(inbrowser=True, server_name="0.0.0.0", server_port=7880, share=True)
Fooocus的使用
启动完成,会自动弹出访问页面,
为什么这么简洁,看惯了SD的复杂界面,看这个简直有点不知所措。试着来一个,a tiger in the forest.
直观感受,画质非常清晰,理解语义也很准确,不需要反向提示词。再来试试人物的,a chinese girl riding a tiger in ancient myth story
感觉人物面部还是不够精细。来个人像的吧。raw photo, masterpiece, chinese girl , wearing high-class business/working suit, simple background, high-class pure color background, solo, medium shot, high detail face, looking straight into the camera with shoulders parallel to the frame, slim body, photorealistic, best quality
从单独的人物面部效果来看SDXL确实更胜一筹
感觉人物刻画的还不错,但是背景没有达到我们想要的效果。打开高级选项,
发现所有的高级选项都在这里,也看到了fooocus设计的良苦用心。为什么给的是图片尺寸固定模型,从SDXL的官方信息可知,SDXL训练的数据包含以下尺寸,都是1024*1024像素训练的,所以最好还是要和这个像素匹配的分辨率。
改变自己 改变人生:为什么使用SDXL-学习笔记0 赞同 · 0 评论文章编辑
官方建议分辨率,Fooocus其实是做了扩展。2048*512这种太少人用了。
如果你想增加其它的尺寸,也没什么难的,只需要修改\Fooocus\modules\sdxl_styles.py里面943行,这段定义就可以了。
SD_XL_BASE_RATIOS = {
"0.5": (704, 1408),
"0.52": (704, 1344),
"0.57": (768, 1344),
"0.6": (768, 1280),
"0.68": (832, 1216),
......
"4.0": (2048,512) # 我们增加的尺寸
}
setting菜单,设置。
performance性能:速度(优先);质量(优先)
Aspect Ratios (width × height):图片尺寸
Image Number:出图数量
Negative Prompt:反向提示词
Random:随机种子,选中后,可以固定seed值
Style风格
这里面的风格我统计了一下,大概有184个风格可以选择,这里面fooocus的目的是让用户不需要再为风格的关键词来费脑筋,看看几个风格的出图,我们还是老虎为题,只是风格不同,提示词只有个tiger
SAI-3D art
sai-line art
sai-neonpunk
futuristic-biomechanical 未来生物机械
ads-advertising
artstyle-pop art:以大众文化和消费为主题,通过大胆的颜色、图案和扁平化的造型来表现
Macro Photography(摄影技术,主要用于拍摄极小物体的特写照片。这种摄影风格的目标是在高度放大的情况下捕捉物体的微小细节,使观众能够看到平常情况下肉眼无法察觉的细节和纹理)
misc-lovecraftian(恐怖、神秘,科幻元素)
赛博朋克风格的机器
"artstyle-impressionist" 法国印象派艺术风格,如莫奈
game-bubble bobble 泡泡游戏
格斗游戏风格
马里奥游戏风
Terragen(一种专业的3D环境生成和渲染软件。它主要用于创建和渲染高质量的自然环境和风景)
Paper-cut
风格页面的设计我倒觉得Foocus更希望专业美术人可以利用,因为像我这样的技术人员,对于风格的理解都需要通过chatglm这样对话类AI才行。
关于Style的内置prompts
这块是以后SDXL都会通用的模式,利用内置prompts来表示style,这也是基于stable diffusion的AIGC一个发展趋势,大家可以通过学习他们的prompts来提示自己的prompts水平。这个文件是Fooocus\modules\sdxl_styles.py,大家用python编辑器或者其它编辑器可以看一下,是json格式。我给大家展示一部分style的prompts
{
"name": "cinematic-default",
"prompt": "cinematic still {prompt} . emotional, harmonious, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy",
"negative_prompt": "anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured"
},
{
"name": "sai-3d-model",
"prompt": "professional 3d model {prompt} . octane render, highly detailed, volumetric, dramatic lighting",
"negative_prompt": "ugly, deformed, noisy, low poly, blurry, painting"
},
{
"name": "sai-analog film",
"prompt": "analog film photo {prompt} . faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage",
"negative_prompt": "painting, drawing, illustration, glitch, deformed, mutated, cross-eyed, ugly, disfigured"
},
{
"name": "sai-anime",
"prompt": "anime artwork {prompt} . anime style, key visual, vibrant, studio anime, highly detailed",
"negative_prompt": "photo, deformed, black and white, realism, disfigured, low contrast"
},
{
"name": "sai-cinematic",
"prompt": "cinematic film still {prompt} . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy",
"negative_prompt": "anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured"
},
{
"name": "sai-comic book",
"prompt": "comic {prompt} . graphic illustration, comic art, graphic novel art, vibrant, highly detailed",
"negative_prompt": "photograph, deformed, glitch, noisy, realistic, stock photo"
},
{
"name": "sai-craft clay",
"prompt": "play-doh style {prompt} . sculpture, clay art, centered composition, Claymation",
"negative_prompt": "sloppy, messy, grainy, highly detailed, ultra textured, photo"
},
学到了吧,这些prompts拿到sd1.5里面也可以用。这就是所谓的前人栽树后人乘凉。
高级选项
基础模型和refiner模型,可选Loras,有五个。
我在C站找了一个卡通化人物的Lora,文件下载后拷贝到\Fooocus\models\loras目录,点击刷新(Refresh all files)按钮,就可以选择下载的Lora了。
SDXL-Caricaturized-Lora.safetensors出图效果如下。按照给的prompts出图,
无Lora的效果
增加漫画风格Lora的效果
增加了写实照片风格Lora的效果
注意:在C站下载模型,Lora的时候一定要找XL版本的。
最后一个sampling sharpness,作者还在github网站上做了专门的讲解。通过这个数值可以调节图片的细节。
我们来看看对比一下效果,
这是sampling sharpness 分别是6, 10,20的区别,越大细节越多。
总结
今天对于Fooocus的只是粗浅的了解。后面会继续深入学习和了解。从目前直观的感受,Fooocus是比较忠于SDXL的思想的,通过风格化的设定,控制出图预期,减少出图的不可预知性。
版权归原作者 FeMnsword 所有, 如有侵权,请联系我们删除。