【国产AI绘图】快手把“可图”大模型开源了，这是一款支持中文的SDXL模型

Kolors 是由 Kuaishou Kolors 团队（快手可图）开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练，Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面，与开源和专有模型相比都具有显著优势。此外，Kolors 还支持中文和英文输入，在理解和生成中文特定内容方面表现出色。更多详情，请参阅本技术报告。

在这里插入图片描述

在SD3中采用了T5来实现文本和图像之间的转换，而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模型采用DiT的架构，它则继续沿用sdxl的vae架构，估计DreamBooth和Lora稍加修改就可以适配它的微调

人工评估

在人工评估方面，我们邀请了 50 位图像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分：视觉吸引力、文本忠实度和总体满意度。在评估中，Kolors 的总体满意度得分最高，在视觉吸引力方面也明显领先于其他模型。
Model总体满意度平均值视觉效果平均值文字忠实度平均值Adobe-Firefly3.033.463.84Stable Diffusion 33.263.504.20DALL-E 33.323.544.22Midjourney-v53.323.684.02Playground-v2.53.373.734.04Midjourney-v63.583.924.18Kolors3.593.99****4.17

机器评估

我们使用 KolorsPrompts 的 MPS（多维人类偏好分数）作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数，这与人工评估的结果一致。
ModelsOverall MPSAdobe-Firefly8.5Stable Diffusion 38.9DALL-E 39.0Midjourney-v59.4Playground-v2.59.8Midjourney-v610.2Kolors****10.3
在这里插入图片描述

Quick Start

要求

Python 3.8 或更高版本
PyTorch 1.13.1 或更高版本
Transformers 4.26.1 或更高版本
建议使用CUDA 11.7 或更高版本

版本库克隆和依赖安装：

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

Weights 下载：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

或

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推理

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"

本地测试结果
在这里插入图片描述
感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

标签：人工智能 AI作画 agi

本文转载自: https://blog.csdn.net/weixin_41446370/article/details/140244856
版权归原作者 吴脑的键客 所有，如有侵权，请联系我们删除。

【国产AI绘图】快手把“可图”大模型开源了，这是一款支持中文的SDXL模型

人工评估

机器评估

Quick Start

要求

版本库克隆和依赖安装：

Weights 下载：

推理

发表评论

“【国产AI绘图】快手把“可图”大模型开源了，这是一款支持中文的SDXL模型”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航