Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模型相比都具有显著优势。此外,Kolors 还支持中文和英文输入,在理解和生成中文特定内容方面表现出色。更多详情,请参阅本技术报告。
在SD3中采用了T5来实现文本和图像之间的转换,而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模型采用DiT的架构,它则继续沿用sdxl的vae架构,估计DreamBooth和Lora稍加修改就可以适配它的微调
人工评估
在人工评估方面,我们邀请了 50 位图像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分:视觉吸引力、文本忠实度和总体满意度。在评估中,Kolors 的总体满意度得分最高,在视觉吸引力方面也明显领先于其他模型。
Model总体满意度平均值视觉效果平均值文字忠实度平均值Adobe-Firefly3.033.463.84Stable Diffusion 33.263.504.20DALL-E 33.323.544.22Midjourney-v53.323.684.02Playground-v2.53.373.734.04Midjourney-v63.583.924.18Kolors3.593.99****4.17
机器评估
我们使用 KolorsPrompts 的 MPS(多维人类偏好分数)作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
ModelsOverall MPSAdobe-Firefly8.5Stable Diffusion 38.9DALL-E 39.0Midjourney-v59.4Playground-v2.59.8Midjourney-v610.2Kolors****10.3
Quick Start
要求
- Python 3.8 或更高版本
- PyTorch 1.13.1 或更高版本
- Transformers 4.26.1 或更高版本
- 建议使用CUDA 11.7 或更高版本
版本库克隆和依赖安装:
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
Weights 下载:
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
推理
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"
本地测试结果
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!
版权归原作者 吴脑的键客 所有, 如有侵权,请联系我们删除。