论文地址
GitHub地址
论文讲解
从开放领域的文本提示中生成和编辑图像是一项具有挑战性的任务,到目前为止,需要昂贵的和经过专门训练的模型。我们为这两项任务展示了一种新的方法,它能够通过使用多模态编码器来指导图像的生成,从具有显著语义复杂性的文本提示中产生高视觉质量的图像,而无需任何训练。我们在各种任务上证明了使用CLIP来指导VQGAN产生的视觉质量比之前不太灵活的方法如minDALL-E、GLIDE和Open-Edit更高。
代码复现
1.创建conda环境并激活进入
conda create --name vqgan python=3.9
conda activate vqgan
2.安装pytorch
两种方法:
(1)通过镜像下载
添加中科大镜像源:
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
添加镜像之后,直接利用中科大源进行pip下载:
pip3 install torch torchvision torchaudio -i https://pypi.mirrors.ustc.edu.cn/simple/
(2)vpn下载
挂上vpn后直接运行:
注意:我使用的是3090显卡,所以cuda版本要求11.3以上(建议是11.6)
conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge
3.安装环境依赖
这里默认会下载一次最新的torch(目前是1.12.1),如果上一步安装的不是1.12.1可能会再下载一次torch
pip install ftfy regex tqdm omegaconf pytorch-lightning IPython kornia imageio imageio-ffmpeg einops torch_optimizer setuptools==59.5.0
4.在git上克隆VQGAN-CLIP,cd到VQGAN-CLIP文件夹下再克隆CLIP和VQGAN
git clone 'https://github.com/nerdyrodent/VQGAN-CLIP'
cd VQGAN-CLIP
git clone 'https://github.com/openai/CLIP'
git clone 'https://github.com/CompVis/taming-transformers'
5.运行download_models.sh脚本文件下载基于imagnet的VQGAN预训练模型
(1)先给download_models.sh脚本添加权限:
chmod u+x download_models.sh
(2)运行download_models.sh,下载预训练模型
./download_models.sh
6.运行generate.py
python generate.py -p "A painting of an apple in a fruit bowl"
版权归原作者 nocol. 所有, 如有侵权,请联系我们删除。