0


【GitHub】VQGAN+CLIP代码从零开始复现

论文地址

GitHub地址

论文讲解

从开放领域的文本提示中生成和编辑图像是一项具有挑战性的任务,到目前为止,需要昂贵的和经过专门训练的模型。我们为这两项任务展示了一种新的方法,它能够通过使用多模态编码器来指导图像的生成,从具有显著语义复杂性的文本提示中产生高视觉质量的图像,而无需任何训练。我们在各种任务上证明了使用CLIP来指导VQGAN产生的视觉质量比之前不太灵活的方法如minDALL-E、GLIDE和Open-Edit更高。

代码复现

1.创建conda环境并激活进入

conda create --name vqgan python=3.9
conda activate vqgan

2.安装pytorch

两种方法:

(1)通过镜像下载

添加中科大镜像源:

conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
 
conda config --set show_channel_urls yes
 

添加镜像之后,直接利用中科大源进行pip下载:

pip3 install torch torchvision torchaudio -i https://pypi.mirrors.ustc.edu.cn/simple/

(2)vpn下载

挂上vpn后直接运行:

注意:我使用的是3090显卡,所以cuda版本要求11.3以上(建议是11.6)

conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge

3.安装环境依赖

这里默认会下载一次最新的torch(目前是1.12.1),如果上一步安装的不是1.12.1可能会再下载一次torch

pip install ftfy regex tqdm omegaconf pytorch-lightning IPython kornia imageio imageio-ffmpeg einops torch_optimizer setuptools==59.5.0

4.在git上克隆VQGAN-CLIP,cd到VQGAN-CLIP文件夹下再克隆CLIP和VQGAN

git clone 'https://github.com/nerdyrodent/VQGAN-CLIP'
cd VQGAN-CLIP
git clone 'https://github.com/openai/CLIP'
git clone 'https://github.com/CompVis/taming-transformers'

5.运行download_models.sh脚本文件下载基于imagnet的VQGAN预训练模型

(1)先给download_models.sh脚本添加权限:

chmod u+x download_models.sh

(2)运行download_models.sh,下载预训练模型

./download_models.sh

6.运行generate.py

python generate.py -p "A painting of an apple in a fruit bowl"
标签: java 开发语言

本文转载自: https://blog.csdn.net/zcyzcyjava/article/details/127428412
版权归原作者 nocol. 所有, 如有侵权,请联系我们删除。

“【GitHub】VQGAN+CLIP代码从零开始复现”的评论:

还没有评论