【GitHub】VQGAN+CLIP代码从零开始复现

论文地址

GitHub地址

论文讲解

从开放领域的文本提示中生成和编辑图像是一项具有挑战性的任务，到目前为止，需要昂贵的和经过专门训练的模型。我们为这两项任务展示了一种新的方法，它能够通过使用多模态编码器来指导图像的生成，从具有显著语义复杂性的文本提示中产生高视觉质量的图像，而无需任何训练。我们在各种任务上证明了使用CLIP来指导VQGAN产生的视觉质量比之前不太灵活的方法如minDALL-E、GLIDE和Open-Edit更高。

代码复现

1.创建conda环境并激活进入

conda create --name vqgan python=3.9
conda activate vqgan

2.安装pytorch

两种方法：

（1）通过镜像下载

添加中科大镜像源：

conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
 
conda config --set show_channel_urls yes

添加镜像之后，直接利用中科大源进行pip下载：

pip3 install torch torchvision torchaudio -i https://pypi.mirrors.ustc.edu.cn/simple/

（2）vpn下载

挂上vpn后直接运行：

注意：我使用的是3090显卡，所以cuda版本要求11.3以上（建议是11.6）

conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge

3.安装环境依赖

这里默认会下载一次最新的torch（目前是1.12.1），如果上一步安装的不是1.12.1可能会再下载一次torch

pip install ftfy regex tqdm omegaconf pytorch-lightning IPython kornia imageio imageio-ffmpeg einops torch_optimizer setuptools==59.5.0

4.在git上克隆VQGAN-CLIP，cd到VQGAN-CLIP文件夹下再克隆CLIP和VQGAN

git clone 'https://github.com/nerdyrodent/VQGAN-CLIP'
cd VQGAN-CLIP
git clone 'https://github.com/openai/CLIP'
git clone 'https://github.com/CompVis/taming-transformers'

5.运行download_models.sh脚本文件下载基于imagnet的VQGAN预训练模型

（1）先给download_models.sh脚本添加权限：

chmod u+x download_models.sh

（2）运行download_models.sh，下载预训练模型

./download_models.sh

6.运行generate.py

python generate.py -p "A painting of an apple in a fruit bowl"

标签： java 开发语言

本文转载自: https://blog.csdn.net/zcyzcyjava/article/details/127428412
版权归原作者 nocol. 所有，如有侵权，请联系我们删除。

【GitHub】VQGAN+CLIP代码从零开始复现

代码复现

发表评论

“【GitHub】VQGAN+CLIP代码从零开始复现”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航