Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。

10行代码给pdf文件去水印

1、引言

小屌丝：鱼哥，最近有点不像话了。
小鱼：嗯？？啥个意思嘛~
小屌丝：一周了，没分享小知识了。
小鱼：就因为这个？？
小屌丝：那是，我这么爱学习的人。
小鱼：怕是你有什么事情解决不了，想到我了吧？
小屌丝：呵 ~ 笑话 ~ 我能有…什…么…事情…
小鱼：说吧，
小屌丝：这可是你让我说的，我可没主动要问的！
小鱼：说吧，咋还磨磨唧唧了呢
小屌丝：我在某站下载的pfd文档，有水印，如何去掉啊？
小鱼：我突然想起来，PPT还没写完。
小屌丝：我家楼下刚开一个烧烤店，据说还不错!
小鱼：PPT写不完，可以晚上写，助人为乐让我更快乐。

在这里插入图片描述

2、代码实战

在上一篇博文，我们知道了如何给pdf文档添加水印，
而本篇，我们就给pdf去水印

如果不知道如何添加水印，就看这篇：《Python3，2段代码，给pdf文件添加水印，原来watermark还可以这么玩。》

小屌丝：你这添加完水印，又去除水印，你这是闹哪样？？
小鱼：我喜欢，我稀罕，我乐意！！

2.1 去除原理

去除方法：

1、用 PyMuPDF 打开 pdf 文件，将 pdf 的每一页都转换为图片 pixmap，
2、pixmap 有它自己的 RGB，只需要将 pdf 水印中的 RGB 改为(255, 255, 255)，并保存图片
3、按照生成的图片，插入到pdf文档中

因为pfd文档无法直接去除水印，需要先将pfd文档转换成图片，在逐一对图片进行水印去除操作，最后在把图片插入到pdf文档中

2.2 代码解析

1、先查看PDF文档中的水印rgb值是多少 在这里插入图片描述
可以看到，RGB(179,179,179)，因为这里要的是RGB色值总和，所以我们就认为，超过510，就认为是水印。

敲黑板

光学三原色是红绿蓝（RGB），也就是说它们是不可分解的三种基本颜色，其他颜色都可以通过这三种颜色混合而成，三种颜色等比例混合就是白色，没有光就是黑色。
在计算机中，可以用三个字节表示 RGB 颜色，1个字节能表示的最大数值是 255，所以，(255, 0, 0)代表红色，(0, 255, 0)代表绿色，(0, 0, 255)代表蓝色。相应地，(255, 255, 255)代表白色，(0, 0, 0)代表黑色。从(0, 0, 0) ~ (255, 255, 255) 之间的任意组合都可以代表一个不同的颜色。
图片每个位置颜色由四元组表示，前三位分别是 RGB，第四位是 Alpha 通道

2、pdf转换成图片，并去除水印
代码示例：

# -*- coding:utf-8 -*-# @Time   : 2022-02-23# @Author : carl_DJfrom PIL import Image
from itertools import product
import fitz

# 去除pdf的水印defremove_pdfwatermark():#打开源pfd文件
    pdf_file = fitz.open("跟小鱼学习去水印.pdf")#page_no 设置为0
    page_no =0#page在pdf文件中遍历for page in pdf_file:#获取每一页对应的图片pix (pix对象类似于我们上面看到的img对象，可以读取、修改它的 RGB)#page.get_pixmap() 这个操作是不可逆的，即能够实现从 PDF 到图片的转换，但修改图片 RGB 后无法应用到 PDF 上，只能输出为图片
        pix = page.get_pixmap()#遍历图片中的宽和高，如果像素的rgb值总和大于510，就认为是水印，转换成255，255,255-->即白色for pos in product(range(pix.width),range(pix.height)):ifsum(pix.pixel(pos[0], pos[1]))>=510:
                pix.set_pixel(pos[0], pos[1],(255,255,255))#保存去掉水印的截图
        pix.pil_save(f"./{page_no}.png", dpi=(30000,30000))#打印结果print(f'第 {page_no} 页去除完成')

        page_no +=1if __name__ =='__main__':
    remove_pdfwatermark()

执行完成，
查看生成图片：
在这里插入图片描述

查看图片内容：
在这里插入图片描述
3、图片转为pdf

代码示例：

# -*- coding:utf-8 -*-# @Time   : 2022-02-23# @Author : carl_DJfrom PIL import Image
from itertools import product
import fitz

''' 图片转为pdf'''#图片所在的文件夹
pic_dir ='D:\Project\watemark'

pdf = fitz.open()#图片数字文件先转换成int类型进行排序
img_files =sorted(os.listdir(pic_dir), key=lambda x:int(str(x).split('.')[0]))for img in img_files:print(img)
    imgdoc = fitz.open(pic_dir +'/'+ img)#将打开后的图片转成单页pdf
    pdfbytes = imgdoc.convertToPDF()
    imgpdf = fitz.open("pdf", pdfbytes)#将单页pdf插入到新的pdf文档中
    pdf.insertPDF(imgpdf)
pdf.save("跟小鱼学习去水印_完成.pdf")
pdf.close()

执行代码，
查看生成的pdf文档
在这里插入图片描述

2.3 代码整合

上面的内容都了解以后，我们就整合代码，直接运行就可以了。

# -*- coding:utf-8 -*-# @Time   : 2022-02-23# @Author : carl_DJfrom PIL import Image
from itertools import product
import fitz

# 去除pdf的水印defremove_pdfwatermark():#打开源pfd文件
    pdf_file = fitz.open("跟小鱼学习去水印.pdf")#page_no 设置为0
    page_no =0#page在pdf文件中遍历for page in pdf_file:#获取每一页对应的图片pix (pix对象类似于我们上面看到的img对象，可以读取、修改它的 RGB)#page.get_pixmap() 这个操作是不可逆的，即能够实现从 PDF 到图片的转换，但修改图片 RGB 后无法应用到 PDF 上，只能输出为图片
        pix = page.get_pixmap()#遍历图片中的宽和高，如果像素的rgb值总和大于510，就认为是水印，转换成255，255,255-->即白色for pos in product(range(pix.width),range(pix.height)):ifsum(pix.pixel(pos[0], pos[1]))>=510:
                pix.set_pixel(pos[0], pos[1],(255,255,255))#保存去掉水印的截图
        pix.pil_save(f"./{page_no}.png", dpi=(30000,30000))#打印结果print(f'第 {page_no} 页去除完成')

        page_no +=1#去除的pdf水印添加到pdf文件中defpictopdf():#水印截图所在的文件夹# pic_dir = input("请输入图片文件夹路径：")
    pic_dir ='D:\Project\watemark'
    
    pdf = fitz.open()#图片数字文件先转换成int类型进行排序
    img_files =sorted(os.listdir(pic_dir), key=lambda x:int(str(x).split('.')[0]))for img in img_files:print(img)
        imgdoc = fitz.open(pic_dir +'/'+ img)#将打开后的图片转成单页pdf
        pdfbytes = imgdoc.convertToPDF()
        imgpdf = fitz.open("pdf", pdfbytes)#将单页pdf插入到新的pdf文档中
        pdf.insertPDF(imgpdf)
    pdf.save("跟小鱼学习去水印_完成.pdf")
    pdf.close()if __name__ =='__main__':
    remove_pdfwatermark()
    pictopdf()

3、总结

写到这里，今天的分享就差不多快结束了。
需要理解的流程是，

pdf文档需要先转换成图片，进行水印去除，
再转换成pdf
最后插入到新的pdf文档中。

关于图片及pdf如何添加水印，可以参照小鱼的这两篇博文：

《Python3，2行代码添加水印》
《Python3，2段代码，给pdf文件添加水印》

关注小鱼博客，带你了解更多更有趣python知识。

标签： python 批量替换

本文转载自: https://blog.csdn.net/wuyoudeyuer/article/details/123084385
版权归原作者 Carl_奕然 所有，如有侵权，请联系我们删除。

Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。

10行代码给pdf文件去水印

1、引言

2、代码实战

2.1 去除原理

2.2 代码解析

2.3 代码整合

3、总结

发表评论

“Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航