0


MinerU 0.8.0 环境一键包 (更新WebUI) 使用教程

在这里插入图片描述

介绍

最近发现了一款工具大语言语料处理神器-MinerU, 非常适合在RAG等应用场景中使用, 开源免费

MinerU其中的一个功能是将 PDF 转化为 markdown 格式的工具, 对PDF文档提取的效果目前是市面上效果比较好的, 最新的版本还支持了PDF中表格的识别

MinerU 官方仓库: https://github.com/opendatalab/MinerU

装环境相对麻烦, 为此我制作了Windows系统的环境一键包, 下面就介绍下环境一键包的使用

下载地址

MinerU环境一键包下载地址

链接: https://pan.quark.cn/s/ab68ea646a8c

搞不定环境的可以用这个 里面有使用说明文档(在Windows11正常运行, 其他系统未测, 如有问题, 可以留言)

下载后解压即可

使用之前需要安装里面的cuda, 安装cuda的教程自行百度, 如果已经安装请忽略

如果之前安装有cuda这个报错的, 可以卸载之前的cuda, 安装里边的cuda11.8版本

使用

解压后即可运行
但要注意: 解压的路径最好不要带中文, 或者带空格的文件夹, 以免导致各种疑难杂症

![![[Pasted image 20240928004616.png]]](https://i-blog.csdnimg.cn/direct/e7b383e79c0f4900a4296c848c064b90.png)

点击

运行gradio版.bat

运行gradio网页版

https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样

![![[Pasted image 20240927235713.png]]](https://i-blog.csdnimg.cn/direct/06fa70e3fd1647deb6ee0ce360dc8c7d.png)

点击

运行web版.bat

运行web网页版
功能和 https://opendatalab.com/OpenSourceTools/Extractor/PDF 一样

![![[Pasted image 20240928000055.png]]](https://i-blog.csdnimg.cn/direct/36db220620f24a8cab8a1bc607b01e11.png)

文件说明

目录python为嵌入版的环境, 已经安装了所有依赖

想深入使用, 可以配合官方说明文档使用, 下面是一些简要说明

magic-pdf.json

为配置文件, 使用的方式和官方一样

small_ocr.pdf 

为测试用pdf文件

app.py

为gradio网页在线版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样

运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/python.exe app.py

![![[Pasted image 20240928004825.png]]](https://i-blog.csdnimg.cn/direct/60f3c05f6bcb4a358b51f12d63f3d40b.png)

![![[Pasted image 20240928004923.png]]](https://i-blog.csdnimg.cn/direct/a2176d2bef4746eba1bf040f28bd7a43.png)

demo.py 

为官方运行示例

运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/python.exe demo.py  

如果要对Python环境里边的包进行操作的, 将原有的

pip install xxx

换成

./python/python.exe -m pip install xxx

就可以了

扩展使用

命令行使用

官方的命令使用

magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/Scripts/magic-pdf.exe -p {some_pdf} -o {some_output_dir} -m auto

例如

./python/Scripts/magic-pdf.exe -p small_ocr.pdf

或者路径填magic-pdf.exe所在的绝对路径, 例如

G:/MinerU/python/Scripts/magic-pdf.exe -p small_ocr.pdf

如果包损坏了, 可以通过下面两个命令进行重新下载更新

./python/python.exe -m pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple
./python/python.exe -m pip install -r ./projects/web_demo/requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple

开发使用

在pycharm里环境变量填

python/python.exe

所在目录

![![[Pasted image 20240927201220.png]]](https://i-blog.csdnimg.cn/direct/c4e4ff7a4e714eb5b3a78369d8cbedbd.png)

更新版本

更新命令

./python/python.exe -m pip install --upgrade magic-pdf

更新后需修改文件

python/Lib/site-packages/magic_pdf/libs/config_reader.py

![![[Pasted image 20240927200634.png]]](https://i-blog.csdnimg.cn/direct/666c85535e2a4f81af7e18a26d55681c.png)

把13-14行红框替换为如下代码

# 获取当前目录  
current_dir = os.getcwd()print("当前目录为: ", current_dir)# 定义配置文件名常量  
CONFIG_FILE_NAME = os.path.join(current_dir,"magic-pdf.json")print("配置路径为: ", CONFIG_FILE_NAME)

![![[Pasted image 20240927200809.png]]](https://i-blog.csdnimg.cn/direct/0605fa5dcbe947b79bc6472878e4892e.png)

在69行最用红框处插入如下代码

models_dir = os.path.join(current_dir, models_dir)print(f"模型目录为: {models_dir}")

![![[Pasted image 20240927200927.png]]](https://i-blog.csdnimg.cn/direct/d03c26510a074b81a3adbd25f2451327.png)

![![[Pasted image 20240927201014.png]]](https://i-blog.csdnimg.cn/direct/433b2a46b17049b39ae3f244d55c3285.png)

这样路径才不会报错

标签: python pytorch pdf

本文转载自: https://blog.csdn.net/lokuz/article/details/141962790
版权归原作者 麦飞 所有, 如有侵权,请联系我们删除。

“MinerU 0.8.0 环境一键包 (更新WebUI) 使用教程”的评论:

还没有评论