0


开源模型应用落地-LangChain实用小技巧-使用各种Loader高效解析不同数据源(七)

一、前言

在 LangChain框架中,提供了Loader机制,以统一的方式来从各种数据源获取数据,使得开发人员可以方便地集成不同类型的数据源,而无需为每种数据源编写特定的加载代码。它可以将不同格式的数据转换为 LangChain 可以处理的统一格式,为后续的文本处理、知识提取和问答等任务提供基础。


二、术语

2.1.LangChain

  1. 是一个全方位的、基于大语言模型这种预测能力的应用开发工具。LangChain的预构建链功能,就像乐高积木一样,无论你是新手还是经验丰富的开发者,都可以选择适合自己的部分快速构建项目。对于希望进行更深入工作的开发者,LangChain 提供的模块化组件则允许你根据自己的需求定制和创建应用中的功能链条。
  2. LangChain本质上就是对各种大模型提供的API的套壳,是为了方便我们使用这些 API,搭建起来的一些框架、模块和接口。

** LangChain的主要特性:**
1.可以连接多种数据源,比如网页链接、本地PDF文件、向量数据库等
2.允许语言模型与其环境交互
3.封装了Model I/O(输入/输出)、Retrieval(检索器)、Memory(记忆)、Agents(决策和调度)等核心组件
4.可以使用链的方式组装这些组件,以便最好地完成特定用例。
5.围绕以上设计原则,LangChain解决了现在开发人工智能应用的一些切实痛点。


**三、前提条件 **

3.1. 基础环境

  1. 操作系统:不限

3.2. 安装虚拟环境

  1. conda create --name langchain python=3.10
  2. conda activate langchain
  3. pip install langchain langchain-community
  4. pip install unstructured[all-docs]==0.13.2

四、技术实现

4.1.加载markdown文本

markdown文件内容:

  1. # 一级标题
  2. 这是一个段落。
  3. 这里可以包含一些**加粗**的文字,一些_*斜体*的文字。
  4. ## 二级标题
  5. 1. 第一项
  6. 2. 第二项
  7. 3. 第三项
  8. ### 三级标题
  9. * 第一项
  10. * 第二项
  11. * 第三项

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import TextLoader
  3. def markdown_loader():
  4. loader = TextLoader("test.md",encoding="utf-8")
  5. docs = loader.load()
  6. # print(len(docs))
  7. for i in range(0,len(docs)):
  8. print(docs[i].page_content)
  9. if __name__ == '__main__':
  10. markdown_loader()

调用结果:

4.2.加载文件目录

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import DirectoryLoader
  3. def directory_loader():
  4. loader = DirectoryLoader(path="E:\\BaiduNetdiskDownload\\", glob="*.md",show_progress=True)
  5. docs = loader.load()
  6. print(docs)
  7. if __name__ == '__main__':
  8. directory_loader()

调用结果:

ps:

  1. 需要下载nltk模型

  2. nltk.download('punkt_tab')

  1. nltk.download('averaged_perceptron_tagger_eng')

4.3.加载html

html文件内容:

  1. <!DOCTYPE html>
  2. <html lang="en">
  3. <head>
  4. <meta charset="UTF-8">
  5. <title>Title</title>
  6. </head>
  7. <body>
  8. <h1>一级标题</h1>
  9. 这是一个段落。<br>
  10. 这里可以包含一些<b></b>加粗</b>的文字,一些<i>斜体</i>的文字。
  11. <h2>二级标题</h2>
  12. <ol>
  13. <li>第一项</li>
  14. <li>第二项</li>
  15. <li>第三项</li>
  16. </ol>
  17. <h3>三级标题</h3>
  18. <ul>
  19. <li>第一项</li>
  20. <li>第二项</li>
  21. <li>第三项</li>
  22. </ul>
  23. </body>
  24. </html>

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import UnstructuredHTMLLoader
  3. def html_loader():
  4. loader = UnstructuredHTMLLoader('test.html')
  5. docs = loader.load()
  6. print(docs)
  7. if __name__ == '__main__':
  8. html_loader()

调用结果:

4.4.加载JSON

安装依赖:

  1. pip install jq

json文件内容:

  1. [
  2. {
  3. "role": "system",
  4. "content": "You are a helpful assistant."
  5. },
  6. {
  7. "role": "user",
  8. "content": "请推荐一些广州的特色景点?"
  9. }
  10. ]

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import JSONLoader
  3. def json_loader():
  4. loader = JSONLoader(
  5. file_path="test.json", jq_schema=".",text_content=False
  6. )
  7. docs = loader.load()
  8. print(docs)
  9. if __name__ == '__main__':
  10. json_loader()

调用结果:

4.5.加载PDF

安装依赖:

  1. pip install pypdf

PDF文件内容:

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import PyPDFLoader
  3. def pdf_loader():
  4. loader = PyPDFLoader(
  5. file_path="E:\\BaiduNetdiskDownload\\ChatGLM分享.pdf"
  6. )
  7. docs = loader.load()
  8. print(docs)
  9. if __name__ == '__main__':
  10. pdf_loader()

调用结果:

4.6.加载CSV

CSV文件内容:

  1. name age
  2. 张三丰 100
  3. 李长生 180

测试代码:

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import CSVLoader
  3. def csv_loader():
  4. loader = CSVLoader(file_path="test.csv",encoding="utf-8")
  5. docs = loader.load()
  6. print(docs)
  7. if __name__ == '__main__':
  8. csv_loader()

调用结果:

4.7.完整示例

  1. # -*- coding: utf-8 -*-
  2. from langchain_community.document_loaders import TextLoader, UnstructuredHTMLLoader, JSONLoader, PyPDFLoader, CSVLoader,DirectoryLoader
  3. def markdown_loader():
  4. loader = TextLoader("test.md", encoding="utf-8")
  5. docs = loader.load()
  6. for i in range(0, len(docs)):
  7. print(docs[i].page_content)
  8. def directory_loader():
  9. loader = DirectoryLoader(path="E:\\BaiduNetdiskDownload\\", glob="*.md", show_progress=True)
  10. docs = loader.load()
  11. print(docs)
  12. def html_loader():
  13. loader = UnstructuredHTMLLoader('test.html')
  14. docs = loader.load()
  15. print(docs)
  16. def json_loader():
  17. loader = JSONLoader(
  18. file_path="test.json", jq_schema=".",text_content=False
  19. )
  20. docs = loader.load()
  21. print(docs)
  22. def pdf_loader():
  23. loader = PyPDFLoader(
  24. file_path="E:\\BaiduNetdiskDownload\\ChatGLM分享.pdf"
  25. )
  26. docs = loader.load()
  27. print(docs)
  28. def csv_loader():
  29. loader = CSVLoader(file_path="test.csv",encoding="utf-8")
  30. docs = loader.load()
  31. print(docs)
  32. if __name__ == '__main__':
  33. csv_loader()

五、附带说明

5.1.问题一:ImportError: failed to find libmagic. Check your installation

解决:

  1. pip uninstall python-magic
  2. pip install python-magic-bin==0.4.14

PS:

python-magic-bin库要与unstructured库兼容,示例中,unstructured使用0.13.2


本文转载自: https://blog.csdn.net/qq839019311/article/details/141568100
版权归原作者 开源技术探险家 所有, 如有侵权,请联系我们删除。

“开源模型应用落地-LangChain实用小技巧-使用各种Loader高效解析不同数据源(七)”的评论:

还没有评论