0


Spark-CoreNLP 项目推荐

Spark-CoreNLP 项目推荐

spark-corenlp Stanford CoreNLP wrapper for Apache Spark 项目地址: https://gitcode.com/gh_mirrors/sp/spark-corenlp

项目基础介绍和主要编程语言

Spark-CoreNLP 是一个开源项目,旨在将斯坦福大学的核心自然语言处理(CoreNLP)工具集成到 Apache Spark 中。该项目的主要编程语言是 Scala,它充分利用了 Scala 在数据处理和函数式编程方面的优势,使得 CoreNLP 的功能可以高效地在大规模数据集上运行。

项目核心功能

Spark-CoreNLP 项目提供了多种自然语言处理功能,这些功能可以通过 Spark DataFrame 函数的形式进行调用。以下是一些核心功能:

  1. XML 清理cleanxml 函数可以清理文档中的 XML 标签,返回干净的文本内容。
  2. 分词tokenize 函数将句子分解为单词。
  3. 句子分割ssplit 函数将文档分割成句子。
  4. 词性标注pos 函数生成句子的词性标签。
  5. 词形还原lemma 函数生成单词的词形。
  6. 命名实体识别ner 函数生成句子的命名实体标签。
  7. 依存句法分析depparse 函数生成句子的语义依赖关系,并返回一个扁平化的关系元组列表。
  8. 指代消解coref 函数生成文档中的指代链,并返回一个包含提及的链元组列表。
  9. 自然逻辑natlog 函数生成句子中每个词的自然逻辑极性,返回为“up”、“down”或“flat”。
  10. 开放信息抽取openie 函数生成开放信息抽取三元组,返回为扁平化的(主体、关系、目标、置信度)元组列表。
  11. 情感分析sentiment 函数测量输入句子的情感,返回一个从 0(强烈负面)到 4(强烈正面)的情感评分。

项目最近更新的功能

截至最新更新,Spark-CoreNLP 项目的主要更新包括:

  1. 依赖项管理:由于 CoreNLP 依赖于 protobuf-java 3.x,而 Spark 2.4 依赖于 protobuf-java 2.x,项目发布了一个包含 CoreNLP 及其传递依赖项的装配 jar 包,除了 protobuf-java 被遮蔽外。这可能在使用时引起一些问题,因此需要特别注意。
  2. 语言模型支持:用户需要下载并包含 CoreNLP 语言模型 jar 包,以使用语言模型。
  3. 示例笔记本:对于 Databricks 用户,提供了一个示例笔记本,指导用户如何使用该项目。

通过这些更新,Spark-CoreNLP 项目在集成 CoreNLP 和 Spark 方面更加稳定和高效,为用户提供了更强大的自然语言处理能力。

spark-corenlp Stanford CoreNLP wrapper for Apache Spark 项目地址: https://gitcode.com/gh_mirrors/sp/spark-corenlp

标签:

本文转载自: https://blog.csdn.net/gitblog_00235/article/details/143764793
版权归原作者 凌朦慧Richard 所有, 如有侵权,请联系我们删除。

“Spark-CoreNLP 项目推荐”的评论:

还没有评论