Spark-CoreNLP 项目推荐
spark-corenlp Stanford CoreNLP wrapper for Apache Spark 项目地址: https://gitcode.com/gh_mirrors/sp/spark-corenlp
项目基础介绍和主要编程语言
Spark-CoreNLP 是一个开源项目,旨在将斯坦福大学的核心自然语言处理(CoreNLP)工具集成到 Apache Spark 中。该项目的主要编程语言是 Scala,它充分利用了 Scala 在数据处理和函数式编程方面的优势,使得 CoreNLP 的功能可以高效地在大规模数据集上运行。
项目核心功能
Spark-CoreNLP 项目提供了多种自然语言处理功能,这些功能可以通过 Spark DataFrame 函数的形式进行调用。以下是一些核心功能:
- XML 清理:
cleanxml
函数可以清理文档中的 XML 标签,返回干净的文本内容。 - 分词:
tokenize
函数将句子分解为单词。 - 句子分割:
ssplit
函数将文档分割成句子。 - 词性标注:
pos
函数生成句子的词性标签。 - 词形还原:
lemma
函数生成单词的词形。 - 命名实体识别:
ner
函数生成句子的命名实体标签。 - 依存句法分析:
depparse
函数生成句子的语义依赖关系,并返回一个扁平化的关系元组列表。 - 指代消解:
coref
函数生成文档中的指代链,并返回一个包含提及的链元组列表。 - 自然逻辑:
natlog
函数生成句子中每个词的自然逻辑极性,返回为“up”、“down”或“flat”。 - 开放信息抽取:
openie
函数生成开放信息抽取三元组,返回为扁平化的(主体、关系、目标、置信度)元组列表。 - 情感分析:
sentiment
函数测量输入句子的情感,返回一个从 0(强烈负面)到 4(强烈正面)的情感评分。
项目最近更新的功能
截至最新更新,Spark-CoreNLP 项目的主要更新包括:
- 依赖项管理:由于 CoreNLP 依赖于 protobuf-java 3.x,而 Spark 2.4 依赖于 protobuf-java 2.x,项目发布了一个包含 CoreNLP 及其传递依赖项的装配 jar 包,除了 protobuf-java 被遮蔽外。这可能在使用时引起一些问题,因此需要特别注意。
- 语言模型支持:用户需要下载并包含 CoreNLP 语言模型 jar 包,以使用语言模型。
- 示例笔记本:对于 Databricks 用户,提供了一个示例笔记本,指导用户如何使用该项目。
通过这些更新,Spark-CoreNLP 项目在集成 CoreNLP 和 Spark 方面更加稳定和高效,为用户提供了更强大的自然语言处理能力。
spark-corenlp Stanford CoreNLP wrapper for Apache Spark 项目地址: https://gitcode.com/gh_mirrors/sp/spark-corenlp
版权归原作者 凌朦慧Richard 所有, 如有侵权,请联系我们删除。