《基于人工智能的问题回答（QA）帮助分析自然语言的需求》论文笔记

背景：由于预先用自然语言（NL）编写，需求容易出现各种缺陷：不一致和不完整

解决方法：QAssist -问答，提供自动化的援助

不完整：应定期计算航天器的湿质量（具体频率）

不一致：导航摄像系统应仅用于探测慧星核/ 航天器应使用导导航摄像系统进行小行星探测

QAssist：

QAssist将NL中提出的问题作为输入，在文档集合中将可能包含问题答案的文本段落列表作为输出返回。

QAssist采用自然语言处理（NLP）来检索两个相关文本段落列表：一个来自软件需求规格
SRS，另一个来自特定领域的语料库。在每一段中，所提问题的可能答案都被突出显示。当特定领域的语料库不存在时，QAssist会自动构建一个，使用给定SRS中出现的短语作为种子术语。

QA解决方案分两个阶段工作，信息检索（IR）与机器阅读理解(MRC）

信息检索(IR)：

IR方法被设计为根据文档与查询的相关性对文档进行排名，传统的检索方法包括词频-逆文档频（TF-IDF）和Okapi最佳匹配（BM 25）。

** TF-IDF**根据其在文档中的出现频率相对于其在整个文档集合中的频率，为文档中出现的每个术语分配复合权重。

词频 TF(w,d)=词w在文档d中出现次数/文档d的总词语数

   逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大，表示词语在整个文档集合中越不常见，因此在文档中的重要性越高。

**逆文档频率 **IDF(w,D)=ln（文档集合D中的总文档数/（包含词w的文档数+1））

$TF-IDF(w,d,D)=TF(w,d)\times IDF(w,D)$

   这些权重用于将文本序列转换为数学向量。在此之后，查询和文档都被表示为向量，查询被视为（短）文档。使用相似性度量来计算相关性。

BM 25是使用相关性反馈来改进TF-IDF权重的概率模型,BM 是Best Match最佳匹配的缩写，25指的是第25次算法迭代。

**机器阅读理解MRC: **模型从文本段落中提取给定问题的可能答案，MRC通常使用预先训练的语言模型

**Language Models (LMs)： **LM在大量文本上进行预训练，以学习上下文信息，语言的语义，以及单词之间的句法和语义关系。可以通过微调LM来使用这些学习到的知识来解决下游NLP任务。

方法：

**step1: **计算q与D中每个文档之间的相关性，从所得到的排序列表中，选择最相关的c个文档。

**step2:**分别拆分给定的SRS和最相关的语料库文档d，自动生成文本段落的两个列表TS和TD。

**step3:**与从每个TS和TD中找到与q最相关的k个文本段落。我们分别用RS和RD表示

**step4:**应用READER从RS和RD中的每个文本段落中提取一个可能的答案。可能的答案在中突出显示，并与RS和RD一起作为QAssist的输出呈现。

QA实现：使用Transformers 3.0.1库实现了NLP管道（包括分词器和句子分割器）。

             使用Scikitlearn 1.0.2 实现了传统的IR方法和TF-IDF矢量化， 

             使用BM 25 0.2.2库实现了BM 25。 

             语言模型包括来自BeIR 的基于IR的模型DistilBERT-base-tas-b和MiniLM-L-12-v2以及来自HuggingFace 的基于MRC的模型ALBERT-large v1.0，BERT-large-uncased，DistilBERT-basecased，ELECTRA-base，MiniLM-uncased和RoBERTa-base。 

            使用Wikipedia 1.4.0库提取维基百科的语料库。 

            使用NLTK 3.2.5 来预处理SRS和语料库文档中的文本进行问题生成。  

            应用T5-base-question-generator和BERT-base-cased-qaevaluator自动生成和评估问答对。这两个模型都来自HuggingFace。

REQuestA（QA数据集）：

** **三个应用领域：航空航天，国防和安全

    REQuestA中的问题和答案来自两个不同的来源：输入SRS和围绕输入SRS的内容自动创建的域特定语料库。 

    问题-答案对列表生成： 

    (a)预处理：目标是识别一组概念，这些概念在下一步中用于分析输入SRS的域。应用了REGICE。 

   (b)领域分析：目标是构建一个最小的特定领域语料库。使用SRS提取的概念：为每个概念计算TF-IDF分数，删除任何通用概念，按照TF-IDF分数的降序对概念进行排序，并选择前50个概念，将这些概念称为关键字使用每个关键字查询Wikipedia并找到匹配的文章，从匹配的文章中随机选择一个子集用于下一步。 

   (c)拆分：将SRS和Wikipedia文章自动拆分为一组文本段落。 

   (d)答案对生成：给予一段文字作为QG模型的输入，该模型首先从文章中提取一个随机答案，然后自动生成一个相应的问题。

研究问题：

RQ1：哪个检索器在查找与给定问题最相关的文本时具有最高的准确性？

** EXPI：**

      评估了四种替代RETRIEVERS： 

              传统的RETRIEVERS TF-IDF 

              BM 25 

              DistilBERT密集RETRIEVER 

              将BM 25与MiniLM交叉编码器配对的重新排序RETRIEVER 

      使用IR文献中常用的两个评估指标： 

              recall@k（R@k），评估包含给定问题（q）的正确答案的文档（或文本段落）是否在由检索器产生的前k个文档（或段落）的排名列表中。 

              归一化的贴现累积增益@k（nDCG@k），不仅考虑相关文档（或段落）的存在，而且考虑其排名。 

      结果： 

   BM 25是最好的文档检索器，具有完美的召回率，重新排序RETRIEVER是最好的段落检索器。

RQ2：哪个阅读器（READERS）在提取给定问题的可能答案时产生最准确的结果？

** EXPII：**

      替代READERS：ALBERT，BERT，DistilBERT，ELECTRA，MiniLM和RoBERTa。 

      使用准确度（A）来比较READERS的表现，准确度（A）计算为READERS正确回答的问题数除以问题总数。 

     结果：ALBERT提供了最好的整体权衡

RQ3：QAssist是否在实际时间内运行？（是否能正常应用）

**与广泛搜索引擎（google...）的比较:**专业和专有材料领域QA更佳

标签：人工智能

本文转载自: https://blog.csdn.net/shenghuo12582/article/details/135912365
版权归原作者 shenghuo12582 所有，如有侵权，请联系我们删除。

《基于人工智能的问题回答（QA）帮助分析自然语言的需求》论文笔记

发表评论

“《基于人工智能的问题回答（QA）帮助分析自然语言的需求》论文笔记”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航