0


《基于人工智能的问题回答(QA)帮助分析自然语言的需求》论文笔记

背景:由于预先用自然语言(NL)编写,需求容易出现各种缺陷:不一致和不完整

解决方法:QAssist -问答,提供自动化的援助

不完整:应定期计算航天器的湿质量(具体频率)

不一致:导航摄像系统应仅用于探测慧星核/ 航天器应使用导导航摄像系统进行小行星探测

QAssist:

QAssist将NL中提出的问题作为输入,在文档集合中将可能包含问题答案的文本段落列表作为输出返回。

QAssist采用自然语言处理(NLP)来检索两个相关文本段落列表:一个来自软件需求规格
SRS,另一个来自特定领域的语料库。在每一段中,所提问题的 可能答案都被突出显示。当特定领域的语料库不存在时,QAssist会自动构建一个,使用给定SRS中出现的短语作为种子术语。

QA解决方案分两个阶段工作,信息检索(IR)与机器阅读理解(MRC)

信息检索(IR):

IR方法被设计为根据文档与查询的相关性对文档进行排名,传统的检索方法包括词频-逆文档频(TF-IDF)和Okapi最佳匹配(BM 25)。

** TF-IDF**根据其在文档中的出现频率相对于其在整个文档集合中的频率,为文档中出现的每个术语分配复合权重。

词频 TF(w,d)=词w在文档d中出现次数/文档d的总词语数

   逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大,表示词语在整个文档集合中越不常见,因此在文档中的重要性越高。 

    

**逆文档频率 **IDF(w,D)=ln(文档集合D中的总文档数/(包含词w的文档数+1))

TF-IDF(w,d,D)=TF(w,d)\times IDF(w,D)

   这些权重用于将文本序列转换为数学向量。在此之后,查询和文档都被表示为向量,查询被视为(短)文档。使用相似性度量来计算相关性。 

    

BM 25是使用相关性反馈来改进TF-IDF权重的概率模型,BM 是Best Match最佳匹配的缩写,25指的是第25次算法迭代。

**机器阅读理解MRC: **模型从文本段落中提取给定问题的可能答案,MRC通常使用预先训练的语言模型

**Language Models (LMs): **LM在大量文本上进行预训练,以学习上下文信息,语言的语义,以及单词之间的句法和语义关系。可以通过微调LM来使用这些学习到的知识来解决下游NLP任务。

方法:

**step1: **计算q与D中每个文档之间的相关性,从所得到的排序列表中,选择最相关的c个文档。

**step2:**分别拆分给定的SRS和最相关的语料库文档d,自动生成文本段落的两个列表TS和TD。

**step3:**与从每个TS和TD中找到与q最相关的k个文本段落。我们分别用RS和RD表示

**step4:**应用READER从RS和RD中的每个文本段落中提取一个可能的答案。可能的答案在中突出显示,并与RS和RD一起作为QAssist的输出呈现。

QA实现:使用Transformers 3.0.1库实现了NLP管道(包括分词器和句子分割器)。

             使用Scikitlearn 1.0.2 实现了传统的IR方法和TF-IDF矢量化, 

             使用BM 25 0.2.2库实现了BM 25。 

             语言模型包括来自BeIR 的基于IR的模型DistilBERT-base-tas-b和MiniLM-L-12-v2以及来自HuggingFace 的基于MRC的模型ALBERT-large v1.0,BERT-large-uncased,DistilBERT-basecased,ELECTRA-base,MiniLM-uncased和RoBERTa-base。 

            使用Wikipedia 1.4.0库提取维基百科的语料库。 

            使用NLTK 3.2.5 来预处理SRS和语料库文档中的文本进行问题生成。  

            应用T5-base-question-generator和BERT-base-cased-qaevaluator自动生成和评估问答对。这两个模型都来自HuggingFace。 

REQuestA(QA数据集):

** **三个应用领域:航空航天,国防和安全

    REQuestA中的问题和答案来自两个不同的来源:输入SRS和围绕输入SRS的内容自动创建的域特定语料库。 

    问题-答案对列表生成: 

    (a)预处理:目标是识别一组概念,这些概念在下一步中用于分析输入SRS的域。应用了REGICE。 

   (b)领域分析:目标是构建一个最小的特定领域语料库。使用SRS提取的概念:为每个概念计算TF-IDF分数,删除任何通用概念,按照TF-IDF分数的降序对概念进行排序,并选择前50个概念,将这些概念称为关键字使用每个关键字查询Wikipedia并找到匹配的文章,从匹配的文章中随机选择一个子集用于下一步。 

   (c)拆分:将SRS和Wikipedia文章自动拆分为一组文本段落。 

   (d)答案对生成:给予一段文字作为QG模型的输入,该模型首先从文章中提取一个随机答案,然后自动生成一个相应的问题。 

研究问题 :

RQ1:哪个检索器在查找与给定问题最相关的文本时具有最高的准确性?

** EXPI:**

      评估了四种替代RETRIEVERS: 

              传统的RETRIEVERS TF-IDF 

              BM 25 

              DistilBERT密集RETRIEVER 

              将BM 25与MiniLM交叉编码器配对的重新排序RETRIEVER 

      使用IR文献中常用的两个评估指标: 

              recall@k(R@k),评估包含给定问题(q)的正确答案的文档(或文本段落)是否在由检索器产生的前k个文档(或段落)的排名列表中。 

              归一化的贴现累积增益@k(nDCG@k),不仅考虑相关文档(或段落)的存在,而且考虑其排名。 

      结果: 

   BM 25是最好的文档检索器,具有完美的召回率,重新排序RETRIEVER是最好的段落检索器。 

RQ2:哪个阅读器(READERS)在提取给定问题的可能答案时产生最准确的结果?

** EXPII:**

      替代READERS:ALBERT,BERT,DistilBERT,ELECTRA,MiniLM和RoBERTa。 

      使用准确度(A)来比较READERS的表现,准确度(A)计算为READERS正确回答的问题数除以问题总数。 

     结果:ALBERT提供了最好的整体权衡 

RQ3:QAssist是否在实际时间内运行?(是否能正常应用)

**与广泛搜索引擎(google...)的比较:**专业和专有材料领域QA更佳

标签: 人工智能

本文转载自: https://blog.csdn.net/shenghuo12582/article/details/135912365
版权归原作者 shenghuo12582 所有, 如有侵权,请联系我们删除。

“《基于人工智能的问题回答(QA)帮助分析自然语言的需求》论文笔记”的评论:

还没有评论