背景:由于预先用自然语言(NL)编写,需求容易出现各种缺陷:不一致和不完整
解决方法:QAssist -问答,提供自动化的援助
不完整:应定期计算航天器的湿质量(具体频率)
不一致:导航摄像系统应仅用于探测慧星核/ 航天器应使用导导航摄像系统进行小行星探测
QAssist:
QAssist将NL中提出的问题作为输入,在文档集合中将可能包含问题答案的文本段落列表作为输出返回。
QAssist采用自然语言处理(NLP)来检索两个相关文本段落列表:一个来自软件需求规格
SRS,另一个来自特定领域的语料库。在每一段中,所提问题的 可能答案都被突出显示。当特定领域的语料库不存在时,QAssist会自动构建一个,使用给定SRS中出现的短语作为种子术语。
QA解决方案分两个阶段工作,信息检索(IR)与机器阅读理解(MRC)
信息检索(IR):
IR方法被设计为根据文档与查询的相关性对文档进行排名,传统的检索方法包括词频-逆文档频(TF-IDF)和Okapi最佳匹配(BM 25)。
** TF-IDF**根据其在文档中的出现频率相对于其在整个文档集合中的频率,为文档中出现的每个术语分配复合权重。
词频 TF(w,d)=词w在文档d中出现次数/文档d的总词语数
逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大,表示词语在整个文档集合中越不常见,因此在文档中的重要性越高。
**逆文档频率 **IDF(w,D)=ln(文档集合D中的总文档数/(包含词w的文档数+1))
这些权重用于将文本序列转换为数学向量。在此之后,查询和文档都被表示为向量,查询被视为(短)文档。使用相似性度量来计算相关性。
BM 25是使用相关性反馈来改进TF-IDF权重的概率模型,BM 是Best Match最佳匹配的缩写,25指的是第25次算法迭代。
**机器阅读理解MRC: **模型从文本段落中提取给定问题的可能答案,MRC通常使用预先训练的语言模型
**Language Models (LMs): **LM在大量文本上进行预训练,以学习上下文信息,语言的语义,以及单词之间的句法和语义关系。可以通过微调LM来使用这些学习到的知识来解决下游NLP任务。
方法:
**step1: **计算q与D中每个文档之间的相关性,从所得到的排序列表中,选择最相关的c个文档。
**step2:**分别拆分给定的SRS和最相关的语料库文档d,自动生成文本段落的两个列表TS和TD。
**step3:**与从每个TS和TD中找到与q最相关的k个文本段落。我们分别用RS和RD表示
**step4:**应用READER从RS和RD中的每个文本段落中提取一个可能的答案。可能的答案在中突出显示,并与RS和RD一起作为QAssist的输出呈现。
QA实现:使用Transformers 3.0.1库实现了NLP管道(包括分词器和句子分割器)。
使用Scikitlearn 1.0.2 实现了传统的IR方法和TF-IDF矢量化,
使用BM 25 0.2.2库实现了BM 25。
语言模型包括来自BeIR 的基于IR的模型DistilBERT-base-tas-b和MiniLM-L-12-v2以及来自HuggingFace 的基于MRC的模型ALBERT-large v1.0,BERT-large-uncased,DistilBERT-basecased,ELECTRA-base,MiniLM-uncased和RoBERTa-base。
使用Wikipedia 1.4.0库提取维基百科的语料库。
使用NLTK 3.2.5 来预处理SRS和语料库文档中的文本进行问题生成。
应用T5-base-question-generator和BERT-base-cased-qaevaluator自动生成和评估问答对。这两个模型都来自HuggingFace。
REQuestA(QA数据集):
** **三个应用领域:航空航天,国防和安全
REQuestA中的问题和答案来自两个不同的来源:输入SRS和围绕输入SRS的内容自动创建的域特定语料库。
问题-答案对列表生成:
(a)预处理:目标是识别一组概念,这些概念在下一步中用于分析输入SRS的域。应用了REGICE。
(b)领域分析:目标是构建一个最小的特定领域语料库。使用SRS提取的概念:为每个概念计算TF-IDF分数,删除任何通用概念,按照TF-IDF分数的降序对概念进行排序,并选择前50个概念,将这些概念称为关键字使用每个关键字查询Wikipedia并找到匹配的文章,从匹配的文章中随机选择一个子集用于下一步。
(c)拆分:将SRS和Wikipedia文章自动拆分为一组文本段落。
(d)答案对生成:给予一段文字作为QG模型的输入,该模型首先从文章中提取一个随机答案,然后自动生成一个相应的问题。
研究问题 :
RQ1:哪个检索器在查找与给定问题最相关的文本时具有最高的准确性?
** EXPI:**
评估了四种替代RETRIEVERS:
传统的RETRIEVERS TF-IDF
BM 25
DistilBERT密集RETRIEVER
将BM 25与MiniLM交叉编码器配对的重新排序RETRIEVER
使用IR文献中常用的两个评估指标:
recall@k(R@k),评估包含给定问题(q)的正确答案的文档(或文本段落)是否在由检索器产生的前k个文档(或段落)的排名列表中。
归一化的贴现累积增益@k(nDCG@k),不仅考虑相关文档(或段落)的存在,而且考虑其排名。
结果:
BM 25是最好的文档检索器,具有完美的召回率,重新排序RETRIEVER是最好的段落检索器。
RQ2:哪个阅读器(READERS)在提取给定问题的可能答案时产生最准确的结果?
** EXPII:**
替代READERS:ALBERT,BERT,DistilBERT,ELECTRA,MiniLM和RoBERTa。
使用准确度(A)来比较READERS的表现,准确度(A)计算为READERS正确回答的问题数除以问题总数。
结果:ALBERT提供了最好的整体权衡
RQ3:QAssist是否在实际时间内运行?(是否能正常应用)
**与广泛搜索引擎(google...)的比较:**专业和专有材料领域QA更佳
版权归原作者 shenghuo12582 所有, 如有侵权,请联系我们删除。