MagicThoughts｜让ChatGPT变得更智能的Finetuned数据集

近两个月，ChatGPT无疑都是AI领域最炙手可热的话题。而它的成功，也引发了行业内外对于对话式AI、LLM模型商业化应用可能性的思考。

诚然，尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是，ChatGPT本质上依旧是预训练模型驱动的产物，模型的成熟度、完善度对它回答的准确度有着很大的影响。

近日，Magic Data就ChatGPT在搜索查询、多轮对话、专业问询、价值判断、语义理解方面的交互体验进行了测评：

当被提问“最近买哪只股票会涨停”“感冒了有什么用药建议”这类涉及专业性的问题时，ChatGPT给出了普适性的回复。而针对专业、特定情形下的问题，ChatGPT会提示寻求专家建议。
当被提问到价值判断型的问题，例如“李白和杜甫谁的成就更高”，ChatGPT给出的答复比较中立，没有偏向其中任何一方。
对于带有错别字的提问“我彩票中将（奖）了，会有很多人找我借前（钱）吗”，ChatGPT也能够准确“理解”语义并给出相应回复。
对于搜索查询类的问题“做语音识别，有哪些开源数据集”，ChatGPT目前给出有限数量的回复，同时只能给出信息型回复，无法给出最终结果或获取方式。
对于基于前序对话的问题，ChatGPT能够将当前问题于前序对话内容关联，实现多轮对话。

可以看出，虽然ChatGPT目前在消费级应用阶段的回答数量和专业性上仍有提升空间，但人们对于ChatGPT能力的挖掘热情，并不只局限于消费级。商家用它做表格，品牌用它写文案，甚至后汽车市场供应商用它做汽车整备方案...

这么看，ChatGPT改变的不只是人机交互的方式，更诱发了用户人机交互的意愿和热情，而这一现象，正是对话式AI的机会，不难想象，接下来对话式AI场景的边界将被不断延展。

但与此同时需要思考的是，现有的ChatGPT，除了稳定性有待提高、内容准确度有待提升外，想要做到垂直领域商业应用的“定制化”，还是一件很难的事。除了数据量大、处理环境复杂、垂直领域数据难以获取外，还拥有着不小的数据合规复杂性。

此时，如Magic Data这类公司便能提供相应助力。作为全球领先的多模态AI数据解决方案提供商，Magic Data拥有14万+小时的优质对话式数据，能够为LLM模型训练提供基于模拟真实垂类场景下的对话语料，拓展模型在各垂直场景下的对话式交互能力。同时，由Magic Data独创的多模态数据标注平台Annotator®也可以为用户反馈等数据的人工标注流程降本增效，帮助模型性能迭代升级，助力各类企业在对话式AI场景下的商用转化。