CSDN-AI小组2023-半年-研发总结

时隔6个月，做为一个技术站点的AI团队，我们能做些什么？大模型和AIGC如火如荼，这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么，则是需要冷静的思考。我们看下我们做了哪些动作，解决了哪些问题。

1.丐版「大模型」，Proof of concept

我们很快意识到，生成式AI已经彻底崛起。作为AI团队，整个技术栈上需要扭转过来，只有掌握技术的原理，才能更好的使用技术。大模型从一开始就是大厂的战场，但是所有做AI研发的，都应该在原理上对其有深刻的一手理解才能立于不败之地。

我们用非常小的成本，挑选了RWKV模型做为基模型，验证了构建垂直大模型的主要技术栈并开源。

ChatCSDN基于RWKV1.5B基模型： https://gitcode.net/csdn/ai/chatcsdn

主要是在RWKV提供的1.5B参数的基础之上，使用CSDN的问答数据和博客数据进行增量预训练，经过指令微调，得到拥有IT行业知识体系的大语言模型。
原始模型参数地址：https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
微调后的模型参数地址：https://huggingface.co/zxm2023/ChatCSDN

在这个基础上，团队有对应的原理和工程实践的博客介绍：

介绍博客地址：https://blog.csdn.net/zxm2015/article/details/130227450
人类反馈强化学习 (RLHF) 博客：https://blog.csdn.net/u010280923/article/details/130283628

从应用的角度。在实际验证了主要技术栈之后，我们就打破了对大模型的迷思。当有新的开源模型的时候，我们也能第一时间对其做评估和验证。符合条件的模型，则可以在被动式AI应用里做集成使用。

2. LLM和AIGC的各种综述

在这里插入图片描述

以应用为目标是AI团队的目标。但是在这个基础上，技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述，包含这些博客：

10分钟了解向量数据库 - 事实上，我们在应用里已经有很多该技术的实战应用。
关于 ChatGPT 必看的 10 篇论文
从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型
NLP 中语言表示 (向量化) 的基本原理和历史演变综述
LLaMA及其子孙模型概述
用LangChain实现一个ChatBlog

3. 基于Embedding的应用，问答，AI编程

实际做AIGC的应用，有两个典型的用途：

回答技术问题
AI编程

其中，基于Embedding的技术是其中的一个重要的模式。大概的示意图如下

在这里插入图片描述

其中，在CSDN问答上，我们做了许多不断改进的迭代，问答机器人在问答周采纳榜单上稳定进入前3.

这里有问答机器人研发介绍

而，AI编程，则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多，人的精力会被更多地解放出来。

4. 评论区的AI助手

如何做基于AIGC的产品功能，则是一个重要的课题。经过思考后的一个设计是：在离用户需求最近的地方支持AI，包含：

CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。

对于@ada 机器人的能力是经过仔细思考的：

你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933，提问者自己是不知道「问题在哪」，而我「懒得打字」（GPT帮我打即可，但是我知道「问题在哪」），我的价值在于，我知道「问题在哪」。从前，答者重“答”，未来，答者重“另一个问”.
解决问题需要「多人」讨论，包括human1, human2, 中间可以夹杂ai1, ai2，AI的加持，人与人的讨论更能聊的下去。
好的问题，公开解决，可以帮助更多人。

有了这个功能，如果你希望在私密的地方使用生成式AI学习，也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。

5. 结合AIGC的各种数据自动计算

技术站点可以做各种榜单。但是在AIGC时代，可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力，不断迭代各种推送榜单。

AI前沿社区
博客之星2023社区
用户的认可页面
将社区里，是“问题类型”的帖子，通过分类器识别后，分类出来并同步到问答。同时社区也支持一个「有问题」列表：

6. 个性化推荐的系统重构

个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍：

[1] 《如何支持研发对CSDN个性化推荐系统重构》
[2] 《CSDN个性化推荐系统的设计和演化》
[3] 《CSDN 个性化推荐的数据治理》
[4] 《CSDN个性化推荐系统-负反馈测试》

在这里插入图片描述

正确反馈的系统，才能有真实的数据，才能解决繁杂的用户和平台需求。

7. 基于AIGC的个性化博客创作鼓励

AIGC时代，我们可以为每个人做个性化的写作鼓励。每个用户写博客，无论是写笔记（学），还是写专栏（教）。都希望获得正向反馈。为此，我们通过一些列的实验为所有的技术写作者服务，这确实体现了成就一亿技术人的理念。

工作3年内博主写作的红包评论鼓励，结合AIGC自动摘要和写作建议。
新人博客前10-20篇博客的AIGC鼓励评论和建议。
资深老博主的AIGC鼓励和建议。

让所有人都自动地获得AIGC的服务，为技术写作者服务，你的技术写作再也不孤单。AIGC评论只是一个催化剂，让博主们更流畅的互相交流，通过写作获得成长是其核心目标。

8. 博客质量分V5: 可解释性计算服务

我们对博客质量分做了一系列的内部分析和实验，包含了：

影响博客质量分的因子的消融指标矩阵分析
影响博客质量分区间分布迁移的小规模和大规模试验分析

通过这些分析，我们改进了博客质量分的计算，近期推出了博客质量分V5，V5版本在解决博客质量可计算方面的能力基础上，进一步增加了可解释性，让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升，这也是平台生态长期良性发展的基石。

我们的同事对此会有独立博客介绍：博客质量分计算——发布 version 5

在这里插入图片描述

9. CSDN统一标签的持续改进

当然，我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类：

能保持最新
准确性靠谱

作为一个技术站点，全的新的技术分类体系和准确性，是打底的能力。

小结

实际做的工作远不止这些，有重大技术突破的时代，是一个最好的时代，希望大家都能走的更远，创造更多好的技术和产品。Be greater than average! 希望能有这个勋章！

在这里插入图片描述

–end–

标签：人工智能

本文转载自: https://blog.csdn.net/huanhuilong/article/details/131440818
版权归原作者 幻灰龙 所有，如有侵权，请联系我们删除。

CSDN-AI小组2023-半年-研发总结

目录

1.丐版「大模型」，Proof of concept

2. LLM和AIGC的各种综述

3. 基于Embedding的应用，问答，AI编程

4. 评论区的AI助手

5. 结合AIGC的各种数据自动计算

6. 个性化推荐的系统重构

7. 基于AIGC的个性化博客创作鼓励

8. 博客质量分V5: 可解释性计算服务

9. CSDN统一标签的持续改进

小结

发表评论

“CSDN-AI小组2023-半年-研发总结”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航