一文了解人工智能顶会IJCAI 2024的研究热点
本文可视化了人工智能顶会IJCAI 2024的研究热点,归纳和总结了热门研究方向,可以为读者跟踪人工智能的研究热点提供一些有价值的参考。
从“数字毕业生“到“AI领航员“:大语言模型的成长之路
在人工智能的浩瀚宇宙中,大语言模型就像是刚刚走出校门的"数字毕业生"。它们虽然已经吸收了海量的知识,但还需要经历一段特殊的"培训期",才能真正成为能够为人类社会服务的"AI领航员"。让我们一起探索这个神奇的蜕变过程,看看这些数字巨人是如何从懵懂无知到智慧过人的。
JuiceFS 在多云架构中加速大模型推理
下图是一个典型的大模型推理服务的架构。我们可以观察到几个关键特点。首先,架构跨越多个云服务或多个数据中心。目前在大模型领域, GPU 资源紧张,多数厂商或公司倾向于采用多云、多数据中心或混合云的策略来部署他们的推理服务。另一个特点是,为了确保数据一致性和管理的便捷性,会在特定地区选择公有云的对象存储
上海交大洪亮教授:AI 真要突破工程领域,一定要做到现有人类专家做不到的工程成果
与自然界相比,序列相似度全部低于 65%,最低的为 49%,换言之,研究团队对 700 多个氨基酸序列中的 300 多个进行了改造,其中有 23 个有活性,2/3 比野生活性高,最高的野生型达 8.6 倍。在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行
大模型应用——PyCharm添加通义灵码插件
通义灵码:一款基于阿里云通义代码大模型打造的智能编码助手,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/OpenAPI 的使用场景调优,助力开发者编码。
AI大语言模型的温度、top_k等超参数怎么理解
在AI大语言模型中,温度(Temperature)和top_k是两个重要的超参数,它们主要影响模型生成文本时的多样性、创造性以及可控性。
快乐8 Ai大模型XGBoost LightGBM预测系统
随机森林回归:通过集成多个决策树模型,提高预测的准确性和稳定性。XGBoost:一种基于梯度提升的强大模型,擅长处理结构化数据。LightGBM:一种高效的基于决策树算法的分布式梯度提升框架,具有快速的训练速度和低内存消耗。高预测准确率:通过集成多种模型,提供更为精准的预测结果。多种预测方法:支持同
开源免费大语言模型(LLMs)排行榜
发布方模型大小: 7B, 13B, 30B, 65B 参数特点: 高效、轻量级模型,具有良好的推理性能,能在较小的显存上运行较大的模型。优点训练高效,精度优秀在推理时速度快7B 模型对硬件要求较低缺点: 65B 参数模型需要极高的计算资源。最低配置要求7B 参数: 24 GB 显存 GPU(如 A1
面临威胁的人工智能代理综述(AI Agent):关键安全挑战与未来途径综述
术语。为了便于理解,我们在本文中介绍了以下术语。Planningbrainactionwe call it推理是指一种大型语言模型,旨在分析和推断信息,帮助从给定的提示中得出逻辑结论。另一方面,规划表示一个大型语言模型,用于通过评估可能的结果和优化特定目标来帮助设计策略和做出决策。用于计划和推理的L
开源模型应用落地-qwen2-7b-instruct-LoRA微调&模型合并-Axolotl-单机单卡-V100(十)
使用Axolotl合并微调后的模型权重
【大模型RAG】 医疗图谱 RAG:通过图检索增强生成实现安全医疗大型语言模型
我们介绍了一种新颖的基于图的检索增强生成(RAG)框架,专为医疗领域设计,称为 MedGraphRAG,旨在增强大型语言模型(LLM)的能力并生成基于证据的结果,从而在处理私人医疗数据时提高安全性和可靠性。我们的综合流程首先使用混合静态-语义方法对文档进行分块,显著提升了对比传统方法的上下文捕获能力
解读「快意」大模型关键技术,揭秘实践中的挑战与创新
为了提升路由模块预测的准确性和解决上述路由错误导致的expert优化不理想问题,「快意」大模型团队提出了基于训练过程中token梯度分布的自适应错误检测策略,并基于检测的结果,提出了新的路由loss优化方案,最终在多个benchmark的实验上,验证了该方法的有效性。而在预测阶段,由于只训练少量的数
大模型参数——详细介绍
大模型参数——详细介绍
开源模型应用落地-qwen2-7b-instruct-LoRA微调-Axolotl-单机多卡-RTX 4090双卡(七)
使用Axolotl高效微调qwen2-7b-instruct
专家混合系统MoE的综述
24年7月来自香港科技大学广州分校的论文“A Survey on Mixture of Experts”。
用LangGraph、 Ollama,构建个人的 AI Agent
事实上,AI Agent 的研究还处于早期阶段,该领域还没有明确的定义。但是 Astra 和 GPT-4o 已经可以成为一个很好的早期示例了。NVIDIA 高级研究员、AI Agent 项目负责人 Jim Fan表示我们距离出现一个有实体的 AI Agent 或者说以 ChatGPT 作为内核的机器
大模型的基础概念知识
一 大模型的组成部分 大模型通常指规模巨大、参数数量众多的机器学习模型,尤其在深度学习领域,这种模型一般由以下几个关键部分组成: 1.……四 怎么训练一个大模型 训练大模型,特别是那些拥有数亿乃至数十亿参数的深度学习模型,通常面临的主要挑战包括硬件资源限制(如内存、显存)、计算效率以及训练时间。……
MiniCPM: 揭示端侧大语言模型的无限潜力 github页面
加入我们的和MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有24亿(2.4B)的非词嵌入参数量,总计2.7B参数量。Mistral-7B 表现相近MTBench 上也超越了 Llama2-70B-Chat、Vicuna-33B、
从零开始微调阿里的qwen_vl_chat模型
通过这个重定向,标准错误输出和标准输出都会被写入 train.log 文件。这个脚本文件名为 finetune_lora_single_gpu.sh,通常用于单 GPU 上进行 LoRA(Low-Rank Adaptation)的微调。模型训练完会保存在output_qwen文件中,想要修改去fin
多语言声音克隆,CosyVoice模型最强部署
CosyVoice是由阿里通义实验室开源的先进语音合成模型,它在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现出色。CosyVoice模型支持one-shot音色克隆,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节。CosyVoice采用了超过15万小时的数据训