注意力机制(Attention)原理与代码实战案例讲解
注意力机制(Attention)原理与代码实战案例讲解1. 背景介绍1.1 问题的由来在深度学习领域,特别是在自然语言处理(NLP)任务中,注意力机制(Attention Mechanism)的引入极大地提升了模型的性能
粒子群算法(Particle Swarm Optimization) 原理与代码实例讲解
粒子群算法(Particle Swarm Optimization) - 原理与代码实例讲解1. 背景介绍1.1 问题的由来随着优化理论和计算机科学的快速发展,面对复杂多变的问题,传
百川大模型微调指令详解
设定 beta2 为 0.98 比默认的 0.999 稍低,可能会使得优化过程对历史信息的依赖程度降低,从而提高优化过程的灵活性,但也可能增加训练过程中的噪声。在使用 Adam 或其他类似的优化算法(如 RMSprop、Adagrad)时,历史梯度对当前梯度的影响主要体现在如何计算梯度的动量(即梯度
AI Agent: AI的下一个风口 从图形用户界面到自然语言的进化
在计算机发展的早期阶段,命令行界面(Command Line Interface, CLI)是用户与计算机交互的主要方式。用户需要记忆和输入各种命令来执行操作,这对用户的专业技能要求较高,使用起来并不友好。AI Agent (人工智能代理) 是指能够感知环境、进行决策和执行动作的智能体,它可以模拟人
Spark GraphX图计算引擎原理与代码实例讲解
Spark GraphX图计算引擎原理与代码实例讲解1.背景介绍1.1 图计算的重要性在当今大数据时代,图计算已经成为了一个非常重要的研究领域。图能够很好地表示现实世界中各种实体之间的复杂关系,如社交网络、交通网络、
深度学习实战:手把手教你构建多任务、多标签模型
在本文中,我们将基于流行的 MovieLens 数据集,使用稀疏特征来创建一个多任务多标签模型,并逐步介绍整个过程。所以本文将涵盖数据准备、模型构建、训练循环、模型诊断,最后使用 Ray Serve 部署模型的全部流程。
Transformer--编码器和解码器(包含掩码张量,注意力机制,多头注意力机制)
编码器部分: 由N个编码器层堆叠而成,每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接💡在讲述编码器的结构之前,我们先引入三个概念--掩码张量,注意力机制,多头注意力机制。
Linux系统安装多个CUDA版本与切换,正常AI模型训练
如果已经安装了NVIDIA驱动版本,先卸载旧驱动,再安装新CUDA对应的驱动,如果没有安装过NVIDIA驱动版本,可以直接安装新CUDA版本,它会自动安装对应的NVIDIA驱动。(2)执行nvidia-smi命令,显示是cuda的版本号(每个cuda版本对应了不同驱动版本),提供有关系统中NVIDI
Storm Topology原理与代码实例讲解
Storm Topology: Principles and Code Examples1. Background IntroductionApache Storm is a free
AWQ量化及AutoAWQ代码详解
awq论文解读及autoawq源码分析
AI:12-基于深度学习的人脸识别研究
人脸识别技术作为一种先进的生物特征识别技术,在各个领域展示了广泛的应用前景。本文基于深度学习的人脸识别签到系统进行了深入研究,通过使用卷积神经网络(CNN)和面部特征提取技术,实现了准确的人脸识别和自动签到功能。同时,为了提高系统性能和效率,优化了模型架构、数据预处理和模型调优等方面。通过代码实现和
登顶GitHub Trending,开源工具MinerU助力复杂PDF高效解析提取
在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的全链条工具体系同时迎来升级。在数据处理环节,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU。
从零实现强化学习RLHF代码(PPO、RLOO)
从零开始实现强化学习代码
T5原理与代码实例讲解
T5原理与代码实例讲解作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着深度学习技术的飞速发展,自然语言处理(NLP)领域也取得了显著
医学图像分割的基准:TransUnet(用于医学图像分割的Transformer编码器)器官分割
TransUnet是一种用于医学图像分割的深度学习模型。它是基于Transformer模型的图像分割方法,由AI研究公司Hugging Face在2021年提出。医学图像分割是一项重要的任务,旨在将医学图像中的不同结构和区域分离出来,以便医生可以更好地诊断和治疗疾病。传统的医学图像分割方法通常使用基
torch、torchvision、torchaudio安装对应cuda版本(cuda 12.1情况下)
如果安装cuda 11.8版本的,把最后的cu121改成cu118即可。目前支持最高cuda 12.2。因为网上 pip install torch 等全部默认安装cpu版本,推理速度慢。所有安装cuda版本的包会更快。
阿里开源语音理解和语音生成大模型FunAudioLLM
阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
Gemma 是 Google 推出的轻量级、先进的开放模型系列,采用与 Gemini 模型相同的研究成果和技术构建而成。它们是仅使用解码器的文本到文本大型语言模型(提供英语版本),为预训练变体和指令调整变体具有开放权重。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。由于它们相对
Variational Autoencoders (VAE)原理与代码实例讲解
Variational Autoencoders (VAE)原理与代码实例讲解1. 背景介绍1.1 问题的由来在机器学习和深度学习领域中,自编码器(Autoencoder)是一种无监督学习算法,旨
【大模型】大模型中的稀疏与稠密——一场效率与性能的较量
稀疏模型与稠密模型,作为深度学习领域的两股重要力量,各自承载着不同的使命与愿景。在探索未知的征途中,它们既是竞争对手,也是合作伙伴,共同推动着人工智能技术向前迈进。未来,随着算法创新和硬件技术的进步,我们有理由相信,稀疏与稠密的融合将开启深度学习的新篇章,引领我们进入一个更加智能、高效、可持续的AI