AI Agent: AI的下一个风口 从图形用户界面到自然语言的进化

在计算机发展的早期阶段,命令行界面(Command Line Interface, CLI)是用户与计算机交互的主要方式。用户需要记忆和输入各种命令来执行操作,这对用户的专业技能要求较高,使用起来并不友好。AI Agent (人工智能代理) 是指能够感知环境、进行决策和执行动作的智能体,它可以模拟人

深度学习实战:手把手教你构建多任务、多标签模型

在本文中,我们将基于流行的 MovieLens 数据集,使用稀疏特征来创建一个多任务多标签模型,并逐步介绍整个过程。所以本文将涵盖数据准备、模型构建、训练循环、模型诊断,最后使用 Ray Serve 部署模型的全部流程。

Transformer--编码器和解码器(包含掩码张量,注意力机制,多头注意力机制)

编码器部分: 由N个编码器层堆叠而成,每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接💡在讲述编码器的结构之前,我们先引入三个概念--掩码张量,注意力机制,多头注意力机制。

Linux系统安装多个CUDA版本与切换,正常AI模型训练

如果已经安装了NVIDIA驱动版本,先卸载旧驱动,再安装新CUDA对应的驱动,如果没有安装过NVIDIA驱动版本,可以直接安装新CUDA版本,它会自动安装对应的NVIDIA驱动。(2)执行nvidia-smi命令,显示是cuda的版本号(每个cuda版本对应了不同驱动版本),提供有关系统中NVIDI

AWQ量化及AutoAWQ代码详解

awq论文解读及autoawq源码分析

AI:12-基于深度学习的人脸识别研究

人脸识别技术作为一种先进的生物特征识别技术,在各个领域展示了广泛的应用前景。本文基于深度学习的人脸识别签到系统进行了深入研究,通过使用卷积神经网络(CNN)和面部特征提取技术,实现了准确的人脸识别和自动签到功能。同时,为了提高系统性能和效率,优化了模型架构、数据预处理和模型调优等方面。通过代码实现和

登顶GitHub Trending,开源工具MinerU助力复杂PDF高效解析提取

在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的全链条工具体系同时迎来升级。在数据处理环节,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU。

从零实现强化学习RLHF代码(PPO、RLOO)

从零开始实现强化学习代码

医学图像分割的基准:TransUnet(用于医学图像分割的Transformer编码器)器官分割

TransUnet是一种用于医学图像分割的深度学习模型。它是基于Transformer模型的图像分割方法,由AI研究公司Hugging Face在2021年提出。医学图像分割是一项重要的任务,旨在将医学图像中的不同结构和区域分离出来,以便医生可以更好地诊断和治疗疾病。传统的医学图像分割方法通常使用基

torch、torchvision、torchaudio安装对应cuda版本(cuda 12.1情况下)

如果安装cuda 11.8版本的,把最后的cu121改成cu118即可。目前支持最高cuda 12.2。因为网上 pip install torch 等全部默认安装cpu版本,推理速度慢。所有安装cuda版本的包会更快。

阿里开源语音理解和语音生成大模型FunAudioLLM

阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。

【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战

Gemma 是 Google 推出的轻量级、先进的开放模型系列,采用与 Gemini 模型相同的研究成果和技术构建而成。它们是仅使用解码器的文本到文本大型语言模型(提供英语版本),为预训练变体和指令调整变体具有开放权重。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。由于它们相对

【大模型】大模型中的稀疏与稠密——一场效率与性能的较量

稀疏模型与稠密模型,作为深度学习领域的两股重要力量,各自承载着不同的使命与愿景。在探索未知的征途中,它们既是竞争对手,也是合作伙伴,共同推动着人工智能技术向前迈进。未来,随着算法创新和硬件技术的进步,我们有理由相信,稀疏与稠密的融合将开启深度学习的新篇章,引领我们进入一个更加智能、高效、可持续的AI

将VAE用于时间序列:生成时间序列的合成数据

本文将使用**一维卷积层**、**策略性的步幅选择**、**灵活的时间维度**和**季节性依赖的先验**来模拟温度数据。

人工智能算法能否预测奥运会足球?

如果您对人工智能算法预测奥运足球有疑问,不妨来与我详细探讨一下。人工智能算法,作为当代科技的前沿领域,其核心在于使计算机系统具备模拟人类智能行为的能力。这类算法通过对大量数据的处理和分析,实现对复杂问题的求解和决策。在体育预测领域,人工智能算法的应用尤为广泛,其中常用的算法主要包括机器学习、深度学习

使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间

让我们简要回顾一下深度神经网络中BatchNorm的基本概念。这个想法最初是由Ioffe和Szegedy在一篇论文中引入的,作为加速卷积神经网络训练的一种方法。假设zᵃᵢ表示深度神经网络给定层的输入,其中a是从a=1,…,Nₛ运行的批次索引,i是从i=1,…,C运行的特征索引。这里Nₛ是一个批次中的

Llama3.1技术报告简要解读--附PDF

Llama3.1的简要解读。总结几点,大而好:405B参数直接对标GPT4 (Scaling law)中杯(8B)和大杯(70B)的上下文直接干到128K了,超过目前同类参数模型一个等级。15T的Token,强调数据的重要性!!!包括数据准备、数据处理、数据清洗、数据构造,数据配比等等,数据是基石,

IsaacLab 从入门到精通(一) 环境配置和依赖安装

本系列文章将针对机器人操作任务中的强化学习平台IsaacLab提供较为全面的教程

数据缺失补全方法综述

数据缺失是数据分析和机器学习中的一个普遍问题,可能由于多种原因(如传感器故障、数据录入错误、系统故障等)导致。缺失数据不仅会影响模型的性能,还可能导致错误的推断和决策。为了应对这一挑战,研究者们提出了多种数据缺失补全方法。本文综述了几种常见的缺失数据补全技术,包括简单插补、基于模型的插补、机器学习方

Skeleton Recall Loss 分割领域的新突破:极大的减少了资源消耗,还能提高性能

精确分割在当今众多领域都是一项关键需求比如说自动驾驶汽车的训练、医学图像识别系统,以及通过卫星图像进行监测。在许多其他领域,当感兴趣的对象微小但至关重要时,例如研究血管流动、手术规划、检测建筑结构中的裂缝或优化路线规划,需要更高的精度。此前已经做了大量工作来解决这种具有挑战性的分割问题。此前已经做了