Datawhale X 魔搭 AI夏令营夏令营第四期 Task1:从零入门AI生图原理与实践

提示词prompt在大模型不断发展的当下,要想最大化利用AI的能力,学会提示词的书写尤为重要。如果想学习prompt书写,在这里推荐大佬吴恩达的prompt engineering视频。链接如下:https://www.bilibili.com/video/BV1Z14y1Z7LJ?在AI生成图中,

新来个技术总监,把AI大模型接入的那叫一个优雅,佩服!

目前 AllTools 仅支持流式 SSE 输出,也就是大家看到的消息一点一点在对话框中显示的效果,后台打印的信息其实是这样的,也是一点一点的从智谱 AI 那里得到响应。周一,公司空降一名逼里巴巴的技术总监老王,我很不服气,就给他出了道难题,限时 30 分钟把最新大模型 GLM-4-AllTools

Deep-Live-Cam实时AI换脸

Deep-Live-Cam 是一个基于AI技术的实时人脸替换和动画工具,该项目结合了深度学习算法,能够实时地将一个选定的人脸替换到目标视频或图片中,支持多种平台和执行环境。

基于人工智能与区块链的果蔬分拣与仓储监控系统(毕业论文)

开机之后手动输入果蔬产地,然后开始检测果蔬分级,去除不满足条件的果蔬,将满足条件的果蔬放入对应的容器,并开始记录放入容器的水果数量。因此,本研究旨在结合人工智能与区块链技术,开发一种新型的果蔬分拣与仓储监控系统。通过实现果蔬的自动分拣、智能仓储和食品安全追溯,不仅可以提高果蔬供应链的效率和质量,还可

利用“2+1链动模式小程序AI智能名片S2B2C商城源码”优化企业参与外部社群策略

在当今数字化时代,企业参与外部社群已成为其市场扩张、品牌塑造及用户增长不可或缺的一环。然而,面对浩如烟海的社群类型,包括行业论坛、地区性论坛、特定兴趣爱好的论坛以及短视频网站等,如何精准选择并有效介入这些社群,成为了企业面临的重要挑战。本文深入探讨了如何通过融合“2+1链动模式小程序”、“AI智能名

向李宏毅学深度学习(进阶)#task01#Datawhale X 李宏毅苹果书 AI夏令营

根据基于李宏毅老师机器学习课程编著的《深度学习详解》一书,结合自己的思考,阐释了深度学习中全局最优值、局部极值、鞍点等关键概念,以及批量(banch)和动量法

CVPR 2024最佳论文分享┆EventPS: 基于事件相机的实时光度立体视觉

本文介绍了CVPR 2024的最佳论文提名,该论文利用事件相机的独特属性,实现了实时光度立体视觉。该算法在传统和深度学习领域均取得成功。配合高速转台数据采集和GPU优化,算法实现了每秒超30帧的实时表面法线重建。

为什么说RAG是AI 2.0时代的“杀手级”应用?

随着 AI 2.0 时代的来临,我们正站在一个技术革新和行业变革的交汇点。大语言模型虽然在多个领域取得了突破,但在特定领域的应用仍面临挑战。而 RAG 技术以其独特的能力,通过整合外部知识库与文档,显著提升了模型的专业性能和回答精度,成为大模型应用的重要技术方向。

AI:238-提升YOLOv8的检测性能 | Slim-Neck特征融合层的轻量化与精度双重突破(保姆级涨点)

从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码,详细讲解供大家学习,希望可以帮到大家。正在不断更新中~

20240825 每日AI必读资讯

新部门成立于3月,目的是加强微软在消费者AI战略方面的布局,涵盖副驾驶 AI聊天机器人和Bing搜索引擎等项目,由DeepMind联合创始人Mustafa Suleyman领导。- 新成立的AI部门的软件工程师平均总薪酬高达377611美元(约合269.3万元人民币),至少比其他部门的平均水平高出1

为什么多模态大模型中使用Q-Former的工作变少了?附Q-Former结构简介

面试中遇到的问题,自己在实践中注意到了却没有深究原因,没有回答好,特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块,将视觉特征投射到LLM能理解的语言特征维度,这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射,然而作者提到这么做是为了做实验更快一点,使用复杂的模块可能会有更好

最全面NVIDIA 全系GPU规格及特性对比(含应用场景)

本文主要整理了NVIDIA全系GPU&显卡规格参数及特性对比,应用场景等

上海交大洪亮教授:AI 真要突破工程领域,一定要做到现有人类专家做不到的工程成果

与自然界相比,序列相似度全部低于 65%,最低的为 49%,换言之,研究团队对 700 多个氨基酸序列中的 300 多个进行了改造,其中有 23 个有活性,2/3 比野生活性高,最高的野生型达 8.6 倍。在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行

LSTM模型

LSTM(长短期记忆)是一种用于处理和预测时间序列数据的递归神经网络(RNN)架构旨在解决传统RNN在处理长序列数据时存在的梯度消失和梯度爆炸问题。LSTM的关键在于其特殊的单元结构,每个单元包含三个门:输入门、遗忘门和输出门。这些门通过控制信息的流动,允许LSTM在更长时间范围内保持和更新记忆。输

【优选赛事】2024年iCAN大赛AI视觉检测设计挑战赛

iCAN大学生创新创业大赛(以下简称“iCAN大赛”")是一个无固定限制、鼓励原始创新的赛事,自2007年发起至今,得到了广大青年学生的热爱。2010年,iCAN大赛获批《教育部、财政部关于批准2010年度大学生竞赛资助项目的通知》大学生竞赛资助项目。2023年,iCAN大赛入选《全国普通高校大学生

视觉 注意力机制——通道注意力、空间注意力、自注意力、交叉注意力

在计算机视觉领域,注意力机制(Attention Mechanism)已成为提升模型性能的关键技术之一。注意力机制通过模拟人类视觉的选择性注意力,能够在海量数据中自动聚焦于最相关的信息,从而提高模型的效率和准确性。下面将介绍通道注意力、空间注意力、自注意力和交叉注意力四种类型。

ChatTTS文本转语音本地Windows环境部署与远程生成AI音频实战流程

本篇文章主要介绍如何快速地在Windows系统电脑中本地部署ChatTTS开源文本转语音项目,并且我们还可以结合Cpolar内网穿透工具创建公网地址,随时随地远程访问本地搭建的ChatTTS AI语音合成模型。最像人声的AI来了!语音开源天花板ChatTTS火速出圈,一周就斩获20k,目前githu

自动控制:前馈控制

抗扰前馈控制器(Disturbance Rejection Feedforward Controller)主要用于抑制系统中的扰动。这种控制器在检测到扰动后,通过计算并施加一个与扰动相反的控制输入,来抵消扰动对系统的影响。扰动检测:实时检测系统中的扰动源。扰动补偿计算:根据系统模型计算出所需的补偿量

Claude模型将接入亚马逊Alexa;ChatGPT周活跃用户超过2亿 | AI头条

该机器人身高约 1 米 65,体重 30 公斤,步行速度 1.12 m/s,跑步速度 3.35 m/s,可承重 20 公斤,运行时间 2 到 4 小时。Qwen2-VL 相比 Qwen-VL 有诸多特点,在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中表

Datawhale AI 夏令营 CV Task 1 笔记

使用F1score、MOTA指标来评估模型预测结果。对每个json文件得到两个指标的加权求和,最终得分为所有文件得分取均值。12其中,F1 Score是 Precision(精度)和 Recall(召回率)的调和平均值,专注于检测模型的准确性和完整性。