AI大语言模型的温度、top_k等超参数怎么理解
在AI大语言模型中,温度(Temperature)和top_k是两个重要的超参数,它们主要影响模型生成文本时的多样性、创造性以及可控性。
select_shape 借助形状特征选择区域
select_shape — Choose regions with the aid of shape features.借助形状特征选择区域。
AI翻译能力测评
来自智谱AI的技术社区的AI大模型翻译能力测评活动,对比下AI大模型的翻译能力,最终翻译效果参阅截图。注:本次测评数据样本较小,测试较为主观,测评结论仅供参考智谱GLM-4-0520、智谱GLM-4-air、智谱GLM-4-flash、百度翻译、海螺(6.5s)、百川智能(Baichuan4)、讯飞
AI训练Checkpoint对存储的影响
同时,模型参数的数量直接影响到检查点文件的大小。读取器的数量(即同时读取检查点文件的进程数量)取决于数据并行的程度——如果数据并行度高,即有更多的GPU参与,可能就需要更多的读取器来加速状态恢复过程。数据并行训练中的效率考虑:在数据并行的设置下,由于所有GPU上运行的是模型的相同副本,只需保存一个G
【人工智能】项目案例分析:使用LSTM生成图书脚本
本项目旨在利用LSTM(长短期记忆网络)生成图书脚本。LSTM是RNN(递归神经网络)的一种变体,特别适用于处理和预测时间序列数据中的长期依赖关系。在本案例中,我们将利用LSTM网络来学习和生成类似文学作品的文本序列,例如莎士比亚的戏剧或现代小说片段。
大模型 - 知识蒸馏原理解析
知识蒸馏通过教师模型提供的软标签引导学生模型,使得学生模型不仅关注硬标签的分类准确性,还能从软标签中学习更丰富的类别间关系,从而在模型压缩的同时尽量保留性能。这种方法特别适用于在资源受限的环境中部署高效的深度学习模型。
神经网络之lstm
长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊类型的循环神经网络(RNN),由 Hochreiter 和 Schmidhuber 于 1997 年提出。LSTM 旨在解决传统 RNN 在处理长序列数据时遇到的梯度消失或梯度爆炸问题。LSTM 网络的核心是三个门的
MimicMotion一张图片就可以生成小姐姐跳舞的视频,Windows一键运行包
最近,腾讯和上交大合作推出了一款名为MimicMotion的AI工具,简直是视频生成领域的一次重大突破。你只需提供一张姿态序列图片,MimicMotion就能生成细节丰富、逼真的人类动作视频,无论是舞蹈、运动还是日常活动,统统不在话下。
最新大模型架构TTT模型代码解析(一)
这项来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究提出了一个新颖的序列建模方法,称为测试时训练(Test-Time Training, TTT)层。TTT 层通过用机器学习模型取代 RNN 的隐藏状态,并使用输入 token 的实际梯度下降来压缩上下文。研究表明,这种方法
生成式AI扩散模型-Diffusion Model【李宏毅2023】概念讲解、原理剖析笔记
Diffusion和DALL采用的Decoder是Latent Representation,之前在讲Diffussion Model的时候,nosie是加到图片上面的,而现在我们的Framework里面扩散模型产生的是中间产物,他可能不是图片了,所以我们在diffusion process这一部分
comsol-声学
COMSOL多物理场仿真软件以高效的计算性能和杰出的多场耦合分析能力实现了精确的数值仿真,已被广泛应用于各个领域的科学研究以及工程计算,为工程界和科学界解决了复杂的多物理场建模问题。COMSOL内嵌的声学模块可以方便地进行多孔声学和粘热声学的模拟仿真。软件数值计算得到的云图,可以将声压、速度、声强以
anaconda快速完整安装+配置!(最稳定版本4)
anaconda快速完整安装+配置!(最稳定版本4.12.0)容易上手纯干货

一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法已成为机器学习领域的关键工具,在强化学习、贝叶斯滤波和复杂模型优化等方面有广泛应用
快乐8 Ai大模型XGBoost LightGBM预测系统
随机森林回归:通过集成多个决策树模型,提高预测的准确性和稳定性。XGBoost:一种基于梯度提升的强大模型,擅长处理结构化数据。LightGBM:一种高效的基于决策树算法的分布式梯度提升框架,具有快速的训练速度和低内存消耗。高预测准确率:通过集成多种模型,提供更为精准的预测结果。多种预测方法:支持同
高斯混合模型(Gaussian Mixture Model,简称GMM)
高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于表示由组成的复杂分布。谱学习算法(Spectral Learning Algorithms)是一类利用线性代数中的矩阵分解技术来估计模型参数的方法,在自然语言处理、机器学习等领域有广泛的应用。
【AI视频】Runway注册、基本设置、主界面详解
随着AI技术的不断发展,视频制作已经从繁琐的专业领域逐步转变为人人可参与的创意表达形式。Runway作为这一领域的创新工具,不仅降低了视频创作的门槛,还为更多用户提供了展示想象力的平台。通过简化注册流程、优化基本设置及提供直观的主界面,Runway让每一个用户都能轻松掌握AI视频制作的核心技术。20
都是Q1“灌水大户”,Scientific Reports、iScience和Plos One,选谁更好?
• 缺点:由于 PLOS ONE 发表的文章数量大,对论文创新性和研究重要性的要求相对较低,因此有人认为它是“水刊”。• 缺点:有些网友认为 Scientific Reports 是“水刊”,因为它对文章创新性的要求不高,主要关注数据的严谨性。三本自引率分别为2.6%、2.2%、3.4%,均处于安全
Datawhale X 魔搭 AI夏令营 “AIGC”方向 task1
我本来想以某个历史故事为原型,风格是古风,但是我发现给定的训练集几乎都是二次元的图片,我以为效果不会太好,不过还是挺有感觉的。
基于paddleocr实现验证码识别——训练数据
验证码(CAPTCHA)用于区分用户是人类还是计算机程序(如机器人)。这是为了防止各种形式的自动化攻击和滥用。
人工智能任务6-基于FAISS数据库的应用:向量数据库的搭建与中文文本相似度搜索
本文通过一个具体的例子展示了如何使用FAISS向量数据库进行中文文本相似度搜索的过程。这种方法不仅能够有效地处理大量文本数据,还能够快速地找到与给定查询最相似的句子。这对于诸如搜索引擎、推荐系统等领域有着广泛的应用前景。随着技术的不断发展,我们可以预见未来将会有更多高效的算法和技术被开发出来,以应对