大数据-199 数据挖掘 机器学习理论 - 决策树 模型 决策与条件 香农熵计算

左图表示了特征空间的一个划分,假定现在只有 W10 和 W20 两个决策点,特征空间被决策点沿轴划分,并且相继划分相互正交,每个小矩形表示一个区域,特征空间上的区域构成了集合,X 取值为区域的集合。由于决策树表示一个条件概率的分布,所以深浅不同的决策树对应着不同的复杂度的概率模型,其中决策树的生成只

大数据-197 数据挖掘 机器学习理论 - scikit-learn 泛化能力 交叉验证

在业务中,我们训练数据往往都是以往已经有的历史数据,但我们的测试数据却是新进入系统的数据,我们追求模型的效果,但是追求的是模型在未知数据集上的效果,在陌生的数据集上表现的能力被称为泛化能力,即我们追求的是模型的泛化能力。通常来说,我们认为经过验证集找出最终参数后的模型的泛化能力是增强了的,因此模型在

告别传统办公软件,这款编辑器让你事半功倍!

ONLYOFFICE最近发布了文档8.2版本,带来了众多新特性和性能改进。作为一名用户和开发者,我对这些更新进行了深入的体验,感受到了不少亮点。新版本特别强调了协作功能,尤其是PDF文件的实时协同编辑,让我和团队成员能够更加高效地共同处理文档,避免了以往版本中反复发送邮件的问题。

SMOTE算法进行过采样

【代码】SMOTE算法进行过采样。

【LLaMA-Factory】【Windows】:在windows操作系统配置大模型微调框架LLaMA-Factory

PyTorch拥有一个庞大的社区和丰富的生态系统,这意味着在使用LLaMA-Factory时,如果遇到问题或需要额外的功能,可以很容易地找到相关的解决方案或库。综上所述,PyTorch、CUDA、Python以及相应模型在LLaMA-Factory框架中各自扮演了重要的角色,共同支持了模型的高效训练

大数据-196 数据挖掘 机器学习理论 - scikit-learn 算法库实现 案例1 红酒 案例 2 乳腺癌

KNN 中的一个超参数,所谓“超参数”,就是需要人为输入,算法不能通过直接计算得出这个参数,KNN 中的 K 代表的是距离需要分类的测试点 X 最近的 K 个样本,如果不输入这个值,那么算法中重要部分“选出 K 个最近邻”就无法实现。如果选择的 K值较小,就相当于较小的领域中的训练实例进行预测,这时

常见机器学习算法汇总

简单汇总一下机器学习算法,方便记忆。

大数据-200 数据挖掘 机器学习理论 - 决策树 数据集划分 决策树生成 ID3 C4.5

而在信息熵指数的指导下,决策树生成过程的局部最优条件也非常好理解:即在选取属性测试条件(attribute test condition)对某节点(数据集)进行切分的时候,尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道,全局最优树没有办法简单高效的获得,因此此处我们仍然要以局

10种数据预处理中的数据泄露模式解析:识别与避免策略

当测试数据在数据准备阶段无意中泄露(渗透)到训练数据时,就会发生数据泄露。这种情况经常出现在常规数据处理任务中,而你可能并未察觉。当泄露发生时,模型会从本不应看到的测试数据中学习,导致测试结果失真。

【人工智能】线性回归

一、使用正规化方法计算下列样本的预测函数1. 没有归一化之前2. 归一化之后二、读取ex1data2.txt中的数据,建立样本集,使用正规化法获取(房屋面积,房间数量)与房屋价格间的预测函数1. 读取数据,建立样本集2. 设置X、y3. 计算theta三、读取ex1data1.txt中的数据,建立样

20240927 每日AI必读资讯

我们最近发布的语音到语音转换和OpenAI O1标志着交互和智能的新时代的开始——这些成就是由你们的聪明才智和手艺实现的。在这个过程中,AI会通过多次尝试得到反馈。这个阶段的重点是让AI明白哪些地方出错了,并且不会只做一些很小的、无关紧要的修改,而是能够真正找到并改正大的错误。这一成功证明了我们出色

大数据-194 数据挖掘 机器学习理论 有监督、无监督、半监督、强化学习

从上图我们看出,对于复杂的数据,低阶多项式往往是欠拟合的状态,而高阶多项式则过分捕捉噪声数据的分布规律,而噪声数据之所以称为噪声,是因为其分布毫无规律可言,或者其分布毫无价值,因此就算高阶多项式在当前训练集上拟合度很高,但其捕捉到无用规律无法推广到新的数据集上,因此该模型在测试数据集上执行过程将会有

随机性、熵与随机数生成器:解析伪随机数生成器(PRNG)和真随机数生成器(TRNG)

本文将探讨随机性、熵的概念以及不同类型随机数生成器(random number generator, RNG)的原理,重点介绍伪随机数生成器(PRNG)和真随机数生成器(TRNG)。

【实践篇】ChatGLM3-6B AI大模型的部署、微调训练智能客服

修改/mnt/workspace/apps/ChatGLM3/basic_demo/cli_demo.py,将默认的THUDM/chatglm3-6b修改为你的模型地址,比如我的是/mnt/workspace/models/chatglm3-6b。--model_name_or_path /mnt/

高斯分布(正态分布)

(1)高斯分布又名正态分布,在点云中的解释应为,在从某点邻近搜索的一块区域内,所有点的分布应该符合如下图的分布规律(2)实现高斯分布的公式为(公式不重要,不用记)其中【二者为主要变量】均值:u越小,图像整体向左偏移,u越大,图像整体向右偏移。方差对高斯分布的影响:σ越大,数据分布越分散,σ越小,数据

头歌——人工智能(机器学习 --- 决策树2)

后剪枝的思路很直接,对于决策树中的每一个非叶子结点的子树,我们尝试着把它替换成一个叶子结点,该叶子结点的类别我们用子树所覆盖训练样本中存在最多的那个类来代替,这样就产生了一个简化决策树,然后比较这两个决策树在测试数据集中的表现,如果简化决策树在验证数据集中的准确率有所提高,那么该子树就可以替换成叶子

成功解决刁钻bug问题—数据穿越的问题之在子函数内部使用重载dataframe格式的全局变量并执行赋值等相关操作

​成功解决刁钻bug问题—数据穿越的问题之在子函数内部使用重载dataframe格式的全局变量并执行赋值等相关操作目录解决问题解决思路解决方法解决问题在子函数内部使用重载dataframe并执行赋值等相关操,导致数据穿越的问题在Python中,如果你希望在子函数内部使用重载的DataFrame格式的

KNN算法(距离度量、归一化标准化)--day06

其中p≥1 是闵可夫斯基指数。切比雪夫距离(Chebyshev distance),也称为棋盘距离或无限范数距离,是在几何空间中计算两点之间的距离的一种方法,它使用的度量方式是各坐标数值差的绝对值的最大值。闵可夫斯基距离是一种重要的距离度量方法,能够根据p的值在曼哈顿距离和欧氏距离之间进行平滑过渡,

【去哪儿-注册安全分析报告-缺少轨迹的滑动条】

去哪儿(包含去哪儿旅行APP及去哪儿网Qunar.com)是中国领先的一站式旅行平台。去哪儿网站上线于2005年5月,2010年去哪儿旅行App面世。成立至今,去哪儿坚持以低价为核心竞争力,帮助更多用户解锁“人生第一张机票”。截至目前,去哪儿已拥有超两亿交易用户,并以年新增交易用户逾千万的规模持续增

基于安全风险预测的自动驾驶自适应巡航控制优化

从周边车辆运动学状态参数和道路设施条件参数中提取场景特征指标和安全风险度量指标,采用极端梯度提升模型(XGboost)和长短时记忆模型(LSTM)进行安全风险预测,由此提出基于安全风险预测的自动驾驶自适应巡航控制(ACC)优化方法,并选取碰撞发生概率、速度平均值、速度标准差3种指标评价ACC表现。通

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈