0


从零入门AI for Science(AI+化学)#Datawhale夏令营

从零入门AI for Science(AI+化学) 是 Datawhale 2024 年 AI 夏令营第三期的学习活动,基于天池平台第二届世界科学智能大赛 物质科学赛道:催化反应产率预测开展的实践学习

有感兴趣的同学可去

报名赛事!(点击即可跳转)

http://competition.sais.com.cn/competitionDetail/532233/format(赛事网址)

了解更多信息

启动魔搭Notebook!(点击即可跳转)https://www.modelscope.cn/my/mynotebook/preset

本次赛事数据可在官网下载

  1. 解压文件> 使用命令 > > unzip AI+化学baseline文件包.zip> > > > > > unzip+压缩包名.zip>

找到task1中的随机森林,自己可以尝试更改数据

关于随机森林(想细致了解可以看一下下面这两位博主)

http://t.csdnimg.cn/rNmmGhttp://t.csdnimg.cn/rNmmGhttp://t.csdnimg.cn/ocTSyhttp://t.csdnimg.cn/ocTSy

随机森林是集成学习中的Bagging(Bootstrap Aggregation)方法的一种实现,是由很多决策树作为基础估计器集成的一个同质估计器。
各决策树之间没有关联,在用随机森林进行分类时,每个样本会被森林中的每一颗决策树进行判断和分类,每个决策树会得到一个分类结果,哪一个分类的结果最多(众数),就是随机森林的最终结果

参数解释:

  • n_estimators=10: 决策树的个数,越多越好;但是越多意味着计算开销越大;
  • max_depth: (default=None)设置树的最大深度,默认为None;
  • min_samples_split: 根据属性划分节点时,最少的样本数;
  • min_samples_leaf: 叶子节点最少的样本数;
  • n_jobs=1: 并行job个数,-1表示使用所有cpu进行并行计算。

随机森林算法步骤

假设训练集 T 的大小为 N ,特征数目为 M ,随机森林的大小为 K ,随机森林算法的具体步骤如下:

遍历随机森林的大小 K 次:
  从训练集 T 中有放回抽样的方式,取样N 次形成一个新子训练集 D
  随机选择 m 个特征,其中 m < M
  使用新的训练集 D 和 m 个特征,学习出一个完整的决策树
得到随机森林

想刷高分可以把这几个数据稍作修改,然后再进行运行


本文转载自: https://blog.csdn.net/Charlie777777/article/details/140697399
版权归原作者 凛lin0717 所有, 如有侵权,请联系我们删除。

“从零入门AI for Science(AI+化学)#Datawhale夏令营”的评论:

还没有评论