从零入门AI for Science(AI+化学) 是 Datawhale 2024 年 AI 夏令营第三期的学习活动,基于天池平台“第二届世界科学智能大赛 物质科学赛道:催化反应产率预测”开展的实践学习
有感兴趣的同学可去
报名赛事!(点击即可跳转)
http://competition.sais.com.cn/competitionDetail/532233/format(赛事网址)
了解更多信息
启动魔搭Notebook!(点击即可跳转)https://www.modelscope.cn/my/mynotebook/preset
本次赛事数据可在官网下载
- 解压文件> 使用命令 >
> unzip AI+化学baseline文件包.zip>
> > > >> unzip+压缩包名.zip>
找到task1中的随机森林,自己可以尝试更改数据
关于随机森林(想细致了解可以看一下下面这两位博主)
http://t.csdnimg.cn/rNmmGhttp://t.csdnimg.cn/rNmmGhttp://t.csdnimg.cn/ocTSyhttp://t.csdnimg.cn/ocTSy
随机森林是集成学习中的Bagging(Bootstrap Aggregation)方法的一种实现,是由很多决策树作为基础估计器集成的一个同质估计器。
各决策树之间没有关联,在用随机森林进行分类时,每个样本会被森林中的每一颗决策树进行判断和分类,每个决策树会得到一个分类结果,哪一个分类的结果最多(众数),就是随机森林的最终结果
参数解释:
- n_estimators=10: 决策树的个数,越多越好;但是越多意味着计算开销越大;
- max_depth: (default=None)设置树的最大深度,默认为None;
- min_samples_split: 根据属性划分节点时,最少的样本数;
- min_samples_leaf: 叶子节点最少的样本数;
- n_jobs=1: 并行job个数,-1表示使用所有cpu进行并行计算。
随机森林算法步骤
假设训练集 T 的大小为 N ,特征数目为 M ,随机森林的大小为 K ,随机森林算法的具体步骤如下:
遍历随机森林的大小 K 次:
从训练集 T 中有放回抽样的方式,取样N 次形成一个新子训练集 D
随机选择 m 个特征,其中 m < M
使用新的训练集 D 和 m 个特征,学习出一个完整的决策树
得到随机森林
想刷高分可以把这几个数据稍作修改,然后再进行运行
版权归原作者 凛lin0717 所有, 如有侵权,请联系我们删除。