Kaggle
机器学习竞赛、托管数据库、编写和分享代码
注册:
安装插件:Header Editor (参考链接见文末)
注册后:首页:
导航栏、搜索栏、社交栏、个人信息
代码查找、下载
数据集下载:
下载全部数据、下载单个数据、命令行(安装pip install kaggle)
代码:
保存至自己的项目
修改项目题目、保存
项目建立、运行、模型保存
上传数据集:
也可以直接拖动文件到空白处上传。有文件夹的情况,压缩再上传。
编写代码:
保存、添加/选择数据集、输入、输出、语言
训练结果(可打开、保存)
机器学习竞赛:
打开任意一个:
Data数据模块:注意数据规模、数据类型,用合适的服务器。kaggle 用户的每个 kernel 可以有 16G 的内存和 4 核CPU,这足够打多数比赛了。另外,提供了 GPU,在新建 kernel 的时候可以选择开启 GPU,但当打开 GPU 时,CPU 和内存资源会少一些。
kaggle 平台上的比赛分4类:挖掘、图像、语音、NLP
Rules :比赛规则。提交次数:这里会写明每天允许的最大提交次数,一般是5次。另一个是组外私自分享代码和结果,这也是明令禁止的。组队之后队员之间可以分享,或者通过公开的 kernel或discussion区分享。每个队伍最多4个人,并且是可以共享代码。Kernels :核心代码。支持 Python 语言的脚本 .py 和 .ipynb,和 R 语言的脚本 .R 和 .ipynb。分 public kernel 和 private kernel。Discussion :讨论区。Leaderboard:排名区,分 public LB 和 private LB。比赛方会将 test 数据集中一部分(比如 30%)拿出来做为 public LB 评分和排名,剩下的部分作为 private LB(最终结果)的评分和排名。
每天都可以提交并查看自己的答案在 public LB 的得分和排名情况,在比赛结束前需要选择两个提交作为自己的最终答案,比赛结束后,平台会计算答案的 private LB 得分并自动挑选得分高的一个作为最终成绩。
CV score、LB score,指的是模型本地交叉验证的得分和提交后的 public LB 得分。shake up:public LB 得分可能会和 private LB 得分差别很大,一般是模型过拟合了。
参考链接
版权归原作者 ..dreamer 所有, 如有侵权,请联系我们删除。