C题问题背景:
人类行为理解的一个重要方面是对日常活动的识别和监控。 可穿戴活动识别系统可以改善许多关键领域的生活质量,例如动态监测、家庭康复和跌倒检测。 基于惯性传感器的活动识别系统被用于个人报警系统远程监控和观察老年人[1]、跌倒检测和分类[2]、医疗诊断和治疗[3]、在家或学校远程监控儿童、 康复和物理治疗、生物力学研究、人体工程学、运动科学、芭蕾和舞蹈、动画、电影制作、电视、现场娱乐、虚拟现实和电脑游戏[4]。 我们尝试使用放置在身体不同部位的微型惯性传感器和磁力计来分类人类活动,得到以下数据
19 项活动中的每项活动均由 8 名受试者(4 名女性,4 名男性,年龄在 20 至 30 岁之间)进行 5 分钟。 每个受试者的每个活动的总信号持续时间为 5 分钟。 受试者被要求以他们自己的方式进行活动,并且不受活动应该如何进行的限制。 因此,某些活动的速度和幅度存在个体差异。
传感器单元被校准为以25Hz采样频率采集数据。将5分钟的信号分成5秒的片段,从而为每个活动获得480(=60×8)个信号片段。
这19项活动是:
1.坐(A1); 2.站立(A2); 3.仰卧(A3); 4.右侧卧(A4); 5.上行楼梯(A5); 6.下楼梯(A6); 7.站在电梯内静止(A7); 8.在电梯(A8)中四处移动; 9.在停车场行走(A9); 10.在平坦位置和15度倾斜位置以4km/h的速度在跑步机上行走(A10); 11.在15度倾斜位置以4km/h的速度在跑步机上行走(A11); 12.以8km/h的速度在跑步机上跑步(A12); 13.在步进器上锻炼(A13); 14.在交叉训练器上锻炼(A14); 15.在水平位置的健身自行车上骑行(A15); 16.在垂直位置的健身自行车上骑行(A16); 17.划船(A17); 18.跳跃(A18); 19.打篮球(A19)。
C题数据说明:
完整数据可以通过官方提供的链接下载: https://caiyun.139.com/m/i?OF5CJUOrpy8oq
其中部分的数据说明如下,需要完整版赛题翻译的小伙伴,可以在文章末尾免费获取。
C题任务:
1.请设计一组特征和有效的算法,以便根据这些人体佩戴传感器的数据对19种人类行为进行分类。
2.由于数据的高成本,我们需要在有限的数据集下使模型具有良好的泛化能力。我们需要专门研究和评估这个问题。请设计一个可行的方法来评估模型的泛化能力。
3.请研究并克服过度拟合问题,以便您的分类算法可以广泛应用于人们的行为分类问题。
C题参考思路:
C 题本质上来说属于分类问题,而且属于有导师分类问题,其中首先需要进行数据的预处理工作,这是因为题目给的数据很多都是量级和单位不一样的,如果不对数据进行处理就贸然分类将导致结果的不准确。
数据预处理包括:
- 数据清理(清洗):去掉数据中的噪声,纠正不一致。
- 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集, 如数据仓库。
- 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
- 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。
在这里需要做的主要是数据清理和数据变换,其中数据清理是将数据集中异常数据和缺失数据进行处理,数据变化常见的是归一化处理。
问题一思路:
对于第一问分类模型的选择,数据处理完成后即可进行分类工作,分类模型由于第三问牵扯到过拟合问题, 所以这里我比较推荐神经网络,因为神经网络很容易出现过拟合行为,但也可以对过拟合行为进行修正。
问题二思路:
对于第二问评价模型的泛化能力,神经网络的泛化能力(generalization),是指 BP 神经网络在学习完成以 后,BP 神经网络的推广应用能力。泛化能力是衡量 BP 神经网络性能优劣的一个 重要方面。这里可以选择数据分段的判别方式 所谓数据分段指的是将数据按照不同的比例进行验证,如 7:3、6:4、5:5 等划分为训练数据和验证数据,然后分别计算验证数据的误差即可。误差可以用 MSE(均方误差)计算。
问题三思路:
对于第三问请研究并克服过拟合问题,这里可以推荐的方法是基于遗传算法 的 BP 神经网络算法,以下是优化的过程:
C题完整思路获取:
以下是C题的部分思路,需要完整版解题思路的小伙伴,可以在文章末尾免费获取。
C题交流:
欢迎关注,以及时获取最新思路!
版权归原作者 爱数模的小云 所有, 如有侵权,请联系我们删除。