作者:禅与计算机程序设计艺术
1.简介
大数据并非什么新名词或新理念,它是指海量、高维、复杂的数据集合。对于数据处理的工程师而言,掌握大数据的分析、挖掘和优化技巧至关重要。数据量越大,处理起来就越复杂,所面临的问题也就越多,包括数据的质量问题、时效性问题、增长问题等等。数据优化,也就是对数据的完整性、正确性、有效性进行更好的维护、加快更新和扩充。数据优化策略是各种解决方案的基础和关键,也是提升业务运营能力的一项重要手段。
但是,如何通过科学的优化策略、先进的方法、智慧的洞察力、实用的方法、创新的模型来管理和处理大型数据?在这个问题上,机器学习及其相关的技术已经扮演了重要角色。那么,如何将机器学习应用于大数据优化领域,就是本文要研究的重点。
因此,本文以"大数据优化"作为主题,主要分以下几个方面进行讨论:
- 数据敏感度
- 数据分布
- 数据关联性
- 维度和特征选择
- 类别匹配
- 标签噪声
2.基本概念术语说明
2.1 数据敏感度
数据敏感度(Data Sensitivity)是指数据中各个特征对分类的敏感程度,越敏感的数据,需要更精确的分类规则才能准确识别出目标类别。
2.2 数据分布
数据分布(Distribution of Data)是指数据的概率密度函数,也就是说数据集中每个数据出现的可能性。直观地来说,数据分布越均匀,分类效果就越好。
2.3 数据关联性
数据关联性&#x
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。