0


数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章


前言

    数据科学不是以一个特定理论(如统计学、机器学习和数据可视化)为基础发展起来的,而是包括数学与统计学、特定学科领域理论在内相互融合后形成的新兴学科。本文将对数据科学的理论基础(统计学、机器学习、数据可视化、某一领域实务知识与经验)作一个简要介绍。

一、数据科学的学科地位

    从学科定位看,数据科学处于**数学与统计知识**、**黑客精神**与**技能和领域实务知识**三大区域的重叠之处,如图2所示。图2是Drew Conway首次提出数据科学韦恩图。图3是后来Jerry Overton提出的另一个版本。

    **"数据与统计知识"**是数据科学的主要理论基础之一,但数据科学与(传统)数学和统计学是有区别的。其主要区别如下:
  •     数据学科中的“数据”  != “数值”  and “数据” != “数值”
    
  •     数据科学中的“计算” != “加、减、乘、除等数学运算”,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
    
  •     数据科学的问题 != “单一学科”的问题,还涉及到多个学科的研究范畴,它强调的是跨学科视角
    
  •     数据学科 != 纯理论研究 and 数据学科 != 领域实务知识,它关注和强调的是二者的结合。
    
      **“黑客精神与技能”**是数据科学家的主要精神追求和技能要求 --- 大胆创新、喜欢挑战、追求完美和不断改进。
    
      Tips : 此处涉及到黑客道德准则,感兴趣的朋友可以查阅史蒂夫 · 利维的代表作《黑客---计算机革命的英雄》。
    
      **“领域实务知识”**是对数据科学家的特殊要求 --- 不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。
    

二、统计学

2.1 统计学与数据科学

    数据科学的理论、方法、技术和工具往往来源于统计学。统计学是数据科学的主要理论基础之一。

2.2 数据科学中常用的统计学知识

    从**行为目的与思维方式**看,数据统计方法可以分为两大类---描述统计和推断统计。

    其中参数估计与假设检验的**主要区别**如下:

    从**方法论**角度看,基于统计的数据分析方法又可分为两个不同层次---基本分析法和元分析方法,如下图所示:

2.3 数据科学视角下的统计学

    1.不是随机样本,而是全体数据
    2.不是精确性,而是混杂性
    3.不是因果关系,而是相关关系


三、机器学习

3.1 机器学习与数据科学

    机器学习为数据科学中充分发挥计算机的自动数据处理能力,拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。

    基本思路:以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。

3.2 数据科学中常用的机器学习知识

1)基于实例学习

    基本思路:事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与以前存储的实例之间的关系,并据此把一个目标函数赋给一个新增实例。

    常用方法:K近邻方法、局部加权回归法、基于案例的推理。

2)概念学习

    本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。

    具体方法:Find-S算法、候选消除算法等。

3)决策树学习

    本质:一种逼近离散值目标函数的过程。它代表的是一种分类过程。

    其中:

            根节点:代表分类的开始

            叶节点:代表一个实例的结束

            中间节点:代表相应实例的某一属性

            节点之间的边:代表某一个属性的属性值

            从根节点到叶节点的每条路径:代表一个具体的实例,同一个路径上的所有所有属性之间是“逻辑与”关系。

    核心算法:ID3算法

(4)人工神经网络学习
人工神经元是人工神经网络的最基本的组成部分。

    根据连接方式的不同,通常把人工神经网络分为无反馈的向前神经网络和相互连接型网络(反馈网络)。在人工神经网络中,实现人工神经元的方法有很多种,如感知器、线性单元和Sigmoid单元等。

    特征学习方法:深度学习

(5)贝叶斯学习
定义:它是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法。

    常用方法:朴素贝叶斯分类器

(6)遗传算法
本质:主要研究“从候选假设空间中搜索出最佳假设”。此处,“最佳假设”指“适应度”指标为最优的假设。

    遗传算法借鉴的生物进化的三个基本原则:适者生存、两性繁衍及突变,分别对应遗传算法的三个基本算子:选择、交叉和突变。

    遗传算法:GA算法

(7)分析学习
特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些假设能使机器学习系统比单独依靠数据进行泛化有更高的精度。

(8)增强学习
本质:主要研究的是如何协助自治Agent(机器人)的学习活动,进而达到选择最优动作的目的。

    基本思路:当Agent在其环境中做出某个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。

根据学习任务的不同,机器学习算法分为:有监督学习、无监督学习和半监督学习。


3.3 数据科学视角下的机器学习

机器学习领域所面临的主要挑战有:

  • 过拟合
  • 维度灾难
  • 特征工程
  • 算法的可扩展性
  • 模型集成

四、数据可视化

数据可视化在数据科学中的地位:

(1)视觉是人类获得信息的最主要的途径。

  •       视觉感知是人类大脑的最主要的功能之一。
    
  •       眼睛是感知信息能力最强的人体器官之一。
    

(2)相对于统计分析,数据可视化的主要优势为:

  •       数据可视化处理可以洞察统计分析无法发现的结构和细节。
    
  •       数据可视化处理结果的解读对用户知识水平的要求较低。
    

(3)可视化能够帮助人们提高理解与处理数据的效率。

五、总结

    通过完成本章的学习,我对数据科学有了一定的了解,对统计学、机器学习、数据可视化有了一定的认识,后面还将花时间进行更加深入的学习。
标签: 大数据

本文转载自: https://blog.csdn.net/TPforcle/article/details/124616754
版权归原作者 TPforcle 所有, 如有侵权,请联系我们删除。

“数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章”的评论:

还没有评论