花了本人5r买的
希望学弟学妹们就不用花这个冤枉钱了~
答案仅作参考,大家还是尽量自己完成作业哈!
虽然题目乍一看不太会,但是认真听课加上一些课外知识的搜索,这些题目都是可以完成的~(主要是上这门课看见好多穿军训衣服的学弟学妹,哈哈,感觉非理工科的也不在少数,大家加油鸭)
【作业】第一单元:大数据思维与技术认知 第一单元作业
1、 问题:列举生活中常见的信息系统。
评分规则: 【 列举出4个及以上信息系统得满分4分,每少1个扣1分,最低0分。
】
第一单元:大数据思维与技术认知 第一单元测试
1、 问题:课程中提出的做事八字母法,是以下:
选项:
A:PCDL,TIPO
B:PADL,TIPO
C:PCDL,TIDO
D:PADL,TIDO
答案: 【PCDL,TIPO】
2、 问题:分布式文件系统的设计目标主要包括透明性、并发控制、可伸缩性、容错以及安全需求等,客户端对文件的读写不影响其他客户端对同一个文件的读写体现了()。
选项:
A:并发控制
B:透明性
C:可伸缩性
D:容错
答案: 【并发控制】
3、 问题:Hive是一个构建于()顶层的数据仓库工具,主要用于对存储在()文件中的数据集进行数据整理、特殊查询和分析处理。
选项:
A:Hadoop
B:Impala
C:Spark
D:BigTable
答案: 【Hadoop】
4、 问题:下面哪个程序负责HDFS数据存储?
选项:
A:Datanode
B:Jobtracker
C:NameNode
D:secondaryNameNode
答案: 【Datanode】
5、 问题:大学需要学习以及培养的能力有:
选项:
A:快速的学习能力
B:系统的思维方法
C:丰富的知识图谱
D:深厚的理论知识
答案: 【快速的学习能力;
系统的思维方法;
丰富的知识图谱】
6、 问题:网络空间大数据正在面临三个方面的挑战,分别是:
选项:
A:大数据极易获取
B:大数据成为网络攻击的显著目标
C:大数据加大个人隐私信息泄露风险
D:大数据存储和安全防范措施不完善
答案: 【大数据成为网络攻击的显著目标;
大数据加大个人隐私信息泄露风险;
大数据存储和安全防范措施不完善】
7、 问题:网络空间大数据资源的技术驱动包括:
选项:
A:感知设备的普及
B:物联网体系架构逐步成熟
C:社交网络承载
D:云计算为支撑
答案: 【感知设备的普及;
物联网体系架构逐步成熟;
社交网络承载;
云计算为支撑】
8、 问题:从防护视角来看,网络空间大数据主要威胁在于:
选项:
A:用户隐私保护
B:数据的可信性
C:数据的访问控制以及APT
D:数据的存储安全
答案: 【用户隐私保护;
数据的可信性;
数据的访问控制以及APT;
数据的存储安全】
9、 问题:很多信息安全问题与人有关,无论有意还是无意,只要造成了某种破坏,都属于信息攻击。
选项:
A:正确
B:错误
答案: 【错误】
10、 问题:在大数据分析中,数据的时间变化后,模型不会发生变化。
选项:
A:正确
B:错误
答案: 【错误】
11、 问题:HDFS分布式文件系统在物理结构上由计算机集群中的多个节点构成的,其中数据节点是系统结构的核心。
选项:
A:正确
B:错误
答案: 【错误】
12、 问题: Hadoop将数据直接存放到内存进行计算,因此读取速度要比存放在硬盘中快的多。
选项:
A:正确
B:错误
答案: 【错误】
13、 问题:HDfS 中的 block 默认保存3份。
选项:
A:正确
B:错误
答案: 【正确】
第二单元:大数据分析领域技术 第二单元测试
1、 问题:以下不属于大数据特点的是?
选项:
A:价值密度高
B:处理速度快
C:应用价值大
D:数据容量大
答案: 【价值密度高】
2、 问题:下面哪个程序负责HDFS数据存储?
选项:
A:Datanode
B:Jobtracker
C:NameNode
D:secondaryNameNode
答案: 【Datanode】
3、 问题:网络空间大数据安全的基本内涵包括:
选项:
A:大数据自身安全
B:大数据安全应用
C:大数据存储安全
D:大数据维护安全
答案: 【大数据自身安全;
大数据安全应用】
4、 问题:网络空间大数据安全防御技术包括:
选项:
A:可信计算技术
B:访问控制技术
C:匿名化保护技术以及认证技术
D:数据水印以及数据溯源技术
答案: 【可信计算技术;
访问控制技术;
匿名化保护技术以及认证技术;
数据水印以及数据溯源技术】
5、 问题:网络空间大数据安全的基本内涵中,大数据自身安全即如何保护大数据自身安全,包括针对大数据抓取和大数据存储的安全性。
选项:
A:正确
B:错误
答案: 【错误】
6、 问题:Hadoop的文件API不是通用的,只适用于HDFS文件系统。
选项:
A:正确
B:错误
答案: 【错误】
【作业】第二单元:大数据分析领域技术 第二章单元作业
1、 问题:结合授课内容,试分析数据库、数据仓库的区别和联系。
评分规则: 【 区别围绕数据仓库的统计分析挖掘功能作答得1分,联系围绕存储、查询作答得1分。叙述清晰得1分。
】
2、 问题:什么是批量计算?什么是实时计算?各自有什么应用?
评分规则: 【 批量计算和实时计算作答合理即可,各1分,合计2分。答出相应的的应用即可得分,各1分,合计2分。
】
3、 问题:根据你的理解,简述课程中介绍的MapReduce的执行流程。
评分规则: 【 答出Map、Reduce过程1分,答出数据存储过程1分,叙述清楚1分。
】
第三单元:大数据分析编程基础 第三单元测试
1、 问题:Kali Linux基于()
选项:
A:Debian
B:Ubuntu
C:RedHat
D:Arch
答案: 【
Debian
】
2、 问题:vim为了输入文字,需要进入()
选项:
A:正常模式
B:插入模式
C:命令模式
D:可视模式
答案: 【插入模式 】
3、 问题:为了使文件能被任何一个人修改,需要将权限设置为()
选项:
A:777
B:644
C:611
D:771
答案: 【777】
4、 问题:Linux为了安装软件需要使用()
选项:
A:apt
B:gcc
C:make
D:g++
答案: 【apt】
5、 问题:以下哪种不是void类型的常见用法?
选项:
A:限定函数返回值
B:限定函数传入参数
C:void指针
D:void常量
答案: 【void常量】
6、 问题:Kali中包含的工具有
选项:
A:计算机取证
B:密码破解
C:破坏性病毒
D:木马
答案: 【计算机取证;
密码破解;
木马】
7、 问题:Linux下的文本编辑工具有()
选项:
A:vim
B:emacs
C:vi
D:grep
答案: 【vim;
emacs;
vi】
8、 问题:Linux的权限组分为()
选项:
A:owner
B:group
C:other
D:user
答案: 【owner;
group;
other】
9、 问题:以下()都是Linux发行版
选项:
A:Ubuntu
B:Debian
C:Arch
D:mac
答案: 【Ubuntu;
Debian;
Arch】
10、 问题:虚拟机分为()
选项:
A:TYPE1
B:TYPE2
C:TYPE3
D:TYPE4
答案: 【TYPE1;
TYPE3】
11、 问题:浮点类型包括以下哪几种类型?
选项:
A:short
B:float
C:double
D:long double
答案: 【float;
double;
long double】
12、 问题:指针的算数运算包括?
选项:
A:加
B:减
C:乘
D:除
答案: 【加;
减】
13、 问题:为了安全,Kali Linux只能安装在虚拟机中
选项:
A:正确
B:错误
答案: 【错误】
14、 问题:Linux文本编辑器无法使用鼠标操作
选项:
A:正确
B:错误
答案: 【错误】
15、 问题:网卡在Linux中也以文件的形式存在
选项:
A:正确
B:错误
答案: 【正确】
16、 问题:Linux可以运行在路由器上
选项:
A:正确
B:错误
答案: 【正确】
17、 问题:VMware Workstation Pro功能强大,是TYPE1的虚拟机
选项:
A:正确
B:错误
答案: 【错误】
18、 问题:C语言中,数组在内存中是连续的
选项:
A:正确
B:错误
答案: 【正确】
19、 问题:C语言中,使用动态内存分配函数获取的内存可以直接使用,无需类型转换
选项:
A:正确
B:错误
答案: 【错误】
【作业】第三单元:大数据分析编程基础 第三单元作业
1、 问题:随着计算机的不断发展,方便快捷的图形操作界面(GUI)在PC上逐渐取代了之前的命令行(CLI),但命令行(CLI)在当下仍有重要的用途,请阐述命令行(CLI)相比于图形操作界面(GUI)的优缺点。
评分规则: 【 优缺点共答出3条给80%分数,共答出5条给100%分数.
】
2、 问题:高级语言的出现极大地促进了软件工程的发展,使得程序员能够迅速、有组织地开发出功能更加强大的的应用程序,请阐述C语言相比于Python、Java语言的优缺点,并给出高级编程语言共同的特点。
评分规则: 【 优缺点、特点共答出3条给80%分数,共答出5条给100%分数
】
第四单元:大数据分析计算方法 第四单元测试
1、 问题:以下关于机器学习表述正确的是:
选项:
A:机器学习是让机器记忆人类的知识库的过程
B:机器学习让机器使用逻辑推理解决问题的过程
C:机器学习模拟了人类神经元的工作原理
D:机器学习的主要研究内容是学习算法
答案: 【机器学习的主要研究内容是学习算法】
2、 问题:AGNES算法的时间复杂度?
选项:
A:O(n^2)
B:O(n)
C:O(e^n)
D:O(1)
答案: 【O(n^2)】
3、 问题:Q-learning算法的智能体是什么?
选项:
A:神经网络
B:决策树
C:Q表
D:贝叶斯网络
答案: 【Q表】
4、 问题:在卷积神经网络计算中,已知输入特征层大小为32x32x64, 使用标准卷积计算,带偏置项,卷积核大小为3*3,输出特征层数目为64,请问卷积层的参数个数为?
选项:
A:576
B:36928
C:640
D:36864
答案: 【36928】
5、 问题:以下是分类模型的代理损失函数的是:
选项:
A:0-1损失函数
B:铰链损失函数
C:交叉熵损失函数
D:指数损失函数
答案: 【铰链损失函数;
交叉熵损失函数;
指数损失函数】
6、 问题:Mean Shift算法可用于
选项:
A:聚类
B:分类
C:图像分割
D:目标追踪
答案: 【聚类;
图像分割;
目标追踪】
7、 问题:Boosting家族的成员有
选项:
A:AdaBoost算法
B:GBDT算法
C:XGBoost算法
D:RF算法
答案: 【AdaBoost算法 ;
GBDT算法;
XGBoost算法】
8、 问题:对随机森林算法的说法正确的有
选项:
A:训练可以高度并行化,对于大数据时代的大样本训练速度有优势
B:由于采用了随机采样,训练出的模型的方差小,泛化能力强
C:对部分特征缺失很敏感
D:在某些噪音比较大的样本集上,容易陷入过拟合
答案: 【训练可以高度并行化,对于大数据时代的大样本训练速度有优势;
由于采用了随机采样,训练出的模型的方差小,泛化能力强;
在某些噪音比较大的样本集上,容易陷入过拟合】
9、 问题:KNN属于无监督学习
选项:
A:正确
B:错误
答案: 【错误】
10、 问题:信息增益准则对可取值数目较多的属性有所偏好
选项:
A:正确
B:错误
答案: 【正确】
11、 问题:Kmeans算法在聚类簇不发生改变时停止迭代
选项:
A:正确
B:错误
答案: 【正确】
12、 问题:由生成模型可以得到判别模型,但由判别模型得不到生成模型.
选项:
A:正确
B:错误
答案: 【正确】
13、 问题:模型欠拟合和过拟合问题都是可以解决的
选项:
A:正确
B:错误
答案: 【错误】
【作业】第四单元:大数据分析计算方法 第四单元作业
1、 问题:选取一种机器学习模型,简要介绍其原理和优点缺点
评分规则: 【 原理占60%分数,优点占20%分数,缺点占20%分数
】
2、 问题:线性判别分析仅在线性可分数据.上能获得理想结果,试设计一个改进方法,使其能较好地用于非线性可分数据
评分规则: 【 有整体思路给4分,详细设计给5分
】
3、 问题:支持向量机的基本思想是什么?解决什么分类问题?
评分规则: 【 决策边界最大化给2分、二分类./回归给1分
】
4、 问题:分析延时神经网络、卷积神经网络和循环神经网络的异同点
评分规则: 【 异点答出给50%分数,同点答出5条给100%分数.
】
5、 问题:简述PCA的原理,并分析其优缺点。
评分规则: 【 答出2条原理和3条优缺点给80%分,答出2条原理和5条优缺点给100%分数。
】
第五单元:大数据分析计算平台 第五单元测试
1、 问题:虚拟机监视器的英文全称和简称,是以下:
选项:
A:Virtual Machine Manager,VMM
B:Virtual Machine Monitor,VMM
C:Virtual Machine Keeper,VMK
D:Virtual Machine Controler,VMC
答案: 【Virtual Machine Monitor,VMM】
2、 问题:GPU最初是用来进行:
选项:
A:数据处理
B:图形处理
C:逻辑运算
D:科学计算
答案: 【图形处理】
3、 问题:Flink用来执行数据流任务或者子任务的是
选项:
A:TaskManagers
B:JobManagers
C:Client
D:全都是
答案: 【TaskManagers】
4、 问题:根据虚拟机监视器在虚拟化平台中所处的位置不同,可以将其分为以下哪些模式:
选项:
A:独立监控模式
B:混杂模式
C:混合模式
D:宿主模式
答案: 【独立监控模式;
混合模式;
宿主模式】
5、 问题:GPU针对的任务特点是:
选项:
A:类型一致
B:复杂多样
C:相互独立
D:计算密集
答案: 【类型一致;
相互独立;
计算密集】
6、 问题:Flink的基石是?
选项:
A:Checkpoint
B:State
C:Time
D:Window
答案: 【Checkpoint;
State;
Time】
7、 问题:虚拟化技术的目的是提高计算机硬件资源的利用率
选项:
A:正确
B:错误
答案: 【正确】
8、 问题:所有最新的GPU都可以使用cuda
选项:
A:正确
B:错误
答案: 【错误】
9、 问题:Flink只有SQL 有自动优化机制
选项:
A:正确
B:错误
答案: 【错误】
【作业】第五单元:大数据分析计算平台 第五单元作业
1、 问题:请从不同方面阐述全虚拟化、半虚拟化、硬件虚拟化三种虚拟化实现方式的优缺点(可以使用图表形式)
评分规则: 【 优缺点共答出3条给80%分数,共答出5条给100%分数.
】
2、 问题:请阐述GPU和CPU的主要区别
评分规则: 【 答出3条给80%分数,共答出5条给100%分数.
】
3、 问题:请阐述Flink组件栈各层的功能
评分规则: 【 介绍3层给80%,介绍4层给100%分数
】
第六单元:大数据分析特征工程 第六单元测试
1、 问题:下列关于特征工程的说法不正确的是:
选项:
A:特征工程是把一个原始数据转变为特征的过程
B:特征工程也可看成“洗数据”
C:特征工程避免了手动提取特征的麻烦
D:特征工程是机器学习的第一步,本质上是一项工程活动
答案: 【特征工程避免了手动提取特征的麻烦】
2、 问题:下列说法不正确的是:
选项:
A:结构化数据简单说就是数据库
B:结构化数据是可以放到表格中的数据类型
C:非结构化数据的数据结构不完整
D:非结构化数据是一种成熟的过程和技术
答案: 【非结构化数据是一种成熟的过程和技术】
3、 问题:全校学生1000人,男生600人,女生400人,现在需要选择10人作为全校学生代表,应当采取以下哪种采样方法:
选项:
A:欠采样
B:过采样
C:随机采样
D:分层采样
答案: 【分层采样】
4、 问题:数据中缺失值的存在不会给模型训练带来什么影响:
选项:
A:丢失大量有用信息
B:有缺失值对模型训练没有影响
C:增加系统的不确定性
D:影响模型性能
答案: 【有缺失值对模型训练没有影响】
5、 问题:以下哪个不是特征筛选的方法?
选项:
A:过滤式
B:包裹式
C:迭代式
D:嵌入式
答案: 【迭代式】
6、 问题:特征选择方法包括:
选项:
A:filter
B:wrapper
C:embedding
D:mixture
答案: 【filter;
wrapper;
embedding】
7、 问题:归一化方法应用在下列哪些场景
选项:
A:概率模型
B:SVM
C:线性回归
D:神经网络
答案: 【SVM;
线性回归;
神经网络】
8、 问题:特征降维的方法有:
选项:
A:LDA
B:PAC
C:MDS
D:LLE
答案: 【LDA;
MDS;
LLE】
9、 问题:常用的数据填充方法有:
选项:
A:人工填充
B:平均值填充
C:热卡填充
D:KNN填充
答案: 【人工填充;
平均值填充;
热卡填充;
KNN填充】
10、 问题:处理类别不平衡问题,可以使用以下哪些采样方法:
选项:
A:欠采样
B:过采样
C:随机采样
D:分层采样
答案: 【欠采样;
过采样】
11、 问题:二进制编码本质利用了二进制对ID进行哈希映射。
选项:
A:正确
B:错误
答案: 【正确】
12、 问题:归一化可以提高模型计算效率体现在了提高分类器的准确性
选项:
A:正确
B:错误
答案: 【错误】
13、 问题:数量级的差异会导致迭代收敛速度增加。
选项:
A:正确
B:错误
答案: 【错误】
14、 问题:词袋模型很好地考虑了语义之间的相似性
选项:
A:正确
B:错误
答案: 【错误】
15、 问题:特征降维就是PCA
选项:
A:正确
B:错误
答案: 【错误】
16、 问题:特征选择等价于降维
选项:
A:正确
B:错误
答案: 【错误】
17、 问题:数据中缺失值的出现往往是可以避免的。
选项:
A:正确
B:错误
答案: 【错误】
【作业】第六单元:大数据分析特征工程 第六单元作业
1、 问题:描述欠采样和过采样方法的概念和代表算法流程。
评分规则: 【 未答出代表算法流程给40%分数,答出1个代表算法流程给70%分数,答出每个方法的1个代表算法流程给100%分数。
】
2、 问题:选择一个包含缺失值的数据集,使用Pandas库编写Python代码,实现3种及以上的数据填充方法。
评分规则: 【 实现1种数据填充方法给30%分数,实现2种数据填充方法给60%分数,实现3种数据填充方法给100%分数。
】
3、 问题:简述箱型图的分析步骤,并且给出上下限计算公式
评分规则: 【 分位点选择1分,公式2分,异常值判定2分
】
4、 问题:阐述归一化的优势,以及标准化相对于归一化的优势
评分规则: 【 每答出一点给一分,答出四点给满分
】
第七单元:大数据分析工程实践 第七单元测试
1、 问题:本项目在文字转换成数字特征过程中,文本中每个词的编号是:
选项:
A:随机生成的一个整数
B:随机生成的一个数
C:根据词频,词频越大,编号越小
D:根据词频,词频越大,编号越大
答案: 【根据词频,词频越大,编号越小】
2、 问题:随机森林是Bagging的一个扩展变体,它以()作为基学习器构建Bagging集成,在决策树的训练过程中引入了随机属性选择。
选项:
A:决策树
B:支持向量机
C:K近邻
D:朴素贝叶斯分类器
答案: 【决策树】
3、 问题:计算机病毒造成的危害是:
选项:
A:使磁盘发霉
B:破坏计算机系统
C:使计算机内存芯片损坏
D:使计算机系统突然掉电
答案: 【破坏计算机系统】
4、 问题:在网络表征学习中常进行网络节点嵌入表示,本系统解决的任务中为获取节点的网络拓扑结构信息使用到的节点嵌入方法为:
选项:
A:注意力加权的霍克斯过程
B:BERT
C:doc2vec
D:Deepwalk
答案: 【Deepwalk】
5、 问题:自动摘要提取有哪些主流方法
选项:
A:抽取式
B:拼接式
C:随机式
D:生成式
答案: 【抽取式;
生成式】
6、 问题:评估命名实体是否被正确识别的要素?
选项:
A:实体的边界
B:实体的类型
C:实体的时态
D:全部错误
答案: 【实体的边界;
实体的类型】
7、 问题:B/S架构的优点有:
选项:
A:开发简单,共享性强
B:响应速度较快
C:可以跨平台
D:客户端零维护
答案: 【开发简单,共享性强;
可以跨平台;
客户端零维护】
8、 问题:特征工程一般包含哪些项目
选项:
A:特征提取
B:特征选择
C:特征构建
D:特征分类
答案: 【特征提取;
特征选择;
特征构建】
9、 问题:在构建模型进行西尼罗河病毒预测后,使用AUC指标对模型进行效果评估,AUC是ROC曲线下的面积,面积越大,模型预测结果越可靠。
选项:
A:正确
B:错误
答案: 【正确】
10、 问题:本项目在将每个词编码转换为词向量时,词向量只能是one-hot向量。
选项:
A:正确
B:错误
答案: 【错误】
11、 问题:恶意代码检测可分为静态检测和动态检测两种方法
选项:
A:正确
B:错误
答案: 【正确】
12、 问题:可以使用双向长短时记忆抽取字符级特征,交由条件随机场标注,减轻对词级别特征的依赖,来解决中文缺乏词边界的问题。
选项:
A:正确
B:错误
答案: 【正确】
13、 问题:LGB模型使用level-wise策略生长树
选项:
A:正确
B:错误
答案: 【错误】
14、 问题:孪生网络的两部分模型参数需要不一致。
选项:
A:正确
B:错误
答案: 【错误】
【作业】第七单元:大数据分析工程实践 第七单元作业
1、 问题:中国裁判文书网每年会有很多领域的文书,那么如何判断两篇文书的相似性呢?你能列出一篇文书的重要属性有哪些吗(以民间借贷文书为例)?
评分规则: 【 列出1,2,3,4,5点合理属性分别给20%,40%,60%,80%,100%分数。
】
2、 问题:集成学习在机器学习领域应用广泛,本系统在解决NLP领域问题时也包含其思想,请结合本系统中涉及到的集成学习思想,阐述对集成学习的认识。
评分规则: 【 未结合系统中涉及到的集成学习知识扣2分,对集成学习的认识阐述不完整扣1分。
】
3、 问题:请列举如今主流的实体关系抽取模型,并简述各自的优点。
评分规则: 【 至少列举3条,少列举一条扣2分。
】
版权归原作者 CindyHeYuki 所有, 如有侵权,请联系我们删除。