一、 实验目的
本实验考察学生Hadoop平台下的环境配置、分布式文件存储操作和管理以及基于Hadoop的分布式编程的设计与实现。
二、 实验环境
Linux的虚拟机环境、线上操作视频和实验指导手册
三、 实验任务
完成Hadoop开发环境安装、熟悉基本功能和编程方法。
四、 实验步骤
请按照线上操作视频和实验知道手册,完成以下实验内容:
实验1-1 Hadoop安装部署
(1)登录虚拟机
(2)主机配置:主机名、网络和免密登录等
(3)Hadoop主节点和从节点配置
(4)启动Hadoop集群和网页操作界面
实验1-2 Hadoop常用命令
(1)Hadoop启动与状态查看等命令
(2)HDFS目录操作、文件操作等命令
实验1-3 MapReduce编程:单词计数
(1)使用Eclipse新建Hadoop项目
(2)使用单词计数示例代码编写MapReduce程序
(3)编译并运行MapReduce程序
五、 实验作业
1、提交实验报告电子稿和纸质稿,内容包括安装步骤及主要配置方法说明,关键步骤截图,并对截图内容进行解释说明;
2、个人对实验的总结和心得
3、搜索互联网并回答问题:谈谈利用大数据可以在未来促进哪些具体方面可持续发展?并请在其中选取一个详细的例子说明。(回答需大于500字,回答讲述越透彻,分数越高)
六、 实验结果与分析
1、安装步骤及主要配置方法说明
实验1-1 Hadoop安装部署
1、测试主从机是否成功联网
2、三台主机分别完成时钟同步(这里仅演示master主机)
3、依次配置三台虚拟机的java环境
这里仅演示slave02虚拟机java环境安装成功。
4、安装部署Hadoop集群
三台虚拟机解压hadoop并配置环境变量,此处不截图。
格式化Hadoop文件目录
5、启动Hadoop集群
使用jps查看节点是否启动成功
查看namenode和datanode是否正常
检查Yarn是否正常
运行指定命令后查看pi的值
通过以上三步验证,发现hadoop安装成功,集群正常启动
实验1-2 Hadoop常用命令
1、列出目录及文件
2、递归列出目录及文件
3、创建目录
4、上传文件
5、下载文件
6、删除文件
实验1-3 MapReduce编程:单词计数
1、启动hadoop集群、eclipse
2、编写核心代码
3、运行测试
运行jar包执行分割
2、实验的总结和心得
本次实验主要完成Hadoop环境的安装、集群配置、了解常用的Hadoop指令、使用Hadoop完成单词分割的小程序。通过三个实验让我初步了解Hadoop运行过程,Hadoop是一个分布式的架构,所以在实验过程中至少需要三台虚拟机即一台主机,两台从机,由此可以体会集群配置。在实验过程中,我对hadoop操作更加熟悉同时对Linux下虚拟机的操作更加熟练,目前我仅通过单词分割的例子来感受hadoop的功能,这还不够明显,hadoop本身是一个能够对大量数据进行分布式处理的软件框架,所以未来需要通过更多的实例来感受hadoop的强大功能。
整体配置难度不大,相对来说繁琐程度大于难度,尤其是其中的权限问题,即在正确的权限下操作会避免后续的错误。
实验总结:
1、多虚拟机配置相同环境,可以编写shell脚本自动执行,避免大量繁琐重复无意义的配置。
2、重视权限问题,使用root权限创建文件可能导致普通用户写入时出现权限不够的情况。
3、hadoop在删除文件时遇到多层目录的情况要选择使用 -rmr 命令,否则无法完成级联删除。
4、hadoop主要应用于大数据的计算,所以计算过程相对较慢。
3、问题:谈谈利用大数据可以在未来促进哪些具体方面可持续发展?并请在其中选取一个详细的例子说明。
大数据可以应用于金融领域、安防领域、能源领域、业务领域、医疗领域、电力行业领域等。
大数据应用于金融领域是比较常见的。大数据所带来的社会变革已经深入到人们生活的各个方面,金融创新离不开大数据,日常的出行、购物、运动、理财等等。金融业面临众多前所未有的跨界竞争对手,市场格局、业务流程将发生巨大改变。未来的金融业将开展新一轮围绕大数据的IT建设投资。据悉,目前,中国的金融行业数据量已经超过100TB,非结构化数据迅速增长。分析人士认为,中国金融行业正在步入大数据时代的初级阶段。优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。信贷风险评估。在传统方法中,银行对企业客户的违约风险评估多是基于过往的信贷数据和交易数据等静态数据,这种方式的最大弊端就是缺少前瞻性。因为影响企业违约的重要因素并不仅仅只是企业历史的信用情况,还包括行业的整体发展状况和实时的经营情况。而大数据手段的介入使信贷风险评估更趋近于事实。
内外部数据资源整合是大数据信贷风险评估的前提。一般来说,商业银行在识别客户需求、估算客户价值、判断客户优劣、预测客户违约可能的过程中,既需要借助银行内部已掌握的客户相关信息,也需要借助外部机构掌握的人行征信信息、客户公共评价信息、商务经营信息、收支消费信息、社会关联信息等。该部分策略主要目标为数据分析提供更广阔的数据维度和数据鲜活度,从而共同形成商业银行贷款风险评估资源。
供应链金融。供应链金融的风险控制从授信主体向整个链条转变。供应链核心企业拥有良好的资产、充足的资金和高额的授信额度。而依附于核心企业的上下游企业可能需要资金,但是贷不到款。供应链金融可以由核心企业做担保,以产品或应收账款做质押,帮助上下游企业获得资金。
利用大数据技术,银行可以根据企业之间的投资、控股、借贷、担保以及股东和法人之间的关系,形成企业之间的关系图谱,利于关联企业分析及风险控制。知识图谱在通过建立数据之间的关联链接,将碎片化的数据有机的组织起来,让数据更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利。
在风控上,银行以核心企业为切入点,将供应链上的多个关键企业作为一个整体。利用交往圈分析模型,持续观察企业间的通信交往数据变化情况,通过与基线数据的对比来洞察异常的交往动态,评估供应链的健康度及为企业贷后风控提供参考依据。
版权归原作者 MrNeoJeep 所有, 如有侵权,请联系我们删除。