大数据分析案例-基于多元线性回归算法构建用户信用评分模型

通过使用python大数据的方法来建立信用评分模型,能提高效率,降低了人为决策的成本。对于金融机构来说,可以根据这个分数决定授信与否,授信额度,利率等。而对于客户来说,通过了解自己的信用分数,可以更好的做出决策。本次实验最后构建的模型为线性回归模型,模型平均绝对误差为3.36,均方误差为18.29,

大数据开发语言Scala(一)——scala入门

package: 包,等同于java中的packageobject:关键字,声明一个单例对象(伴生对象)main方法:从外部可以直接调用执行的方法def 方法名称( 参数名称 : 参数类型 ) : 返回值类型 = { 方法体 }Scala 完全面向对象,故scala去掉了Java中非面向对象的元

【李老师云计算】实验二:Spark集群的搭建与求解最大值

Spark配置及Scala实现100个随机数找最大值

夜莺(Flashcat)V6监控(一):介绍及其部署

夜莺监控( Nightingale )是一款国产、开源云原生监控分析系统,采用 All-In-One 的设计,集数据采集、可视化、监控告警、数据分析于一体。于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 60 多个版本。从 v5 版本开始与 Prometheus

【业务数据分析】——十大常用数据分析方法

如果把数据分析比作盖房子,那么数据分析方法就是设计方案,解决房子装修的各种问题。如果没有学习数据分析方法,在面对一堆数据分析问题时,只会手足无措,根本不知道从哪里开始分析,需要分析什么。

2023第十三届MathorCup高校数学建模挑战赛C题解析

数学建模主要是让大家构建自己的模型,只要能解决问题的模型就是好模型,无标准答案。我个人的分析过程大致如下文,仅个人观点不一定是正确的,不说太多怕限制了大家的思维哈哈哈。

从源码全面解析 ArrayBlockingQueue 的来龙去脉

并发编程在互联网技术使用如此广泛,几乎所有的后端技术面试官都要在并发编程的使用和原理方面对小伙伴们进行 360° 的刁难。作为一个在互联网公司面一次拿一次 Offer 的面霸,打败了无数竞争对手,每次都只能看到无数落寞的身影失望的离开,略感愧疚(请允许我使用一下夸张的修辞手法)。于是在一个寂寞难耐的

Hadoop之hdfs操作

HDFS的常见Shell操作直接在命令行中输入hdfs dfs,可以查看dfs后面可以跟的所有参数注意:这里面的[]表示是可选项,<>表示是必填项[root@bigdata01 hadoop-3.3.2]# hdfs dfsUsage: hadoop fs [generic option

【Redis系列】Redis布隆过滤之8亿大数据集实战

接到一个优化场景:小程序用户的openid作为最主要的业务查询字段,在做了缓存设计之后仍有非常高频的查询,通过埋点简单统计约在每日1000w次。其中:由于有新增用户,新增矩阵小程序等原因,导致请求的openid根本不存在MySQL数据库中,这部分统计约占30%左右,也就是约300w次查询是浪费的。解

分布式系统中的那些一致性(CAP、BASE、2PC、3PC、Paxos、ZAB、Raft)

工作过几年的同学,尤其是这几年,大家或多或少都参与过分布式系统的开发,遇到过各式各样“分布式”问题,而遇到这些问题去解决时就是我们对这个知识学习的过程。不知道大家是否跟我一样,每每搜索到“分布式”关键词,总会出现各种“分布式理论”,比如CAP、BASE理论、2PC、3PC 以及 Paxos、Raft

2023年Spark大数据处理讲课笔记

scala、spark、spark rdd、spark sql、spark streaming

(最新版本)hive4.0.0 + hadoop3.3.4 集群安装(无坑版)-大数据学习系列(一)

网上的找的文档大多残缺不靠谱,所以我整理了一份安装最新版本的hive4..0.0+hadoop3.3.4的学习环境,可以提供大家安装一个完整的hive+hadoop的环境供学习。Hive Metastore是Hive的元数据存储服务,需要确保Metastore服务已经启动,并且在Beeline的配置

ElasticSearch 中 should 设定优先级

在 Elasticsearch 中,查询时可以使用 should、must 和 must_not 关键字来组合多个查询条件。这些关键字定义了查询条件之间的关系,并决定了查询结果的匹配程度。在 Elasticsearch 中,使用多个 should 查询条件时,可以通过设定优先级来控制查询结果的匹配程

大数据技术原理与应用实验4——MapReduce初级编程实践

(1)通过实验掌握基本的MapReduce编程方法;(2)掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。

人工智能的历史、现在与未来

人工智能的历史、现在与未来

2013-2020年全国31省数字经济信息化基础数据

2013-2020年全国31省数字经济信息化基础

【2022年计算机设计大赛大数据主题赛--和鲸赛道】参赛作品:当疫情对上经济:是毁灭性的打击还是重生

但对于经济发达的欧洲国家来说,虽然他们经济发达,不少国家都是发展国家,但因为他们的经济结构较为单一,缺少工业生产部分,经济上的较为依赖科技输出,但在全球经济遭受停摆的情况下,这种单一的经济结构承受不起这样大的冲击,所以欧洲国家遭受新冠疫情的影响是最大的,GDP增幅下降是最大的。从上图15中我们可以看

毕业设计-基于大数据的股票预测系统-python

毕业设计-基于大数据的股票预测系统-python:随着股票市场的不断发展,产生了大量的股票数据。但这 些历史数据往往被人们所忽略它们的价值或者在对历史数据 进行分析的过程中,难以深层次的挖掘出真正的对人们有用的 价值,信息的利用率较低。并且股票市场向来“阴晴不定”,股价 的高低起伏很大,而股票的价格

SparkLaunch提交Spark任务到Yarn集群

SparkLaunch提交Spark任务到Yarn集群

ClickHouse 介绍

ClickHouse介绍!

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈