【毕业设计】基于机器学习与大数据的糖尿病预测
本项目以体检数据集为样本进行了机器学习的预测,但是需要注意几个问题:体检数据量太少,仅有1006条可分析数据,这对于糖尿病预测来说是远远不足的,所分析的结果代表性不强。这里的数据糖尿病和正常人基本相当,而真实的数据具有很强的不平衡性。也就是说,糖尿病患者要远少于正常人,这种不平衡的数据集给真实情况下
一篇文章读懂什么是CAP(基础入门)
一篇文章读懂什么是CAP,欢迎打卡,学习交流!
猿创征文|人工智能啾养成之路 - 写代码三天,CSDN治好了我的精神内耗
猿创征文|侯小啾的IT之路 - 写代码三天,CSDN治好了我的精神内耗
es不是实时更新的
es不是实时更新的
趁着中秋节来临之际,学学如何做好团队管理
关于技术管理学习
elasticsearch索引按日期拆分和定期删除
ES索引按日期拆分和定期删除,并且不影响原搜索逻辑
Elasticsearch:简体繁体转换分词器 - STConvert analysis
我的前同事 Medcl 大神,在上也创建了一个转换简体及繁体的分词器。这个在我们的很多的实际应用中也是非常有用的,比如当我的文档是繁体的,但是我们想用中文对它进行搜索。
湖仓一体电商项目(九):业务实现之编写写入DIM层业务代码
编写代码读取Kafka “KAFKA-DIM-TOPIC” topic维度数据通过Phoenix写入到HBase中,我们可以通过topic中每条数据获取该条数据对应的phoenix表名及字段名动态创建phoenix表以及插入数据,这里所有在mysql“lakehousedb.dim_tbl_conf
哈罗数据分析(SQL)笔试
SQL笔试
ES可视化工具--elasticsearch-head--下载、安装、使用
本文介绍ES可视化工具--ElasticSearch-Head的下载与安装的方法。
大数据随记 —— DataFrame 与 RDD 之间的相互转换
在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法
Flink
Flink 是第三代分布式流处理器,它的功能丰富而强大。
大数据项目中数据倾斜
大数据项目中数据倾斜
大数据精准营销数据分析处理(一)
大数据精准营销数据分析处理(一)
离线数仓(1):什么是数据仓库
数仓面向主题分析的特点在企业中数仓是一个不断维护的工程数仓分层并不局限于经典3层,可以根据自身需求进行调整没有好的架构,只有适合自己业务需求的架构它山之石可以攻玉注:其他 离线数仓 相关文章链接由此进 ->离线数仓文章汇总。...
【大数据】HDFS、Hive、FTP的内网间的相互传递(附脚本获取数据)
汝之观览,吾之幸也!本文讲解生产中会遇到的问题,一般集群都部署在外网,如果集群部署在内网,那么怎么同步之前的Hive数据到外网,或者两个内网间怎么同步Hive数据,本文主要以shell脚本演示。...
钱扣了,订单却是未支付,用户炸了——聊聊如何防止支付掉单
给客服姐姐下跪了……
程序员职业生涯系列:关于技术能力的思考与总结
引子儒、释(佛)、道三家思想:释(佛家):处理好人与心的关系,我们要战胜自己;儒(儒家):处理好人与人的关系,我们要团结好他人;道(道家):处理好人与自然的关系,我们应该顺势而为。明人陆绍珩《醉古堂剑扫》自叙有云:一愿识尽人间好人,二愿读尽世间好书,三愿看尽世间好山水。或曰:静则安能,但身到处,莫放
学习大数据必须掌握哪些核心技术?
大数据发展到今天,已经是越来越成熟,无论是大型互联网公司,还是小型的创业公司,都能看见大数据的身影。那么,学习大数据必须掌握哪些核心技术呢?数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据,写入数据仓库中,把零散的数据整合在一起,对这些数据进行综合分析。Flume NG作为实时日
ClickHouse与Elasticsearch压测实践
众所周知,ClickHouse在基本场景表现非常优秀,性能优于ES,但是我们实际的业务查询中有很多是复杂的业务查询场景,甚至是大数量的查询,所以为了在双十一业务峰值来到前,确保大促活动峰值业务稳定性,针对ClickHouse 和Elasticsearch在我们实际业务场景中是否拥有优秀的抗压能力,通