大数据 - overfit.cn

视频号|常见违规限流情况及解除方法

视频号有哪些违禁词？什么情况下会被限流？如何解除限流？这些问问统统给大家找到答案了，点击了解详情

overfit同步小助手 2023-04-27 06:04:04 0 收藏

FlinkSQL消费Kafka写入Hive表

flinkSQL消费kafka实时写入hive表

overfit同步小助手 2023-04-27 05:03:49 0 收藏

Kafka的命令行操作

每个分区多个副本的主节点编号，这个在集群中才会是其它值，这里是单机模式，值等于唯一副本编号。执行此命令后，再来新的数据，也会被继续消费，就和普通的消费者一样。如果想要读取历史数据，可以选择把主题中的数据全部读取出来。就是在刚才的光标下继续输入一个数据，再回车即可。：分区编号是0，代表只有一个分区，编

overfit同步小助手 2023-04-27 03:03:44 0 收藏

实时数据湖 Flink Hudi 实践探索

本文介绍的介绍的主题是 Flink 和 Hudi 在数据湖 Streaming 方向的一些探索和实践，将会围绕以下四点展开：• Apache Hudi 背景介绍• Flink Hudi 设计• Hudi 应用场景• Hudi RoadMap

overfit同步小助手 2023-04-27 01:03:58 0 收藏

logstash配置kafka输入无法获取kafka数据报错

logstash 配置kafka 接入kafka 认证

overfit同步小助手 2023-04-27 01:03:41 0 收藏

MySQL优化：批量插入大数据4种实用、讲究方案的测试

记录MySQL插入大数据一些方案的测试心得，即for循环插入、拼接SQL语句、批量插入saveBatch()、循环插入 + 开启批处理模式，该4种情况的测试内容，最终以平均耗时来预测各方案的性能问题，可得知开启批处理模式的方案效率是最高的，但是必须注意一个点：一定要开启批处理模式，在URL地址加入r

overfit同步小助手 2023-04-27 01:03:38 0 收藏

在Windows下的flume 安装，部署及和kafka组合使用

一，Windows下配置环境变量此电脑->右键属性->系统->高级系统设置->环境变量（1）环境变量名：FLUME_HOME变量值：就是安装的flume的路径例如我自己的是：FLUME_HOME；E:\flume\apache-flume-1.9.0-bin（2）在path

overfit同步小助手 2023-04-27 00:03:41 0 收藏

基于python大数据的电影可视化分析及电影推荐

本系统采用Python开发技术，结合广泛使用的MYSQL作为后台存储数据库。利用面向对象的思想，采用业界流行的MVC体系结构即模型-视图-控制器，减少各层之间的耦合，并对未来团队合作开发大型商业应用程序进行实践锻炼。系统主要实现了数据采集模块和数据分析模块及电影数据推荐模块。本文通过需求分析、可行性

overfit同步小助手 2023-04-26 23:03:40 0 收藏

Elasticsearch版本升级实践、注意事项

从官方文档看可以发现两个大版本升级需要关注到具体的版本，比如想从 5.x 版本升级到 7.x 版本，就必须先升级到 6.8 版本，再从 6.8 升级到 7.x 版本。1. API检查是否可以升级，不能则先改造2. 升级ES集群（此时依然使用6.8客户端，兼容访问6.8/7.17集群）3. 重建索引（

overfit同步小助手 2023-04-26 23:03:36 0 收藏

Spark 内存迭代计算

Spark内存迭代计算，算子之间形成DAG，每个task根据并行度在内存中不断迭代计算

overfit同步小助手 2023-04-26 22:03:53 0 收藏

Hudi系列15:Hudi元数据同步到Hive

Hudi元数据同步到Hive

overfit同步小助手 2023-04-26 22:03:49 0 收藏

39学习分布式计算框架 Hadoop 的高可用方案，如 NameNode 集群、ZooKeeper

在启动 Hadoop 集群后，使用 Hadoop 命令和 API 可以轻松地测试和管理 NameNode 高可用性。在 Hadoop 集群中，NameNode 是一个关键组件，它负责管理 Hadoop 分布式文件系统（HDFS）中的文件和目录。要配置 NameNode 集群，需要在 Hadoop 配

overfit同步小助手 2023-04-26 22:03:45 0 收藏

Flink在Yarn模式部署和命令

flink的yarn提交模式

overfit同步小助手 2023-04-26 22:03:36 0 收藏

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

网上经常盛传大数据=sql boy，后端开发=crud boy，算法工程师=调参boy在大数据领域也工作了好几年了，确实大数据开发，很多工作就是写sql，hive sql、spark sql、flink sql等等sql。

overfit同步小助手 2023-04-26 20:03:55 0 收藏

第1关：MapReduce综合应用案例 — 电信数据清洗

第1关：数据清洗MapReduce综合应用案例 — 电信数据清洗

overfit同步小助手 2023-04-26 19:03:41 0 收藏

kafka时间戳的详解及使用

Kafka从0.10.0.0版本起，在消息内新增加了个timestamp字段，在Kafka 0.10.1.0以前(不包含0.10.1.0)，对于一个Topic而言，其Log Segment是由一个.log文档和一个.index文档组合而成，分别用来存储具体的消息数据和对应的偏移量。

overfit同步小助手 2023-04-26 19:03:34 0 收藏

Hbase伪分布部署

本实验任务主要完成基于ubuntu环境的Hbase伪分布部署的工作。通过完成本实验任务，要求学生熟练掌握Hbase伪分布部署的方法，为后续实验的开展奠定Hbase平台基础，也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。1、掌握Hbase伪分布部署Ubuntu、Had

overfit同步小助手 2023-04-26 18:04:19 0 收藏

大数据项目实战之数据仓库：用户行为采集平台——第2章项目需求及架构设计

overfit同步小助手 2023-04-26 18:04:08 0 收藏

大数据--python远程连接Hive

步骤：启动metastore启动hiveserver2使用beeline进行连接测试，查看地址等是否能够成功连接(确认无误可以跳过)使用python连接hive(粗暴的文件配置以及完整操作见文末)一.启动hiveserver21.配置mode为http，端口为10001(默认)<propert

overfit同步小助手 2023-04-26 17:03:43 0 收藏

上海罗森便利副总经理何韻民：我们不要为了数字化而数字化，要让数字化为实体服务丨数据猿专访...

‍数据智能产业创新服务媒体——聚焦数智· 改变商业数字化正在进入深水区。随着云计算、大数据、人工智能等技术的发展，全球数字化浪潮滚滚而来。可以看到，各国推行建设数字经济积极政策，各行业也在寻求融合数字化最优解。便利店，是人们最为熟悉的实体零售场景之一，如今也在积极拥抱数字化。谈及便利店，日企是绕不开

overfit同步小助手 2023-04-26 15:03:48 0 收藏