大数据 - overfit.cn

Kafka可视化管理工具kafka-manager部署安装和使用

overfit同步小助手 2023-07-14 10:04:36 0 收藏

【大数据入门核心技术-Impala】（一）Impala简介

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impal

overfit同步小助手 2023-07-14 09:03:59 0 收藏

Hive sql 将多个字段组合成json格式

新的项目中，有一个需求，前端展示一个字段中要包含多个字段，讨论后决定将多个字段转成Json类型进行展示，新字段类型为。经历了多次试验，参考多个文章版本，终于改成了符合需求的SQL版本。

overfit同步小助手 2023-07-14 08:04:22 0 收藏

初探Flink的Java实现流处理和批处理

Flink的批处理和流处理的Java实现

overfit同步小助手 2023-07-14 07:04:28 0 收藏

Kafka与Flume的对比分析

同时，Kafka的生态也更加完善丰富，支持更多的数据类型和协议。每个Partition都有一个Offset，消费者可以跟踪每个Partition的Offset，以确保数据的正确性。Kafka是一种更通用的系统，可用于更广泛的事物（包括消息队列、事件存储或日志存储），而Flume则是专门为日志存储及采

overfit同步小助手 2023-07-14 07:04:20 0 收藏

解决RabbitMQ的The channelMax limit is reached. Try later.

channelMax

overfit同步小助手 2023-07-14 07:03:52 0 收藏

多个消费者订阅一个Kafka的Topic(使用KafkaConsumer和KafkaProducer)

记录：466场景：一个KafkaProducer在一个Topic发布消息，多个消费者KafkaConsumer订阅Kafka的Topic。每个KafkaConsumer指定一个特定的ConsumerGroup，达到一条消息被多个不同的ConsumerGroup消费。

overfit同步小助手 2023-07-14 04:04:29 0 收藏

HBase数据表查询操作和获取多版本数据

HBase中的表包含列族，其列限定符包含值和时间戳。在大多数 HappyBase API 中，列族和限定符名称被指定为单个字符串，例如cf1:col1，而不是作为两个单独的参数。虽然列族和限定符在 HBase 数据模型中是不同的概念，但它们在与数据交互时几乎总是一起使用，因此将它们视为单个字符串会使

overfit同步小助手 2023-07-14 04:04:26 0 收藏

【kafka】记一次kafka磁盘空间爆满问题处理

解决kafka 的__consumer_offsets 磁盘空间占用过多问题

overfit同步小助手 2023-07-14 04:04:12 0 收藏

kafka简单介绍

kafka是一个分布式的，支持数据分区，多副本，基于zookeeper协调的分布式消息系统。上个文章介绍了rabbitmq，他和kafaka的最大区别就是kafak是分布式的，并发处理能力强大。broker：消息中间处理节点，一个kafka节点就是一个broker，可以组成集群produce：生产者

overfit同步小助手 2023-07-14 03:03:59 0 收藏

【全年汇总】2023年CCF人工智能会议截稿时间汇总（持续更新）

【Call for papers】2023年CCF人工智能会议信息汇总（持续更新）

overfit同步小助手 2023-07-14 03:03:53 0 收藏

数据治理之关键环节元数据管理开源项目datahub探索

元数据管理在数据治理中非常关键的部分，本篇分享一个现代化元数据管理开源项目datahub，了解其核心功能和概念，进一步理解器其架构和组件，然后从0到1的搭建和使用官方的数据样例演示，最后通过摄取MySQL和ClickHouse的示例打开其探索之门。

overfit同步小助手 2023-07-14 02:04:05 0 收藏

为什么很多企业依然再用jdk8而不是使用最新版本jdk17？

兼容性问题：JDK 8 是一个经过长期使用和测试的稳定版本，与许多企业应用程序和库已经兼容，而升级到新版本可能会导致兼容性问题。如果企业依赖于过时的库或框架，则升级到 JDK 17 可能会增加安全风险，因为这些库可能不支持最新版本的 JDK，从而使企业的系统容易受到攻击。如果企业在 JDK 8 上运

overfit同步小助手 2023-07-14 01:04:45 0 收藏

Flink本地运行WebUI日志问题

Flink程序运行后，在WebUI页面无法查看jobManager日志或者taskManager日志，归根结底是日志配置的问题，引入或修改相关日志文件配置项即可解决。

overfit同步小助手 2023-07-14 01:04:32 0 收藏

【2022国赛官方评审要点发布】2022高教社杯全国大学生数学建模竞赛官方评阅要点

本要点仅供参考，各赛区评阅组应根据对题目的理解及学生的解答，自主地进行评阅。

overfit同步小助手 2023-07-14 00:04:31 0 收藏

【hive】hive数据类型及数据类型转换的注意事项

hive数据类型及数据类型转换的注意事项

overfit同步小助手 2023-07-14 00:04:16 0 收藏

hadoop集群slave节点jps后没有datanode解决方案

3.切换到slave节点，将/usr/local/hadoop/tmp/dfs/data/current里的VERSION文件中的clusterID替换成与master的VERSION文件中clusterID一致。2.找到安装hadoop的文件夹，我的是(/usr/local/hadoop)再找到里

overfit同步小助手 2023-07-14 00:03:51 0 收藏

easyexcel大数据多线程读取后导出

excel数据导出

overfit同步小助手 2023-07-13 23:04:28 0 收藏

【大数据基础】基于信用卡逾期数据的Spark数据处理与分析

本次实验采用pandas库对数据进行预处理。在实验中，不对信用卡和个人信贷额度的总余额、负债比率、未偿还贷款数量、逾期90天以上的次数这4个属性进行处理分析。（2）查看数据是否具有重复值，去除重复值。（3）查看各字段缺失率，缺失值以均值填充。（4）选取要研究的属性，删除不研究的属性。（5）保存文件到

overfit同步小助手 2023-07-13 22:04:42 0 收藏

k线图中趋势线的画法精讲

画出一条趋势线很容易，但要得到一条真正起作用的趋势线，则要经多方面的反复验证才能最终确认：首先，必须先确定行情有显著的趋势存在；在众多的画线方法中，趋势线用以衡量贵金属的价格趋势，通过趋势线的方向可以明确地看出价格变动的方向。而当趋势线被突破后，就说明行情下一步的趋势将要反向，越重要越有效的趋势线被

overfit同步小助手 2023-07-13 22:04:25 0 收藏