大数据 - overfit.cn

IEEE旗下1区SCI，国人友刊，稳投稳中！

包括但不限于系统集成模型中智能医疗数据感知和处理，医疗设备中的嵌入式传感器系统，通过下一代复杂健康网络进行联邦学习等。从自引率来看，该期刊近三年自引率均位于安全阈值范围内，且呈下降趋势，近几年发文量有所下降，说明该期刊对自身质量把控严格，风险较低。从国人占比来看，该期刊占比前三的分别是中国、美国和印

overfit同步小助手 2024-10-02 05:03:50 0 收藏

数据仓库系列 5：什么是事实表和维度表,它们有什么作用?

维度建模是一种专为数据仓库和商业智能(BI)系统设计的数据建模技术。它的核心思想是将复杂的业务数据组织成直观、易于理解和高效查询的结构。将数据分为事实(度量)和维度(上下文)两类。采用星型模式或雪花模式来组织这些事实和维度。优化了面向商业用户的查询性能和易用性。

overfit同步小助手 2024-10-02 03:03:38 0 收藏

大数据-149 Apache Druid 基本介绍技术特点应用场景

使用Hadoop、Spark进行分析将Hadoop、Spark的结果导入到RDBMS中提供数据分析将结果保存到容量更大的NoSQL数据库中，解决数据分析的存储瓶颈，例如：HBase将数据源进行流式处理，对接流式计算框架（如Storm、Spark、Flink），结果保存到RDBMS或NoSQL中将数据

overfit同步小助手 2024-10-02 01:03:31 0 收藏

大数据-152 Apache Druid 集群模式配置启动【下篇】超详细！

Apache Druid 是一种高性能、分布式的列式存储数据库，专门用于实时分析和查询大规模数据集。它适用于 OLAP（在线分析处理）场景，尤其在处理大数据实时流时表现优异。Druid 的架构由多个组件组成，主要包括数据摄取、存储、查询和管理。数据摄取层：使用 MiddleManager 节点来处理

overfit同步小助手 2024-10-01 18:03:12 0 收藏

【Ambari自定义组件集成】Bigtop编译大数据组件，看这一篇就够了

编译完成后，系统会生成 RPM 或 DEB 安装包，你可以根据实际需求选择安装。Bigtop 的未来趋势。

overfit同步小助手 2024-10-01 17:04:12 0 收藏

flink写入hudi MOR表

kafka读取数据写入到hudi表，表类型是MOR

overfit同步小助手 2024-10-01 16:03:31 0 收藏

Hadoop(05) HBase2

可以通过在里面放入更加具体的值来观察：数据写到HBase的时候都会被记录一个，这个时间戳被我们当做一个。比如说，我们某一条的时候，本质上是往里边一条数据，记录的版本加一了而已。在读的时候按照时间戳的记录。在外界「看起来」就是把这条记录改了。

overfit同步小助手 2024-10-01 15:03:49 0 收藏

hadoop文件上传步骤

overfit同步小助手 2024-10-01 14:03:50 0 收藏

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进

Coordinator是周期运行的（由 druid.coordinator.period 配置指定，默认间隔60秒），Coordinator需要维护和ZooKeeper的连接，以获取集群的信息。进程监视MiddleManager进程，并且是Druid数据摄入的主节点，负责将提取任务分配给Middle

overfit同步小助手 2024-10-01 10:02:31 0 收藏

【Git原理与使用】Git初识&&基本操作

为了能够更方便我们管理这些不同版本的文件，便有了版本控制器。所谓的版本控制器，通俗的讲就是一个记录每次修改和版本迭代的一个管理系统，同时也方便多人协同作业。目前最主流的版本控制器就是 Git 。Git 可以控制电脑上所有格式的文件，例如 doc、excel、dwg、dgn、rvt等等。对于我们开发人

overfit同步小助手 2024-10-01 08:03:58 0 收藏

大数据毕业设计选题推荐-起点小说数据分析与可视化平台-Hive-Hadoop-Spark

近年来，随着互联网的飞速发展和数字内容消费的兴起，网络小说逐渐成为大众娱乐的重要方式之一。根据中国音像与数字出版协会发布的《2022年中国网络文学发展报告》，截至2022年底，网络文学用户规模已达到4.94亿人，占全国网民总数的48.6%，显示出极高的市场渗透率。同时，国内主流网络小说平台，如起点中

overfit同步小助手 2024-10-01 07:03:54 0 收藏

Hbase中Rowkey的设计方法

对Hbase中Rowkey的设计方法进行汇总

overfit同步小助手 2024-10-01 07:03:41 0 收藏

Flink 高可用原理

Flink JobManager 高可用加强了 Flink 集群防止 JobManager 故障的能力。此特性确保了 Flink 集群将始终持续执行你提交的作业。

overfit同步小助手 2024-10-01 04:03:58 0 收藏

Spark 和 NVIDIA GPU 加速深度学习

随着人们对深度学习（ deep learning ， DL ）兴趣的日益浓厚，越来越多的用户在生产环境中使用 DL。由于 DL 需要强大的计算能力，开发人员正在利用 gpu 来完成他们的训练和推理工作。最近，为了更好地统一 Spark 上的 DL 和数据处理，作为的一项重大举措的一部分， GPU 成

overfit同步小助手 2024-10-01 02:03:49 0 收藏

算法安全自评估报告如何填写？(附模板)

今天小编以生成合成类、服务提供者的算法自评估报告的模板为例，给大家好好讲讲算法安全自评估报告如何填写？

overfit同步小助手 2024-10-01 01:08:42 0 收藏

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

作者：王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online（Paimon x StarRocks，共话实时湖仓架构）上的分享。主要分为以下三个内容：1. 饿了么实时数仓演

overfit同步小助手 2024-10-01 00:03:53 0 收藏

什么是大数据？一文讲清大数据的概念、演进、趋势、产业链及关键技术！

大数据这个词，不管您是不是相关行业的从业者，也都听过无数遍了，但对于大多数人来说，并不能清楚的讲出什么是大数据。今天小兵尝试通过通俗的语言，结合贴近生活的例子，将大数据及相关的概念一次讲清楚。

overfit同步小助手 2024-09-30 22:03:38 0 收藏

大数据Flink（一百一十二）：Flink SQL作业快速入门

在阿里云官网首页，点击右上角控制台，进入工作台。直接点击我的资源下的Flink，或者搜索Flink，进入Flink控制台。点击实例id，进入Flink项目空间。在左侧导航栏，单击SQL开发。在作业草稿下，新建文件夹：阿里云Flink。在此文件夹下，创建文件夹：快速入门。在快速入门文件夹下，单击新建作

overfit同步小助手 2024-09-30 20:06:48 0 收藏

Hadoop学习

wq:wq02 03的jdk环境配置。

overfit同步小助手 2024-09-30 19:03:31 0 收藏

大数据：快速入门Scala+Flink

Scala 是一种多范式编程语言，它结合了面向对象编程和函数式编程的特性。Scala 这个名字是“可扩展语言”（Scalable Language）的缩写，意味着它被设计为能够适应不同规模的项目，从小型脚本到大型分布式系统。兼容 Java：Scala 代码可以编译成 Java 字节码，并且可以在任何

overfit同步小助手 2024-09-30 19:03:14 0 收藏