大数据 - overfit.cn

Hadoop增加新节点环境配置（自用）

8. nano /opt/module/hadoop-3.3.3/etc/hadoop/hadoop-env.sh 修改 JAVA_HOME export。1. 关闭防⽕墙，集群⼀般搭建在局域⽹内，公司在外部建⽴专业的防⽕墙，为了⽅便集群之间通信，请关闭集群中各节点的防⽕墙。编辑--->虚拟网络编辑

overfit同步小助手 2024-02-14 02:03:51 0 收藏

大数据与人工智能的道德哲学：如何理解技术与伦理的关系

1.背景介绍大数据与人工智能技术的发展为我们提供了巨大的机遇，但同时也带来了巨大的挑战。随着人工智能技术的不断发展，人工智能系统已经成为了我们生活、工作和决策的一部分。然而，人工智能技术的发展也引发了一系列道德、伦理和社会问题，如隐私保护、数据安全、算法偏见、人工智能的道德与责任等问题。因此，我们需

overfit同步小助手 2024-02-14 02:03:13 0 收藏

聊聊MaxwellKafkaProducer

序本文主要研究一下MaxwellKafkaProducerMaxwellKafkaProducermaxwell-1.25.1/src/main/java/com/zendesk/maxwell/producer/MaxwellKafkaProducer.javapublic class Maxwe

overfit同步小助手 2024-02-14 01:03:36 0 收藏

【大数据】Flink SQL 语法篇（二）：WITH、SELECT & WHERE、SELECT DISTINCT

关于看如何看一段 Flink SQL 最终的执行计划：最好的方法就如上图，看 Flink Web UI 的算子图，算子图上详细的标记清楚了每一个算子做的事情。

overfit同步小助手 2024-02-14 00:03:27 0 收藏

Flink SQL --Flink 整合 hive

catalog(元数据) ---> database ---> table ---> 数据 --- > 列。

overfit同步小助手 2024-02-13 23:03:50 0 收藏

【投稿优惠|稳定出版】2024年经济、大数据与区块链国际学术会议（ICEBDB 2024）

2024年经济、大数据与区块链国际学术会议（ICEBDB 2024）将在成都举行。本次会议旨在为业内专家和学者提供一个平台，分享技术进步和经验，聚集经济、大数据与区块链方面的前沿研究，并提供一个交流平台。会议将汇集来自世界各地的研究人员、工程师、学者和行业专家，展示他们的最新研究成果和应用。

overfit同步小助手 2024-02-13 23:03:38 0 收藏

使用flink sqlserver cdc 同步数据到StarRocks

flink cdc，sqlserver，starrocks

overfit同步小助手 2024-02-13 22:03:52 0 收藏

从零开始了解大数据(五)：YARN篇

YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。它并不清楚用户提交的程序的运行机制，只提供运算资源的调度（用户程序向YARN申请资源，YARN就负责分配资源）。本文将介绍YARN架构与组

overfit同步小助手 2024-02-13 22:03:35 0 收藏

掌握HBase的数据模型与存储方式

1.背景介绍在大数据时代，数据的存储和管理成为了企业和组织的重要问题。HBase是一个分布式、可扩展、高性能的列式存储系统，它基于Google的Bigtable设计，并且是Hadoop生态系统的一部分。HBase可以存储大量数据，并提供快速的随机读写访问。在这篇文章中，我们将深入了解HBase的数据

overfit同步小助手 2024-02-13 21:03:37 0 收藏

kafka客户端生产者消费者kafka可视化工具（可生产和消费消息）

因在工作中经常有用到kafka做消息的收发，每次调试过程中，经常需要查看接收的消息内容以及人为发送消息，从网上搜寻了一下，找到的工具大部分都是Kafka Tool，此工具功能还比较全面，但是操作起来个人认为并不是那么方便，于是，就萌生了自己写一个简单又好用的kafka客户端的想法。

overfit同步小助手 2024-02-13 21:03:28 0 收藏

大数据毕设分享多功能 Web 应用渗透测试系统（源码+论文）

本项目为多功能 Web 应用渗透测试系统，包含漏洞检测、目录识别、端口扫描、指纹识别、域名探测、旁站探测、信息泄露检测等功能。

overfit同步小助手 2024-02-13 20:03:55 0 收藏

更简洁更高效，Doris对比ClickHouse、MySQL、Presto、HBase

介绍构建统一的OLAP（在线分析处理平台）。

overfit同步小助手 2024-02-13 20:03:51 0 收藏

rabbitmq基础-java-2、work模型

Work模型的使用：多个消费者绑定到一个队列，同一条消息只会被一个消费者处理通过设的置prefetch来控制消费者预取消息数量。

overfit同步小助手 2024-02-13 20:03:34 0 收藏

信息论与大数据：挖掘大数据中的价值

1.背景介绍大数据是当今信息时代的一个重要话题，它指的是由于互联网、通信技术、计算机技术等的发展，使得数据量大、高速增长、不断变化的数据集。大数据的特点是五个V：量、速度、变化、多样性和值。大数据挖掘是大数据应用的一种，它是指通过对大数据集进行深入的分析和挖掘，以发现隐藏在大数据中的有价值的信息和知

overfit同步小助手 2024-02-13 19:03:40 0 收藏

大数据信用报告多久查一次比较好？怎么查？

而大数据信用报告则是由第三方大数据征信机构通过采集个人在互联网上的行为数据，运用大数据分析技术生成的，展现的内容有很大的区别。本文将就大数据信用报告的查询频率和查询方式进行探讨，以帮助大家更好地理解这一概念。总之，大数据信用报告是一个重要的个人信用评估工具，通过定期查询和了解自己的信用状况，可以帮助

overfit同步小助手 2024-02-13 18:03:59 0 收藏

[AIGC 大数据基础]hive浅谈

在当今大数据时代，随着数据量的不断增大，如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求，Hive应运而生。Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。通过对数据进行分区、压缩以及并行处理，

overfit同步小助手 2024-02-13 18:03:54 0 收藏

HBase的数据库安全与权限管理

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和高可扩展性等特点，适用于大规模数据存储和实时数据

overfit同步小助手 2024-02-13 18:03:51 0 收藏

大数据集群基础之Yarn的运维

在使用YARN（Yet Another Resource Negotiator）监控Spark任务时，我们可以通过YARN的资源管理器（ResourceManager）Web界面来查看Spark应用程序的状态、资源使用情况和任务执行情况。YARN会持续监控应用程序的容器，跟踪它们的资源使用情况。YA

overfit同步小助手 2024-02-13 17:03:51 0 收藏

Kubernetes的有状态应用示例：ZooKeeper

overfit同步小助手 2024-02-13 17:03:39 0 收藏

xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

值得注意的是脚本内容指定了一个json文件，如果后面需要同步其他任务，记得修改相关配置；后端启动hive --service metastore：nohup hive --service metastore > /dev/null 2>&1 &python datax/bin/datax.py js

overfit同步小助手 2024-02-13 17:03:32 0 收藏