Hadoop - overfit.cn

基于Hadoop去哪儿旅游景点数据采集与分析

通过网页数据分析，发现去哪儿网的页面结构规范，提供了丰富的信息，这使得自动化数据采集成为可能。在景点列表页面中，每个景点的信息均被整齐地组织在一定的HTML结构中，而景区详情页面则提供了深入的单个景点信息，包括用户的具体评价和评分。例如，评论总数可能通过某个特定的类名聚合在一起，而详细的用户评论则分

overfit同步小助手 2024-08-24 02:03:58 0 收藏

在Ubuntu 13.10上安装Hadoop的方法

Hadoop 是一个框架（由软件库组成），它简化了分布在服务器集群上的数据集的处理。Hadoop 的两个主要组件是HDFS和MapReduce。HDFS 是 Hadoop 用来存储所有数据的文件系统。这个文件系统跨越了 Hadoop 使用的所有节点。这些节点可以位于单个 VPS 上，也可以分布在大量

overfit同步小助手 2024-08-23 22:06:16 0 收藏

DataGrip无法连接Hive 【已解决】

【代码】DataGrip无法连接Hive 【已解决】

overfit同步小助手 2024-08-23 20:03:51 0 收藏

通俗大白话讲大数据（新手筑基篇，中国移动实习）

数据采集传输：Flume、kafka、datax，maxwell，sqoop，logstash数据存储：mysql、hdfs、hbase、redis、mongodb数据计算：hive、spark、flink、storm、tez数据查询：presto、kylin、impala、druid、clickh

overfit同步小助手 2024-08-23 13:03:39 0 收藏

hive的优化策略

以 on,where 多条件字段顺序，建【多重】分区表，默认开启支持,以分区字段为条件筛选数据，tez引擎：动态分区剪裁支持。控制Mapper和Reducer数量，mapper的启动和初始化开销较大,【数量过多】导致开销大于逻辑处理,浪费资源。从表：不存在以NULL填充，where不能下推，on可以

overfit同步小助手 2024-08-23 00:03:42 0 收藏

Hadoop 简介（五）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YA

overfit同步小助手 2024-08-22 10:03:42 0 收藏

三十种未授权访问漏洞复现合集（四）

JBoss是一个基于J2EE的开放源代码应用服务器，代码遵循LGPL许可，可以在任何商业应用中免费使用;JBoss也是一个管理EJB的容器和服务器，支持EJB 1.1、EJB 2.0和EJB3规范。,默认情况下访问 http://ip:8080/jmx-console 就可以浏览 JBoss 的部署

overfit同步小助手 2024-08-22 08:03:56 0 收藏

Hive数据库项目搭建

重要。

overfit同步小助手 2024-08-21 22:03:43 0 收藏

python开发prometheus exporter--用于hadoop-yarn监控

yarn_vcore_seconds: 这是一个Gauge指标,用于记录应用程序使用的虚拟CPU核心数量乘以运行时间(vCore-秒)。yarn_zkRMAppRoot_code: 这个是一个Gauge指标,用于记录YARN ResourceManager应用程序根目录在ZooKeeper中的zno

overfit同步小助手 2024-08-20 23:03:56 0 收藏

基于Hadoop搭建HDFS文件管理系统（大数据）

--------------------------------------------------------------------------------------------------------------------------------如果各位看官老爷都可以配置到最后一步了，那么

overfit同步小助手 2024-08-20 20:03:57 0 收藏

Hadoop中HDFS、Hive 和 HBase三者之间的关系

Hive 类似于一个数据仓库，它建立在 HDFS 之上，提供了 SQL-like 的查询语言（HiveQL），让数据分析师和开发者可以用类似 SQL 的方式来查询和管理 HDFS 上的大数据。Hive 把复杂的 MapReduce 编程抽象掉了，让用户更专注于数据的业务逻辑，而不是底层的技术细节。：

overfit同步小助手 2024-08-20 08:03:23 0 收藏

干货分享|数据安全的重要性探索—— Hive 的安全机制

完整性是数据安全的核心，要保证数据的完整性，必须设置用户权限和数据密级。访问安全通常指用户访问数据的来源和方式是否安全可控，而数据系统又是 IT 系统的核心，其内容涉及主机、存储、网络等。数据备份指用户能否及时有效地备份和保全数据，以及在发生故障之后对数据进行恢复，有效地建立异地数据系统有助于保护数

overfit同步小助手 2024-08-20 05:03:41 0 收藏

hadoop未授权访问命令执行漏洞复现-vulfocus

Hadoop YARN（Yet Another Resource Negotiator）的ResourceManager是集群资源管理的核心组件，负责分配和管理集群资源以及调度作业。如果ResourceManager出现未授权访问漏洞，可能允许未经认证的用户访问或操作集群资源，这可能会导致数据泄露、

overfit同步小助手 2024-08-20 05:03:27 0 收藏

(08)Hive——Join连接、谓词下推

Hive的Join连接

overfit同步小助手 2024-08-19 19:03:44 0 收藏

Hadoop 中的大数据技术：调优篇（2）

HDFS默认情况下，一个文件有3个副本，这虽然提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop 3.x引入了纠删码机制，通过计算方法，可以节省大约50%的存储空间。

overfit同步小助手 2024-08-19 14:03:34 0 收藏

基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储

数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类

overfit同步小助手 2024-08-19 14:03:28 0 收藏

Hive-函数-窗口函数

Hive中常用的窗口函数（也称为开窗函数）丰富多样，这些函数能够在进行数据分析时提供强大的支持，特别适用于需要对分组数据进行复杂计算和排序的场景。

overfit同步小助手 2024-08-19 13:03:37 0 收藏

hive常见时间函数

获取当天时间的三种方式，注意格式，其中current_timestamp返回的时间为UTC时间。日期格式化函数，需要什么格式，后面写什么格式的日期字符串描述，to_date仅有一种格式返回结果。hive提供了灵活获取年、月、日、天、小时、分钟、秒、周数、星期几、季节的函数，最后面还。时区转换函数有很

overfit同步小助手 2024-08-19 12:03:52 0 收藏

在CentOS7部署Hadoop

Hadoop部署安装教程

overfit同步小助手 2024-08-19 09:04:01 0 收藏

物联网架构之Hadoop

resourcemanager、nodemanager的通信端口，web端口等信息。实现了对文本中的单词计数的功能，并要求输出结果并按单词首字母排序。名称节点和数据节点的存放位置，文件副本数和读取权限。备注：Mapreduce作业记录的web地址和端口。4：将file1和file2拷贝到hdfs存储

overfit同步小助手 2024-08-19 04:03:52 0 收藏