大数据 - overfit.cn

SQL函数 - 开窗(窗口)函数

开窗函数对一组值进行操作，它不像普通聚合函数那样需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列开窗函数的语法形式为：函数 + over(partition by <分组用列> order by <排序用列>)，表示对数据集按照分组用列进行分区，并且并且对每个分区

overfit同步小助手 2023-08-11 23:04:02 0 收藏

Flume多路复用模式把接收数据注入kafka 的同时，将数据备份到HDFS目录

overfit同步小助手 2023-08-11 18:03:43 0 收藏

大数据权限与安全

overfit同步小助手 2023-08-11 16:08:26 0 收藏

FlinkUI界面

flinkUI界面

overfit同步小助手 2023-08-11 08:04:21 0 收藏

大数据下的竞彩足球胜平负分析技巧2

上期内容分析、证明了竞彩官方终赔时，当主队让1球同时又满足：让负赔率>平负均值赔率的情况出现了6胜3平1负，说明了竞彩官方给出的让负过大条件下并不利于客队打出，此时近十场中主不败概率90%，其中主胜的概率为60%，

overfit同步小助手 2023-08-11 08:04:12 0 收藏

大数据的金融数据读取及分析（二）

大数据的金融数据读取及分析（二）获取数据，导出为excel,ps:高校学生可联系站方申请访问权限。在这里可通过旧版接口访问指数信息。新版接口为tushare pro

overfit同步小助手 2023-08-11 00:03:50 0 收藏

DataX的使用与介绍（1）

一、什么是DataX？DataX是阿里云商用产品DataWorks数据集成的开源版本，它是一个异构数据源的离线数据同步工具/平台（ETL工具）。DataX实现了包括Mysql，Oracle、OceanBase、Sqlserver，Postgre、HDFS、Hive、ADS、HBase、TableSt

overfit同步小助手 2023-08-10 20:03:51 0 收藏

腾讯云大数据型CVM服务器实例D3和D2处理器CPU型号说明

腾讯云服务器CVM大数据型D3和D2处理器型号，大数据型D3云服务器CPU采用2.5GHz Intel® Xeon® Cascade Lake 处理器，大数据型D2云服务器CPU采用2.4GHz Intel® Xeon® Skylake 6148 处理器。腾讯云服务器网分享云服务器CVM大数据型CP

overfit同步小助手 2023-08-10 15:04:22 0 收藏

Spark操作HBase的数据，实现列值的计算

本文将介绍如何使用Spark操作HBase的数据，实现列之间的计算，以特征值计算为例。主要内容如下：创建SparkSession和HBaseConfiguration对象。读取HBase表的数据，并转化成RDD。进行列式计算，得到特征值，并转化成RDD。写入HBase表的数据。验证HBase表的数据

overfit同步小助手 2023-08-10 12:04:26 0 收藏

机器学习 —— Sklearn包中StandardScaler()、transform(）、fit()的详细介绍

机器学习 —— Sklearn包中StandardScaler()、transform(）、fit()的详细介绍。数据标准化

overfit同步小助手 2023-08-10 11:04:25 0 收藏

【大数据】Pyarrow简单使用

- Arrow是一个Python库，为创建，操作，格式化和转换日期，时间和时间戳提供了一种明智的，人性化的方法。它实现和更新日期时间类型，填补功能上的空白，并提供支持许多常见创建场景的智能模块API。# 二、使用小栗子- 离线测试时，有时为了更快使用dataloader对测试集预测，而且df较大，

overfit同步小助手 2023-08-10 11:04:06 0 收藏

C币下载C币下载

截至13日沧州volte质差小区共计84个，占比为0.67%(较上周减少11个)，其中低接入小区45个，高掉话小区20个，空口上行高丢包小区12个，空口下行高丢包小区8个；截至13日沧州volte质差小区共计84个，占比为0.67%(较上周减少11个)，其中低接入小区45个，高掉话小区20个，空口上

overfit同步小助手 2023-08-10 09:04:22 0 收藏

SparkSQL中数据转换的方法

以上代码中，我们按照"department"列对DataFrame进行分组，并计算每个部门的平均工资和总工资。以上是SparkSQL中常见的数据转换方法，可以根据实际需要进行选择和组合，完成复杂的数据处理和分析任务。，并将其应用于DataFrame中的"salary"列，计算每个员工的奖金。以上代码

overfit同步小助手 2023-08-10 09:04:03 0 收藏

Flink详解系列之五--水位线（watermark）

在进行窗口处理时，不可能无限期的等待延迟数据到达，当到达特定watermark时,认为在watermark之前的数据已经全部达到(即使后面还有延迟的数据), 可以触发窗口计算，这个机制就是 Watermark(水位线)，具体如下图所示。如果水位线设置的过于宽松，好处是计算时能保证近可能多的数据被收集

overfit同步小助手 2023-08-10 08:03:47 0 收藏

大数据基础平台实施及运维

处理框架和处理引擎负责对数据系统中的数据进行计算虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。（ELK日志监控处理框架）Apache Hadoop项目用于高可用，可扩展的分布式计算的开源软件Apac

overfit同步小助手 2023-08-10 04:04:14 0 收藏

Hadoop-YARN介绍

yarn介绍

overfit同步小助手 2023-08-10 02:04:12 0 收藏

【数据架构系列-02】从《数据中台能力成熟度模型》的发布，聊聊火了的中台

2023年1月4日，信通院发布了《数据中台能力成熟度模型》框架，不由让我浮想联翩，之后是不是还会出现业务中台、技术中台、AI 中台、算法中台的能力成熟度模型呢。不知道为什么，按理应该同时公开发布的文档截止到1月30日在网上也没有找到，只是查到发布会的部分PPT，大致浏览了一下，依然是熟悉的套路，基于

overfit同步小助手 2023-08-09 23:04:56 0 收藏

Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

overfit同步小助手 2023-08-09 23:04:45 0 收藏

HDFS介绍

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Cor

overfit同步小助手 2023-08-09 23:04:26 0 收藏

Kafka的零拷贝

在使用mmap时，操作系统会自动将文件的某些部分或者整个文件的内容映射到内存中，而这些映射的内存区域可以被当作普通的内存指针来访问，从而实现对文件内容的访问。零拷贝就是把这两次多余的拷贝省略掉，应用程序可以直接把磁盘中的数据从内核中直接传输给Socket,而不再需要经过应用程序所在的用户空间，所以零

overfit同步小助手 2023-08-09 18:04:29 0 收藏