大数据 - overfit.cn

一文速学-HiveSQL解析JSON数据详解+代码实战

JSON文件存储格式十分常见，在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同，掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式，例如JSON数组存储这种就必须采取一定的处理方式，下面是处理HiveSQL解

overfit同步小助手 2023-06-13 06:03:54 0 收藏

大数据MapReduce学习案例：数据去重

数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选，数据去重指去除重复数据的操作。在大数据开发中，统计大数据集上的多种数据指标，这些复杂的任务数据都会涉及数据去重。

overfit同步小助手 2023-06-13 03:04:06 0 收藏

2023年2月京东手机品牌销量数据查询（京东电商数据平台）

事实上，中端机市场的竞争始终都是比较激烈的，而经历了2022年的低谷，2023年手机市场依然不容乐观，在高端卖不动的情况下，各手机厂商纷纷卷向中端机市场。不过，在销额TOP10品牌中，多数品牌的销售额环比均呈现下降趋势，但一加品牌和真我品牌的销售额环比却有所增长。从品牌角度来看，2月份销售额TOP1

overfit同步小助手 2023-06-13 02:04:35 0 收藏

hdfs常用命令

简单常用的hdfs命令

overfit同步小助手 2023-06-13 02:04:04 0 收藏

【大数据】什么是数据集成？（SeaTunnel 集成工具介绍）

数据集成是指将来自不同数据源的数据整合到一起形成一个统一的数据集。这个过程包括从不同的数据源中收集数据，对数据进行清洗、转换、重构和整合，以便能够在一个统一的数据仓库或数据湖中进行存储和管理。数据集成可以帮助企业更好地理解和利用他们的数据，并促进数据驱动的决策和业务流程优化。在数据集成过程中，需要考

overfit同步小助手 2023-06-13 01:03:59 0 收藏

SparkSQL简单使用

Spark SQL是用来操作结构化和半结构化数据的接口。当每条存储记录共用已知的字段集合，数据符合此条件时，Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说，Spark SQL提供了以下三大功能： (1) Spark SQL可以从各种结构化数据源（例如JSON、Parq

overfit同步小助手 2023-06-13 00:04:17 0 收藏

中医脉诊仪：结合传统与现代技术的诊断工具

中医脉诊仪是一种将传统脉诊原理与现代科技相结合的诊断工具，具有高度的应用价值。通过高精度压力传感器、数字处理技术和人工智能算法，脉诊仪能够实现客观、量化的脉搏数据分析，提高诊断的准确性和效率。在临床、教学和研究等领域均有广泛应用。随着科技的进步，中医脉诊仪将朝着多功能化、智能化和个性化等方向发展，进

overfit同步小助手 2023-06-12 23:04:03 0 收藏

数据库大数据量的优化方案

在系统开发的初期以及使用的初期，一般不会太过于在意数据库的设计以及sql语句的优化，这就会导致系统有可能在日积月累的海量数据下越来越慢直至崩溃，所以以后在系统数据库设计之初完备的数据库模型的设计是必须的。优化数据库方案对于数据库的的优化此处给出三种优化方案：1.优化现有mysql数据库优点：不影响

overfit同步小助手 2023-06-12 19:04:15 0 收藏

【大数据】Hadoop总结

一、概述1. Hadoop特性2. HDFS结构HDFS 架构二、HDFS分布式文件系统1 概述2. HDFS存储数据架构图NameNodeDataNode3 HDFS优点4 HDFS缺点（不适用HDFS的场景）5 HDFS技术细节BlockNameNodeDataNode6 HDFS 副本放置策略

overfit同步小助手 2023-06-12 18:04:22 0 收藏

Linux安装Spark的详细过程

Linux安装Spark的详细过程；配置Spark的环境变量；启动Spark；关闭Spark。

overfit同步小助手 2023-06-12 15:04:06 0 收藏

Hadoop | 好用的脚本分享

Hadoop脚本！一键完成，从此告别重复操作！

overfit同步小助手 2023-06-12 10:03:46 0 收藏

SpringCloud：ElasticSearch之RestClient查询文档

文档的查询同样适用RestHighLevelClient对象，基本步骤包括：1）准备Request对象2）准备请求参数3）发起请求4）解析响应。查询的基本步骤是：创建SearchRequest对象准备Request.source()，也就是DSL。① QueryBuilders来构建查询条件② 传入

overfit同步小助手 2023-06-12 09:04:15 0 收藏

大数据Doris（三十八）：Spark Load 导入Hive数据

导入Hive分区表数据到对应的doris分区表就不能在doris中创建hive外表这种方式导入，因为hive分区列在hive外表中就是普通列，所以这里我们使用Spark Load 直接读取Hive分区表在HDFS中的路径，将数据加载到Doris分区表中。使用Spark Load 将Hive非分区表中

overfit同步小助手 2023-06-12 08:03:40 0 收藏

【Python】漏斗模型--生成漏斗案例 Demo实例

很早之前就知道漏斗模型，但没有做更多的了解和运用，后来对漏斗模型的了解稍加深入之后，觉得它不仅仅是一个模型，更是一种可以普遍适用的方法论，或者说是一种思维方式。它可以广泛应用于流量监控、产品目标转化等日常数据运营工作中，称之为转化漏斗；也可以用于产品、服务销售，称之为销售漏斗。

overfit同步小助手 2023-06-12 04:04:11 0 收藏

使用Hadoop分析气象数据（附代码）

刚学了Hadoop，在网上找完整的分析使用过程进行练手观看。本文数据和方法均来自于大佬的（侵删）

overfit同步小助手 2023-06-12 04:03:56 0 收藏

Spark RDD编程文件数据读写

overfit同步小助手 2023-06-12 02:03:58 0 收藏

【ETL】常见的ETL工具（含开源及付费）一览和优劣势分析？

支持的数据输入输出的类型：Mysql、Oracle、MSSQL Server、PostgreSQL、DB2、Kafka、Greenplum、Redis、TiDB、SequeoiaDB、Amazon Redshift、HashData、HDFS、FTP、Hive、Inceptor等。（6）Amazon

overfit同步小助手 2023-06-11 23:05:00 0 收藏

【人工智能】大模型的本质是这个世界抽象出来的函数

在数学中，函数是一种映射关系，它将一个自变量映射到一个因变量上。通常用一个符号表示函数，例如fxf(x)fx，其中xxx是自变量，fxf(x)fx是因变量。函数可以看作是一个黑盒子，输入自变量xxx，输出因变量fxf(x)fx。函数的本质是描述一个映射关系，它可以用图像、表格、公式等多种方式来表示。

overfit同步小助手 2023-06-11 23:03:41 0 收藏

Flink实现同时消费多个kafka topic，并输出到多个topic

flink同时消费多个kafka topic，并输出到多个topic

overfit同步小助手 2023-06-11 22:04:07 0 收藏

数据治理之数据标准

后者是为平台功能发挥所涉及的各个环节，提供一定的标准规范，以保证信息的高效汇集和交换，包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。础工作，该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序以及编码规则，目的是在不同系统和用户之间建立交通数据的一致参照，对提高数据采

overfit同步小助手 2023-06-11 20:03:53 0 收藏