大数据 - overfit.cn

查询平均提速 700%，奇安信基于 Apache Doris 升级日志安全分析系统

Apache Doris 助力奇安信建设全新日志存储分析平台，提升系统安全性与快速响应能力！

overfit同步小助手 2023-12-11 05:06:49 0 收藏

大数据实验实验三：熟悉常用的HBase操作

overfit同步小助手 2023-12-11 01:03:23 0 收藏

Kafka实时数据即席查询应用与实践

在实际应用中，Kafka实时数据即席查询可以用于多种场景，如实时监控、实时报警、实时统计、实时分析等。数据质量：Kafka实时数据即席查询需要保证数据质量，避免数据重复、丢失或错误等问题，需要进行数据质量监控和调优。系统复杂性：Kafka实时数据即席查询需要涉及到多个系统和组件，包括Kafka、数据

overfit同步小助手 2023-12-10 23:03:46 0 收藏

【大数据】HDFS 的常用命令

操作命令是以 hdfs dfs 开头的命令。通过这些命令，用户可以完成 HDFS 文件的复制、删除和查找等操作，Shell 命令的一般格式如下。

overfit同步小助手 2023-12-10 23:03:36 0 收藏

elasticsearch(三）-- 理解ES的索引操作

上一章我们主要学习了es的几个客户端，那么我们后面也主要通过kibana客户端、HighLevelClient高级客户端这两个来学习es.这一章的学习我们主要是学习一些Elasticsearch的基础操作，主要是深入一些概念，比如索引的具体操作，映射的相关语法，对数据类型，文档的操作。那么主要的DS

overfit同步小助手 2023-12-10 22:03:46 0 收藏

WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED 解决方案

WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED 解决方法

overfit同步小助手 2023-12-10 22:03:38 0 收藏

Cloudera Manager6.3.1&CDH6.3.2集群部署（超详细，亲测可用）

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。

overfit同步小助手 2023-12-10 20:03:37 0 收藏

大数据时空数据管理方案——索引策略研究LargeScale SpatioTemporal Data Manag

作者：禅与计算机程序设计艺术 1.简介概述近年来，随着互联网、云计算、大数据技术的普及，海量的实时、高维数据集不断涌现出来。如何有效地存储、检索、分析海量的数据、确保数据的正确性和完整性，成为当今企业面临的巨大挑战。而构建、维护一个稳健、可靠、安全、高效的大数据

overfit同步小助手 2023-12-10 18:03:48 0 收藏

文档存储Elasticsearch系列--2 ES内部原理

overfit同步小助手 2023-12-10 18:03:36 0 收藏

Python大数据之PySpark(二)PySpark安装

测试：目前node1是主节点，node2是standby备用主节点，这时候将node1 的master进程干掉，然后看node2的master是否能够接替node1的master的作用，成为active的master。3）、Executor在接收到Task后，会下载Task的运行时依赖，在准备好Ta

overfit同步小助手 2023-12-10 16:03:24 0 收藏

大数据之 Hadoop

hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目，Hadoop

overfit同步小助手 2023-12-10 13:03:39 0 收藏

大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

通过充分利用分布式计算，Hadoop实现了对大规模数据的高效处理，使得复杂的数据分析任务变得可管理和高效。通过这一实践案例，我们可以深入了解Hadoop的MapReduce编程模型，以及如何在实际应用中利用其优势来处理和分析海量数据。

overfit同步小助手 2023-12-10 10:03:40 0 收藏

Flink 使用场景

数据分析任务需要从原始数据中提取有价值的信息和指标。传统的分析方式通常是利用批查询，或将事件记录下来并基于此有限数据集构建应用来完成。为了得到最新数据的分析结果，必须先将它们加入分析数据集并重新执行查询或运行应用，随后将结果写入存储系统或生成报告。借助一些先进的流处理引擎，还可以实时地进行数据分析。

overfit同步小助手 2023-12-10 09:03:11 0 收藏

Hive自定义UDF函数及使用

UDF全称：User-Defined Functions，即用户自定义函数，在Hive SQL编译成MapReduce任务时，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。

overfit同步小助手 2023-12-10 08:03:42 0 收藏

直播电商数据仓库

数据仓库，简称数仓,（ Data Warehouse ）。从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。数仓主要是为企业制定决策，提供数据支持的。当业务简单，可以用数据库来存储，分析，制表。但当数据量几何式增长，需要跨机器整合

overfit同步小助手 2023-12-10 05:03:30 0 收藏

阿里云大数据实战记录10：Hive 兼容模式的坑

解决 MaxCompute 不支持这个语法`DATE_FORMAT(string, string)`的方法本文提供了两种：方法1：开启 Hive 兼容模式方法2：显性修改传入`FROM_UNIXTIME(1672538400)`返回的数据类型另外，传递给`DATE_FORMAT()`的参数如果是 D

overfit同步小助手 2023-12-10 03:03:47 0 收藏

基于大数据的城市交通数据可视化分析系统

在全球范围内，城市交通问题日益严重，拥堵、污染和安全问题已成为制约城市可持续发展的重要因素。随着大数据技术的快速发展，对城市交通数据进行深入挖掘和分析，为解决这些问题提供了新的可能。因此，《基于大数据的城市交通数据可视化分析系统》这一课题应运而生，具有重要的现实意义和紧迫性。当前，尽管已经有一些城市

overfit同步小助手 2023-12-09 23:03:43 0 收藏

flink sql 毫秒转date ms转date

【代码】flink sql 毫秒转date ms转date。

overfit同步小助手 2023-12-09 21:03:39 0 收藏

nosql选择判断

（1）NoSQL数据库会采用非关系的数据模型（2）弱化模式或表结构、弱化完整性约束、弱化甚至取消事务机制（3）可能无法支持，或不能完整的支持SQL语句（4）目的是实现强大的分布式部署能力——一般包括分区容错性、伸缩性和访问效率（可用性）等（5）NoSQL大多是开源免费的CAP是指分布式系统中的Con

overfit同步小助手 2023-12-09 21:03:22 0 收藏

Spark任务提交第1关：spark-submit提交

overfit同步小助手 2023-12-09 20:03:45 0 收藏