大数据 - overfit.cn

大数据与Hadoop入门理论

Hadoop入门理论

overfit同步小助手 2023-10-13 12:04:00 0 收藏

Flink之数据乱序处理

理想情况下，数据都是严格有序的，但现实中的数据往往都存在乱序的情况。

overfit同步小助手 2023-10-13 10:03:38 0 收藏

27、Flink 的SQL之SELECT (窗口函数)介绍及详细示例（3）

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-10-13 09:03:24 0 收藏

hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。主要解决海量数据的存储和海量数据的分析计算问题并行计算的架构分而治之，先分后和。

overfit同步小助手 2023-10-13 02:03:50 0 收藏

大数据数据中台之数据采集

需要支持三十几种异构数据源之间的数据同步，能够零开发实现任意数据源、任意条件、任何复杂网络环境下的高效数据互联互通。支持高并发下的处理数据采集，支持数据的批量、全量、增量同步。以上内容是数据中台开篇，数据采集，将各种数据格式数据，周期性写入数据仓库，本文展示的功能界面，方便数仓实施人员收集数据，快速

overfit同步小助手 2023-10-13 02:03:39 0 收藏

数据库：mycat实现读写分离

本文讲解通过mycat中间件实现数据库的读写分离，讲解了mycat的实现原理以及常用场景和作用，并通过实验实现了mycat的数据库读写分离

overfit同步小助手 2023-10-13 01:03:54 0 收藏

处理.git文件夹过大出现臃肿问题-filter-branch和BFG工具

git filter-branch --force --index-filter "git rm -rf --cached --ignore-unmatch 文件/文件夹" --prune-empty --tag-name-filter cat -- --all #文件/文件夹是通过上面查询出来的

overfit同步小助手 2023-10-13 00:04:50 0 收藏

监控系统经典架构详解

我们回顾一下监控系统经典架构各个功能模块的职能。采集器：用于收集监控数据，业界有不少开源解决方案，大同小异，总体分为推拉两种模式，各有应用场景。Telegraf、Exporters 用得最广泛，Grafana-Agent 是后来者。时序库：用于存储时序数据，有很多开源方案可供选择。如果规模比较小，1

overfit同步小助手 2023-10-12 23:03:53 0 收藏

hadoop namenode格式化错误以及启动不了解决方案

overfit同步小助手 2023-10-12 21:04:04 0 收藏

数学模型在人工智能中的使用：统计学和概率论

在人工智能中，统计学和概率论的技术原理可以通过一些重要的数学模型来描述。在人工智能中，统计学和概率论的应用场景非常广泛。例如，在语音识别中，可以使用概率论来建模声音的特征，并使用统计方法来优化语音识别系统的性能。在图像识别中，可以使用概率论来建模图像的特征，并使用机器学习算法来训练图像识别系统的性能

overfit同步小助手 2023-10-12 20:01:43 0 收藏

Hadoop 运行环境搭建（开发重点）

Hadoop 运行环境搭建

overfit同步小助手 2023-10-12 15:04:07 0 收藏

hadoop报错——ResourceManager无法启动

本次的遇到的问题为启动Hadoop集群后，jps查看进程中，ResourceManage节点没有启动，导致无法访问http://localhost:8088，通过查看ResourceManage的启动日志，日志中给出的错误为，笔者初步判断为yarn-site.xml文件未填写Zookeeper的端口

overfit同步小助手 2023-10-12 12:04:30 0 收藏

Hadoop -HDFS常用操作指令

【代码】Hadoop -HDFS常用操作指令。

overfit同步小助手 2023-10-12 09:03:55 0 收藏

计算机，软件工程，网络工程，大数据专业毕业设计选题有哪些（附源码获取途径）专注于Java技术领域和毕业项目实战

大家好！我是你们的毕设周学长，知道你们即将面临毕业设计的任务，所以我来给大家整理了一些可能用到的计算机毕设选题，希望能够帮到你们。当然，以上只是一些选题的示例，具体选题还需要结合自身的兴趣和实际情况进行选择。如果对选题有任何疑问，欢迎向我提问，我会尽力为大家提供帮助。祝愿大家能够找到适合自己的毕设选

overfit同步小助手 2023-10-12 08:03:09 0 收藏

Regulating the Use of VoiceControlled Technology and AI

作者：禅与计算机程序设计艺术 1.简介在过去几年里，由于自动驾驶汽车、人工智能（AI）、虚拟现实（VR）等新兴技术的出现和普及，使得人们越来越多地被带入虚拟世界中进行日常活动。而随着这些技术的不断进步，人们对于这些技术的信任程度也逐渐提高。然而，如何有效控制人类

overfit同步小助手 2023-10-12 08:01:10 0 收藏

深入理解 Apache Hadoop MapReduce:

作者：禅与计算机程序设计艺术 1.简介Hadoop MapReduce是一个用于分布式计算的开源系统。它通过把海量的数据集切分成小片段，然后并行处理这些片段，并生成最终结果。Hadoop MapReduce框架由Map和Reduce两个主要的组件组成：Map函数

overfit同步小助手 2023-10-12 06:03:48 0 收藏

HDFS的文件块大小（重点）

对于一般硬盘来说，传输速率为100M/s，一般设置块的大小128M，因为128是2的7次方，最接近于100M。比如，块的大小是1TB，传输这个1TB的数据会非常慢，并且程序处理这个1TB的数据时，也非常的慢。不是的，它只占用文件本身大小的空间，其它空间别的文件也可以用，所以这128M的含义是HDFS

overfit同步小助手 2023-10-12 05:03:23 0 收藏

ZooKeeper实战

作者：禅与计算机程序设计艺术 1.简介ZooKeeper是一个分布式协调服务，它为大型分布式系统提供高可用性、高性能的数据发布/订阅服务。其设计目标是将那些复杂且容易出错的过程从应用中分离出来，构成一个独立的服务供不同客户端进行相互协作。Zookeeper的优点

overfit同步小助手 2023-10-12 04:03:31 0 收藏

HBase实战：大数据存储技术——学习HBase数据库的应用场景和使用技巧

Apache HBase是一个分布式、可扩展、高性能的NoSQL数据库。它是一个列族数据库，由Apache基金会所开发。它支持稀疏和密集存储，提供了一个高度可伸缩的系统，并能够在线地进行横向扩展。HBase提供了一个高效率的数据访问接口，可以使用SQL或Java API访问HBase数据库。HBas

overfit同步小助手 2023-10-11 20:04:24 0 收藏

VMware搭建Hadoop集群 for Windows（完整详细，实测可用）

hadoop集群搭建，完整详细。

overfit同步小助手 2023-10-11 17:05:27 0 收藏