大数据 - overfit.cn

【大数据】Flink 详解（二）：核心篇 Ⅰ

Flink 支持两种划分窗口的方式（time 和 count）。第一种，按时间驱动进行划分、另一种按数据驱动进行划分。

overfit同步小助手 2023-08-18 00:04:58 0 收藏

MPP架构和Hadoop架构的区别

是将许多数据库通过网络连接起来，相当于将一个个垂直系统横向连接，形成一个统一对外的服务的分布式数据库系统。每个节点由一个单机数据库系统独立管理和操作该物理机上的的所有资源（CPU，内存等），节点内系统的各组件间相互调用无需通过主节点。是将不同的资源管理与功能进行分层抽象设计，每层形成一类组件，实现一

overfit同步小助手 2023-08-18 00:04:52 0 收藏

数据仓库的分层

数仓分层理解-个人笔记

overfit同步小助手 2023-08-18 00:04:42 0 收藏

SWAP分区

Swap分区是指Linux系统中用于虚拟内存管理的一种分区类型。虚拟内存是一种将磁盘空间作为内存扩展的技术，用于解决内存不足的问题。当系统内存不足时，操作系统会将一部分不常用的数据存储到磁盘上，从而释放出内存空间供其他程序使用。这些被写入磁盘的数据就是Swap分区。简单说就是运行的程序不用全部投入内

overfit同步小助手 2023-08-17 19:04:40 0 收藏

Tushare学习与使用（三）

上一篇简单介绍了如何获取一个股票的历史行情数据，因为Tushare对于接口调用次数是有限制的，所以接下来介绍如何高效获取多个股票的历史行情数据以及获取股票分钟级数据。

overfit同步小助手 2023-08-17 19:04:19 0 收藏

【SCI征稿】2区SCI，大数据与遥感技术、图像处理技术、物联网（IoT）技术、传感器网络的结合研究

如遥感技术、图像处理技术、物联网（IoT）技术、传感器网络的结合研究应用于农业。【参考周期】期刊部系统内提交，预计3个月左右录用，走完期刊部校对流程即上线。【影响因子】IF（2022）：3.0-4.0。【期刊分区】JCR2区，中科院4区。【检索情况】SCIE 在检，正刊。【出版社】Elsevier。

overfit同步小助手 2023-08-17 11:04:35 0 收藏

Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard，使用的是林子雨老师的教程，在这里记录下我实验的过程

overfit同步小助手 2023-08-17 04:04:09 0 收藏

【永久免费】胜率95%，非常精准外汇mt4趋势波段指标，无未来（最新版）

胜率95%，非常精准中长线的趋势波段多空轨道+波段箭头指标，专门做趋势波段的，自用多年非常精准中长线的趋势波段箭头指标，专门做趋势波段的红色轨道上只做多箭头，蓝色只做空箭头，简单，有效，大道至简。用此指标编写的趋势EA，6年收益275倍，所以分享出来，希望帮助一些刚入行的新手朋友辅助看盘，提交操盘

overfit同步小助手 2023-08-16 17:03:58 0 收藏

大数据：什么是数据分析及环境搭建

当今世界对信息技术的依赖程度在不断加深，每天都会有大量的数据产生，我们经常会感到数据越来越多，但是要从中发现有价值的信息却越来越难。这里所说的信息，可以理解为对数据集处理之后的结果，是从数据集中提炼出的可用于其他场合的结论性的东西，而从原始数据中抽取出有价值的信息的这个过程我们就称之为数据分析，它是

overfit同步小助手 2023-08-16 14:04:33 0 收藏

Elasticsearch：如何在 Elasticsearch 中正确使用同义词功能

同义词用于提高搜索质量并扩大匹配范围。例如，搜索 England 的用户可能希望找到包含 British 或 UK 的文档，尽管这三个词完全不同。Elasticsearch 中的同义词功能非常强大，如果实施得当，可以使你的搜索引擎更加健壮和强大。在本文中，我们将通过简单的代码片段介绍在实践中实现同义

overfit同步小助手 2023-08-16 08:04:20 0 收藏

【TDengine】一篇文章带你通过docker安装TDengine数据库

虽然并不推荐在生产环境中通过 Docker 来部署 TDengine 服务，但 Docker 工具能够很好地屏蔽底层操作系统的环境差异，很适合在开发测试或初次体验时用于安装运行 TDengine 的工具集。启动一个运行了 TDengine server 的 docker 容器，并且将容器的 6030

overfit同步小助手 2023-08-16 04:04:13 0 收藏

（五）kafka从入门到精通之topic介绍

Kafka是一个流行的分布式消息系统，它的核心是一个由多个节点组成的分布式集群。在Kafka中，数据被分割成多个小块，并通过一些复杂的算法在节点之间传递。这些小块被称为Kafka Topic。

overfit同步小助手 2023-08-16 04:04:05 0 收藏

ElasticSearch安装和部署和整合springboot

elasticsearch安装和部署和整合springboot

overfit同步小助手 2023-08-16 02:04:21 0 收藏

elasticsearch在windows下的安装配置方法

首先说明一下elasticsearch更多情况运行在linux下比较多，但是好多小伙伴由于开发的需要可能需要在windows下进行安装，先给出windows下安装配置方法。在安装Elasticsearch之前，需要首先安装Java运行时环境，因为Elasticsearch是用Java编写的。）下载最

overfit同步小助手 2023-08-16 02:03:58 0 收藏

Docker 启动 elasticsearch报错OpenJDK 64-Bit Server VM warning:

OpenJDK 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.

overfit同步小助手 2023-08-15 23:04:16 0 收藏

【hadoop】部署hadoop全分布模式

2023/7/15

overfit同步小助手 2023-08-15 23:04:06 0 收藏

hadoop 相关环境搭建

备注。因为beeline一直报错，最有一怒之下把hive的lib下所有jar都拷贝到hadoop的share\hadoop\common\lib各软件的相关命令最好到各自安装目录或者bin目录下执行，防止初始化目录的时候位置不对。

overfit同步小助手 2023-08-15 23:03:51 0 收藏

Hive常见错误及解决办法

overfit同步小助手 2023-08-15 20:04:25 0 收藏

如何对HDFS进行节点内(磁盘间)数据平衡

特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。2.使用系统的hdfs.keytab进行认证，一般在/var/run/cloud

overfit同步小助手 2023-08-15 20:03:58 0 收藏

了解hive on spark和spark on hive

大数据刚出来的时候，并不是很完善。发展的不是很快，尤其是在计算服务上，当时使用的是第一代mr计算引擎，相对来说计算并不是那么快。让大数据快速发展的是2009年伯克利大学诞生的spark，并在2013年成为Aparch的顶级开源项目。使大数据发展比较迅速、但是随着spark的快速发展，对于不太会用sp

overfit同步小助手 2023-08-15 11:04:01 0 收藏