elasticsearch - overfit.cn

大数据-180 Elasticsearch - 原理剖析索引写入与近实时搜索

众所周知，Elasticsearch存储的基本单元是Shard，ES中的一个Index可能分为多个Shard，事实上每个Shard都是一个Lucence的Index，并且每个LucenceIndex由多个Segment组成，每个Segment事实上是一些倒排索引的集合，每次创建一个新的Documen

overfit同步小助手 2024-10-26 12:03:18 0 收藏

大数据-182 Elasticsearch - 原理剖析数据结构-倒排索引、SkipList 跳表

倒排索引是全文检索的根基，理解了倒排索引之后才能算是入门了全文检索的领域，倒排索引的概念很简单，也很好理解。倒排索引由两部分组成，所有独立的词列表称为索引，词对应的一系列表统称为倒排表。（《信息检索》）索引表，叫 Terms Dictionary，是由于一系列的Term组成的倒排表，称 Postin

overfit同步小助手 2024-10-26 10:03:54 0 收藏

GitHub 常用操作与常用命令——GitHub入门，看这一文就够了

暂存区域最新commit的差异。工作区与最新commit的差异。提交暂缓区个别文件，并添加描述。关联远程库，url为仓库地址。提交暂缓区全部，并添加描述。

overfit同步小助手 2024-10-25 16:04:01 0 收藏

大数据-181 Elasticsearch - 原理剖析索引文档存储段合并、存储文件详解

Elasticsearch通过在后台进行段合并来解决这个问题，小的段合并到大的段，然后这些大的段被合并到更大的段，段合并的时候会将那些旧的已删除文档从文件系统中清除，被删除的文档（或被更新文档的旧版本）不会拷贝到新的大段中。合并大的段需要消耗大量的 I/O和CPU资源，如果任其发展会影响搜索性能，E

overfit同步小助手 2024-10-25 15:03:47 0 收藏

大数据-179 Elasticsearch - 原理剖析倒排索引与读写流程

倒排索引是 Elasticsearch 实现高效全文搜索的基础。它通过构建基于词项的文档ID映射，使得搜索引擎可以快速找到包含某个词项的文档，并进行相关性计算和排序。倒排索引的原理结合了分词、标准化处理和高效的数据结构设计，确保了 Elasticsearch 在处理大规模数据时，仍然能够提供快速、准

overfit同步小助手 2024-10-24 12:03:28 0 收藏

开源大数据框架-Ambari+Bigtop如何写metainfo.xml文件

👉👉👉你以为跟你闹着玩？人狠话不多🙍‍♂️🙍‍♂️🙍‍♂️，直接上图？你说你不会docker？算了😨😨😨，洗洗睡吧。ALT+F4 吧🤏🤏🤏回到正题。

overfit同步小助手 2024-10-24 01:04:27 0 收藏

【大数据】Elasticsearch 实战应用总结

Elasticsearch 是一个基于 Apache Lucene 的开源搜索引擎，旨在提供分布式、高可用性和可扩展性的实时数据搜索与分析功能。它特别适合处理大规模的数据集，常用于日志分析、全文搜索和数据挖掘等场景。特点实时搜索：几乎在数据被索引后立即可搜索，这使得用户能够获得最新的信息。这对于需要

overfit同步小助手 2024-10-23 07:03:46 0 收藏

大数据-173 Elasticsearch 索引操作增删改查详细 JSON 操作

索引创建之后，等于有了关系型数据库中的Database，Elasticsearch7.x取消了索引type类型的设置，不允许指定类型，默认为_doc，但字段仍然是有的，我们需要设置字段的约束信息，叫做字段映射（mapping）主要注意的是：修改映射只能是增加字段的操作，其他的更改只能删除索引重新建立

overfit同步小助手 2024-10-23 06:03:22 0 收藏

大数据-177 Elasticsearch Query DSL - 聚合分析 &指标聚合 & 桶聚合

Elasticsearch 的聚合分析是一种强大的功能，允许用户在查询数据的同时对其进行统计分析、分组计算和排序，类似于 SQL 中的 GROUP BY 和 COUNT() 等操作。聚合分析包括两个主要类别：指标聚合和桶聚合。在聚合的基础上，你还可以进行嵌套聚合，将多个聚合组合在一起，从而构建复杂的

overfit同步小助手 2024-10-22 00:03:24 0 收藏

大数据-178 Elasticsearch Query - Java API 索引操作 & 文档操作

通过 Java API，可以向特定索引插入单个文档，并指定文档的 ID（如果不指定，Elasticsearch 会自动生成一个 ID）。获取文档：Java API 可以根据文档 ID 从索引中获取单个文档，返回的结果会包含文档的元数据信息，如 _id、_index、_version 等。获取索引信息

overfit同步小助手 2024-10-21 08:04:58 0 收藏

GIt(2.46)使用

暂存区，或者叫待提交更新区，用于临时存放你的改动，事实上它只是一个文件，保存即将提交到文件列表信息。仓库区（或本地仓库），就是安全存放数据的位置，这里面有你提交到所有版本的数据。doc/*.txt #会忽略doc目录下的所有文件，但不包括doc下的其它目录文件。面是一个路径分隔符（/）表示要忽

overfit同步小助手 2024-10-20 22:04:40 0 收藏

大数据-171 Elasticsearch ES-Head 与 Kibana 配置使用测试

Kibana是一个基于Node.js的Elasticsearch索引库数据统计工具，可以利用Elasticsearch的聚合功能，生成各种图标，如柱形图、线状图、饼图等。而且还提供了操作Elasticsearch索引数据的控制台，并且提供了一定的API提示，非常有利于我们学习Elasticsearc

overfit同步小助手 2024-10-20 22:03:30 0 收藏

大数据-169 Elasticsearch 索引使用与架构概念增删改查

Elasticsearch是面向文档的（document oriented）的，这意味着它可以存储整个对象或者文档（document）。然后它不仅仅是存储，还会索引（Index）每个文档的内容使之可以被搜索。在Elasticsearch中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤

overfit同步小助手 2024-10-20 15:03:31 0 收藏

大数据-167 ELK Elasticsearch 详细介绍特点分片查询

ELK其实并不是一款软件，而是一整套解决方案，是三个软件产品的首字母缩写（Elasticsearch ES），Logstash、Kibana。这三款都是开源软件，配合使用，而先后又归于 Elasttic.co 公司名下，简称 ELK 协议栈。Elasticsearch简称为ES，ES是一个开源的高扩

overfit同步小助手 2024-10-20 12:03:29 0 收藏

大数据-172 Elasticsearch 索引操作与 IK 分词器自定义停用词 Nginx 服务

有些词在文本中出现的频率非常高，但对本文的语义会产生很大的影响，例如：呢、了、啊等等，英语中也有类似于 a 、the、of 等等。settings：就是索引库设置，其中可以索引库的各种属性，比如分片数、副本数等。目前我们不设置，先默认即可。在实际环境中，有很多时候并不能够准确的理解我们断词断句，有时

overfit同步小助手 2024-10-19 12:03:28 0 收藏

大数据-168 Elasticsearch 单机云服务器部署运行详细流程

Elasticsearch是一个分布式全文搜索引擎，支持单节点模式（Single-Node Model）和集群模式（Cluster Model）部署，一般来说，小公司的业务场景往往使用Single-Node Mode部署即可。我们需要根据实际的情况进行修改，默认都是1G，单机1G内存，启动会占用70

overfit同步小助手 2024-10-18 04:03:27 0 收藏

Git常用操作

Git 是一个强大的版本控制系统，用于管理代码仓库，追踪历史变更以及协作开发。

overfit同步小助手 2024-10-17 05:04:21 0 收藏

ES的自我保护机制，磁盘超过多少会进入只读模式，怎么解决

Elasticsearch 的自我保护机制确保集群在面对潜在问题时保持稳定性和数据安全。

overfit同步小助手 2024-10-16 13:08:04 0 收藏

大数据-170 Elasticsearch 云服务器三节点集群搭建测试运行

（注意：network部分是比较容易出问题的，如果你出了问题，必须绑定的网卡不对，导致IP的问题等，那你需要向我这样配置，来指明绑定的地址等内容）现在我们把三台机器都安装上ES的环境，你可以每台都下载，或者使用同步工具来同步。此外和上节一样，如果你没修改操作系统的限制，如果你启动报错的话，请回到上节

overfit同步小助手 2024-10-16 13:03:55 0 收藏

【C++拓展(三)】Git的企业级使用指南(下)

本篇文章着重讲解了Git的分支合并策略,以及Git的分布式管理策略和Git标签的作用

overfit同步小助手 2024-10-14 09:03:52 0 收藏