大数据 - overfit.cn

Git push 的时候需要输入用户名和密码解决方案

在使用 `git push -u origin main` 命令推送远程分支时要求输入用户名和密码

overfit同步小助手 2024-08-03 09:04:49 0 收藏

flink用法详解

无界流 (Unbounded Streams): 数据流理论上没有终点，持续不断地流入系统。Flink 会连续地处理这些事件，即使在处理过程中新的数据还在不断到来。有界流 (Bounded Streams): 数据流有一个明确的起点和终点，处理完所有数据后任务即结束。Flink 可以像处理流一样处

overfit同步小助手 2024-08-03 09:04:04 0 收藏

spark常见面试题

首先会为最后一个 RDD 创建一个 Stage，然后继续倒推，如果发现对某个 RDD 是宽依赖，那么就会将宽依赖的那个 RDD 创建一个新的 Stage，那个 RDD 就是新的 Stage的最后一个 RDD。Spark streaming 内部的基本工作原理是：接受实时输入数据流，然后将数据拆

overfit同步小助手 2024-08-03 08:03:45 0 收藏

主流大数据调度工具DolphinScheduler之数据ETL流程

overfit同步小助手 2024-08-03 04:03:47 0 收藏

潜在因果框架：一窥因果关系的秘密

你是否曾经好奇，为什么某些政策能够成功，而另一些却未能奏效？你是否想知道，是什么因素真正影响了我们的健康、经济和社会行为？在数据分析的世界中，因果关系的揭示比你想象的更加复杂和关键。《潜在因果框架：一窥因果关系的秘密》将带你深入探索这一神秘而强大的工具，从基础概念到实际应用，再到未来展望，全面解析如

overfit同步小助手 2024-08-03 03:04:55 0 收藏

10分钟了解Flink Watermark水印

本文主要讲了Flink Watermark水印的概念和使用。

overfit同步小助手 2024-08-03 01:03:57 0 收藏

hadoop高可用安装

hadoop安装,搭建,配置

overfit同步小助手 2024-08-03 00:03:49 0 收藏

2024年公共管理、健康与大数据国际学术会议(ICPAHBD 2024)

向ICPAHBD 2024提交的所有全文都必须用英语书写，并将发送给至少两名评审员，并根据原创性、技术或研究内容或深度、正确性、与会议的相关性、贡献和可读性进行评估。ICPAHBD 2024所有被接受的论文将在会议记录中发表，并提交给Scopus、EI Compendex、CPCI、CNKI等进行索

overfit同步小助手 2024-08-02 23:03:40 0 收藏

HiveSQL题——array_contains函数

overfit同步小助手 2024-08-02 22:03:30 0 收藏

Agent类型解析：AIGC在不同领域的应用与影响

深入剖析AIGC中的智能体类型及其应用：垂直智能体、水平智能体与混合智能体的比较分析

overfit同步小助手 2024-08-02 20:08:00 0 收藏

gitlab操作手册

hotfix分支也叫维护分支或者热修复分支，用于快速给生产线上的产品打补丁用(比如客户在生产线上发现了紧急bug需要马上修复)，这是唯一从master分支中去fork出来的分支，修复完成后，将修改的要合并到develop分支，master分支应该用新的版本号打好tag。接下来就来解决冲突,选择其中一

overfit同步小助手 2024-08-02 19:03:56 0 收藏

Elasticsearch 通过索引阻塞实现数据保护深入解析

overfit同步小助手 2024-08-02 19:03:45 0 收藏

ES 8.14 向量搜索优化

检索器（standard、kNN 和 RRF）检索器（retrievers）是搜索 API 中的一种新抽象概念，用于描述如何检索一组顶级文档。检索器被设计为可以嵌套在树形结构中，因此任何检索器都可以拥有子检索器。检索器是一种标准、更通用且更简单的 API，它取代了其他各种搜索元素，如 kNN 和查询

overfit同步小助手 2024-08-02 19:03:32 0 收藏

elasticsearch 查询超10000的解决方案

scroll查询的相应数据是非实时的，如果遍历过程中插入新的数据，是查询不到的。并且保留上下文需要足够的堆内存空间。相比于 from/size 和 search_after 返回一页数据，Scroll API 可用于从单个搜索请求中检索大量结果。但是 scroll 滚动遍历查询是非实时的，数据量大的

overfit同步小助手 2024-08-02 19:03:18 0 收藏

【Elasticsearch】Elasticsearch的分片和副本机制

Elasticsearch是一种分布式搜索和分析引擎，它具有高扩展性和高可用性。为了实现这些特性，Elasticsearch引入了分片（Shard）和副本（Replica）的概念。本文将详细介绍Elasticsearch中的分片和副本机制，帮助读者理解它们的重要性及其实现方法。分片是Elastics

overfit同步小助手 2024-08-02 19:03:12 0 收藏

大数据核心面试题（Hadoop，Spark，YARN）

Hadoop是一个用于存储和处理大规模数据集的开源框架。用于分布式存储数据。用于分布式数据处理的计算框架。用于资源管理和作业调度。回答：负责管理HDFS的元数据，包括文件目录结构、文件到块的映射以及每个块的副本位置。它是HDFS的单点故障。负责存储实际的数据块，并定期向NameNode报告其存储的块

overfit同步小助手 2024-08-02 18:03:51 0 收藏

摸鱼大数据——Spark SQL——Spark on Hive部署

spark.sql("""insert into spark_demo.stu values(1,'张三'),(2,'李四')""")spark-sql>insert into spark_demo.stu values(1,'张三'),(2,'李四');（1）检查hive中 hive-site

overfit同步小助手 2024-08-02 13:03:29 0 收藏

【大数据】—美国交通事故分析（2016 年 2 月至 2020 年 12 月）

在当今快速发展的数字时代，大数据已成为我们理解世界、做出决策的重要工具。特别是在交通安全领域，大数据分析能够揭示事故模式、识别风险因素，并帮助制定预防措施，从而挽救生命。本文将深入探讨2016年2月至2020年12月期间，美国交通事故的大数据集，旨在通过数据分析揭示交通事故的内在规律和趋势。

overfit同步小助手 2024-08-02 09:03:16 0 收藏

如何学习Hive：糙快猛的大数据之路（从入门到实战）

本文涵盖从基础概念到高级优化技巧，深入剖析Hive的内部原理、性能调优和故障排除。通过实际案例，展示了Hive在金融、医疗、电信等行业的应用。文章还探讨了Hive与Spark、HBase等技术的集成，以及在数据湖、机器学习中的角色。从"糙快猛"的入门策略到企业级最佳实践，本指南助你成为真正的Hive

overfit同步小助手 2024-08-02 06:03:38 0 收藏

使用flume将消息导入Kafka

版本使用:flume190,kafka200,hadoop260在flume文件目录创建ngcf目录,创建flume配置文件text.conf//：指定source的类型为spooldir，即监控指定目录中新出现的文件，并将这些文件的内容作为事件（events）来处理。//source监控的目录//

overfit同步小助手 2024-08-02 06:03:24 0 收藏