大数据 - overfit.cn

五.海量数据实时分析-FlinkCDC+DorisConnector实现数据的全量增量同步

前面四篇文字都在学习Doris的理论知识，也是比较枯燥，当然Doris的理论知识还很多，我们后面慢慢学，本篇文章我们尝试使用SpringBoot来整合Doris完成基本的CRUD。由于 Doris 高度兼容 Mysql 协议，两者在 SQL 语法方面有着比较强的一致性，另外 Mysql 客户端也是

overfit同步小助手 2024-11-12 22:03:54 0 收藏

大数据之hive(分布式SQL计算工具)加安装部署

解压:命令: tar -zxvf /export/server/apache-hive-4.0.1-bin.tar.gz -C /export/server/设置软连接:ln -s /export/server/apache-hive-4.0.1-bin /export/server/hive。:

overfit同步小助手 2024-11-12 22:03:49 0 收藏

【大数据项目实战】结合实际案例进行大数据项目的设计与实现

例如，使用 SQL 查询工具（如 Apache Hive）进行数据查询和分析，使用机器学习库（如 Apache Mahout、TensorFlow）进行高级数据分析。本文将结合实际案例，详细介绍大数据项目的设计与实现过程，包括项目的规划、技术选型、数据处理和分析、以及项目实施的最佳实践。通过上述方法

overfit同步小助手 2024-11-12 21:03:49 0 收藏

【中项】系统集成项目管理工程师-第3章信息技术服务-3.1内涵与外延与3.2原理与组成

随着网络的快速发展，包括互联网的泛化以及数据要素的驱使等，使其上的应用能够通过多种终端与个人紧密结合，创造和改变了众多组织及个人的应用习惯和业务模式等，为服务提供了新的实现手段，也赋予了服务更多的内涵，除软硬件技术支持服务、服务外包、IT咨询、IT培训等服务外，以新媒体、社交网络、数据开发等为代表的

overfit同步小助手 2024-11-12 20:03:49 0 收藏

OpenAI 的 o1 与 GPT-4o：深入探究 AI 的推理革命

wp:image在不断发展的人工智能领域，OpenAI 再次凭借其最新产品突破界限：o1 模型和 GPT-4o。作为一名几十年来一直报道科技的人，我见过不少伪装成革命的增量更新。但这个？这不一样。让我们拨开炒作的迷雾，看看这些新模型到底带来了什么。

overfit同步小助手 2024-11-12 19:01:21 0 收藏

大数据-211 数据挖掘机器学习理论 - 逻辑回归 scikit-learn 实现 max_iter 分类方式选参数

因此，如果在max_iter红条的情况下，模型的训练和预测效果都已经不错了，那我们就不需要再增大max_iter中的数目了，毕竟一切都以模型的预测效果为基准，只要模型预测的效果好，运行又快，那就一切都好。如果模型有 T 类，我们每次在所有的 T 类样本里面选择两类样本出来，不防记为 T1 和 T2，

overfit同步小助手 2024-11-12 15:03:11 0 收藏

Kafka 的一些问题，夺命15连问

kafka-中的组成员kafka四大核心生产者API允许应用程序发布记录流至一个或者多个kafka的主题（topics）。消费者API允许应用程序订阅一个或者多个主题，并处理这些主题接收到的记录流StreamsAPI允许应用程序充当流处理器（stream processor），从一个或者多个主题获取

overfit同步小助手 2024-11-12 13:03:54 0 收藏

Flink讲解与部署与yarn模式

Flink提供了多种状态后端来存储和管理状态，并支持不同的状态模式，如ValueState、ListState、ReducingState等。：随着大数据和实时数据处理需求的增长，Flink不断发展，引入了许多扩展功能，如复杂事件处理、图计算、机器学习等。：Flink支持构建事件驱动的应用程序，可以

overfit同步小助手 2024-11-12 12:03:21 0 收藏

大数据技术及应用期末总结

mapper.pyreducer.py代码示例2 文件去重（使用set）mapper.pyreducer.py代码示例3 挖掘关系（排列组合）mapper.pyreducer.py SparkRDD创建RDD1.集合并行化创建RDD(parallelize)2.读取外部数据集创建RDD(textFi

overfit同步小助手 2024-11-12 11:03:51 0 收藏

大数据-216 数据挖掘机器学习理论 - KMeans 基于轮廓系数来选择 n_clusters

有时间，当我们 n_cluster 选择不符合数据的自然分布，或者我们为了业务需求，必须要填入与数据的自然分布不合的 n_cluster，提前让迭代停下来反而能够提升模型的表现。初始质心放置的位置不同，聚类的结果很可能也会不一样，一个好的质心选择可以让 KMeans 避免更多的计算，让算法收敛稳定且

overfit同步小助手 2024-11-12 09:03:38 0 收藏

重学SpringBoot3-整合 Elasticsearch 8.x (三)使用Repository

在使用Spring Data Elasticsearch进行复杂查询时，Repository的接口方法以及定制查询能力可以帮助我们更灵活地构建高级用例。以下是几个具体示例

overfit同步小助手 2024-11-12 08:02:23 0 收藏

主流的大数据框架Hadoop/spark

处理大数据：如果你有成千上万的文件、日志数据，或者每天需要处理几百 GB 的数据量，Spark 是一个理想的工具。在需要反复计算的数据任务中，如迭代式的机器学习算法，它有很大的优势。1、高速处理： Spark 能够将数据加载到内存中进行计算，相比于传统的 Hadoop MapReduce，它的迭代

overfit同步小助手 2024-11-12 07:03:58 0 收藏

一文详解开源ETL工具Kettle!

一、Kettle 是什么一、Kettle 是什么Kettle 是一款开源的 ETL（Extract - Transform - Load）工具，用于数据抽取、转换和加载。它提供了一个可视化的设计环境，允许用户通过简单的拖拽和配置操作来构建复杂的数据处理工作流，能够处理各种数据源和目标之间的数据集成任

overfit同步小助手 2024-11-12 02:04:19 0 收藏

【git】如何更改git绑定账号

这条命令能显示你当前仓库中已经添加了的仓库名和对应的仓库地址，通常来讲，会有两条一模一样的记录，分别是fetch和push，其中fetch是用来从远程同步 push是用来推送到远程。登录码云gitee --> 点击头像 --> 设置 --> 点击左导航栏“ssh公钥” --> 粘贴到右边“公钥”的大

overfit同步小助手 2024-11-12 02:04:16 0 收藏

基于Spark的电信用户行为分析系统的设计与实现

一、系统概述该电信用户行为分析系统旨在利用先进的技术手段，深入挖掘电信用户的行为数据，为电信运营商提供决策支持和精准营销服务。系统采用 Spring Boot 框架构建稳定的后端服务，并结合 Spark 强大的大数据处理能力。二、主要功能数据采集：从电信运营商的各种数据源中收集用户行为数据，包括通话

overfit同步小助手 2024-11-12 01:04:11 0 收藏

基于大数据的学生体质健康信息系统的设计与实现(源码+LW+调试文档+讲解)

本项目是一个基于 Spring Boot 和 Vue 的结合大数据技术的学生体质健康信息系统。该系统旨在全面收集、管理和分析学生的体质健康数据，为学校、家长和相关部门提供科学决策依据，以促进学生的健康成长。系统采用前后端分离的架构模式。后端的 Spring Boot 框架提供强大的业务逻辑处理能力和

overfit同步小助手 2024-11-12 00:04:20 0 收藏

Flink难点和高频考点：Flink的反压产生原因、排查思路、优化措施和监控方法

在探讨Flink的性能优化时，我们首先需要理解反压这一关键概念。

overfit同步小助手 2024-11-11 21:03:40 0 收藏

前端大数据渲染：虚拟列表、触底加载与分堆渲染方案

针对表格展示数据，用户提出要求前端在表格下面有一展示多少条数据的选项，如果要求一次性展示10000条数据，如果直接染会造成页面的卡顿，渲染速度下降，内容展示慢,如果有操作，操作会卡顿下面总结常见的几种大数据渲染方案。

overfit同步小助手 2024-11-11 16:03:44 0 收藏

大数据都有哪些技术?

大数据技术的发展使得企业能够有效地管理和利用海量数据，从数据中提取价值。通过合理选择和组合这些技术，可以构建一个高效、可靠的大数据处理系统。随着技术的进步，新的工具和框架也在不断涌现，开发者应持续关注最新的发展动态。

overfit同步小助手 2024-11-11 15:03:57 0 收藏

企业数据泄露安全演练（分享）

文章主要分享作者在XXX企业内部做的一次【数据泄露安全演练】，涉及演练背景、目的、演练流程、剧本设定、预期行为、结果等等。

overfit同步小助手 2024-11-11 14:07:11 0 收藏