大数据 - overfit.cn

AI架构师必知必会系列：自然语言处理在智能客服中的应用

作者：禅与计算机程序设计艺术 1.简介自然语言处理（Natural Language Processing，NLP）是计算机科学领域的一个重要方向，它利用计算机对文本、语音、图像等高维数据进行自动理解、分析和表达的能力。随着信息化和互联网的飞速发展，越来越多的人

overfit同步小助手 2023-11-15 06:01:45 0 收藏

Ubuntu搭建Hadoop3.X分布式和高可用集群，一步步深入

本文介绍了在Ubuntu操作系统上搭建Hadoop 3.x分布式和高可用环境的步骤。首先解释了Hadoop 3.x的架构和核心组件。然后，详细讲解了如何配置Ubuntu网络和主机名，安装Java和SSH，并生成SSH密钥。接下来，引导用户通过安装和配置Hadoop的各个组件（如HDFS、YARN和M

overfit同步小助手 2023-11-15 00:03:10 0 收藏

5 Paimon数据湖之表数据查询详解

主要涉及Paimon中系统表的查询、批量读取、流式读取，以及时间旅行特性的使用。

overfit同步小助手 2023-11-14 23:04:52 0 收藏

Flink的API分层、架构与组件原理、并行度、任务执行计划

Apache Flink的API分为四个层次，每个层次都提供不同的抽象和功能，以满足不同场景下的数据处理需求。Flink API 最底层的抽象为有状态实时流处理。其抽象实现是Process Function，并且Process Function被框架集成到了DataStream API中来为我们

overfit同步小助手 2023-11-14 23:03:52 0 收藏

Spark Scala大数据编程实例

初步介绍scala，下载安装配置spark和scala，运行spark scala版本实例

overfit同步小助手 2023-11-14 23:03:43 0 收藏

玩转数据-大数据-Flink SQL 中的时间属性

处理时间属性可以在 schema 定义的时候用 .proctime 后缀来定义。时间属性一定不能定义在一个已有字段上，所以它新增一个字段。// 1. 创建表的执行环境// 声明一个额外的字段来作为处理时间字段+ ")");事件时间属性可以用 .rowtime 后缀在定义 DataStream sch

overfit同步小助手 2023-11-14 19:03:38 0 收藏

大数据学习之Spark性能优化

overfit同步小助手 2023-11-14 13:04:31 0 收藏

大数据和智能数据应用架构系列教程之：大数据与环境监测

作者：禅与计算机程序设计艺术 1.简介一、背景介绍随着社会经济的不断发展，各种数据量的激增让数据的采集、存储、处理等过程变得越来越复杂、耗时长。传感器的普及、传播设备的广泛应用、传统的硬件设备已经不能满足需求了。近年来，大数据、云计算、机器学习技术等新兴技术

overfit同步小助手 2023-11-14 13:03:21 0 收藏

大数据-之LibrA数据库系统告警处理（ALM-12039 GaussDB主备数据不同步）

GaussDB主备数据不同步，系统每10秒检查一次主备数据同步状态，如果连续6次查不到同步状态，或者同步状态异常，产生告警。主备GaussDB数据不同步，如果此时主实例异常，会出现数据丢失或者数据异常的情况。本地GaussDB HA IP地址。对端GaussDB HA IP地址。当主备数据同步状态正

overfit同步小助手 2023-11-14 12:06:18 0 收藏

企业spark案例 —— 出租车轨迹分析(Python)

overfit同步小助手 2023-11-14 12:03:34 0 收藏

【网络奇幻之旅】那年我与大数据的邂逅

本文主要讲解了大数据的定义和分类，大数据的特点，大数据的应用以及大数据带来的一些负面影响。

overfit同步小助手 2023-11-14 08:03:12 0 收藏

AI架构师必知必会系列：AI在制造业的应用

人工智能（Artificial Intelligence，AI）正在成为一种主流产业和驱动力。随着互联网、物联网、大数据和云计算的普及，以及经济转型与科技革命带来的信息化进程的加速推进，AI在企业中扮演越来越重要的角色。在工业领域，无论是智能制造、智慧农业、智慧城市等各个行业，都逐渐受到人工智能的挑

overfit同步小助手 2023-11-14 04:01:44 0 收藏

flink streamload写入doris

详细介绍了基于flink 1.16的各种写入方式，本文主要介绍的是基于flink 1.13的RowData 数据流(RowDataSerializer)写入

overfit同步小助手 2023-11-14 03:03:47 0 收藏

企业邮箱安全对比：哪家公司的产品更可靠？

邮箱仍然是企业沟通的关键组成部分，但往往容易受到安全威胁。为了保护敏感信息，企业需要采取措施使企业邮箱更加安全。这可以通过投资先进的安全解决方案，创建限制或控制访问的策略，并定期对员工进行最佳实践培训来实现。

overfit同步小助手 2023-11-13 22:07:35 0 收藏

增加并行度后，发现Flink窗口不会计算的问题。

窗口没有关闭计算的问题，一直困扰了很久，经过多次验证，确定了问题的根源。是因为多个topic进行了数据消费，其中有个topic数据会进入窗口进行计算，但有的窗口又永远不会有数据进入计算，这就造成对应的窗口永远没有最低的watermark以致于窗口无法关闭并计算

overfit同步小助手 2023-11-13 22:04:06 0 收藏

Kerberos简单介绍及使用

Kerberos 下的用户可以称为 Principal，当每添加一个用户或服务的时候都需要向kdc添加一条principal, principal的形式为：主名称/实例名@领域名。第一部分是service的名字，比如imap， AFS， ftp. 通常’host’这个名字被用于指明对一台机器的通用的

overfit同步小助手 2023-11-13 20:07:18 0 收藏

百战c++（数据库2）

写满了：redo log 里的容量是有限的，如果数据库一直很忙，更新又很频繁，这个时候 redo log 很快就会被写满了，这个时候就没办法等到空闲的时候再把数据同步到磁盘的，只能暂停其他操作，全身心来把数据同步到磁盘中去的，而这个时候，就会导致我们平时正常的SQL语句突然执行的很慢，所以说，数据库

overfit同步小助手 2023-11-13 16:03:16 0 收藏

Flink SQL自定义表值函数（Table Function）

overfit同步小助手 2023-11-13 14:01:51 0 收藏

Hive表DDL操作（二）第2关：Create/Drop/ALTER 索引

overfit同步小助手 2023-11-13 13:03:43 0 收藏

[Hadoop高可用集群]数仓工具之Hive的安装部署（超级详细，适用于初学者）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下Apache Hive为一个开

overfit同步小助手 2023-11-13 13:03:27 0 收藏