大数据 - overfit.cn

【TDengine】1、Windows下安装TDengine

在Windows环境下安装TDengine

overfit同步小助手 2023-09-13 21:05:22 0 收藏

【ChatGPT】使用 LangChain 和 Ray 实现 100 行代码构建 LLM 开源搜索引擎【1】

例如，我们用 4 倍的数据进行了简单的测试，它大约是理论最大性能的 80%（即 6.5 倍，而理论最大值比 8 个 GPU 快 8 倍）。我们有一组很棒的主题演讲者，包括来自OpenAI的John Schulman和来自Cohere的Aidan Gomez，关于Ray的社区和技术讲座以及专注于LLM

overfit同步小助手 2023-09-13 19:04:20 0 收藏

linux centos7安装部署安装Elasticsearch并后台启动

为什么要使用“Elastic Stack”它到底是什么？它是一组快速且高度可扩展的组件（Elasticsearch、Kibana、Beats、Logstash 等），它们共同使您能够安全地从任何来源以任何格式获取数据，然后对其进行搜索、分析和可视化。官网地址：tar包地址。

overfit同步小助手 2023-09-13 17:06:42 0 收藏

大数据环境搭建 Hadoop+Hive+Flume+Sqoop

大数据Hadoop生态圈环境搭建，主要针对离线项目，利用HDFS进行分布式存储，MapReduce进行离线计算，Hive进行数据分析。

overfit同步小助手 2023-09-13 15:03:26 0 收藏

【开发问题】flink-cdc不用数据库之间的，不同类型的转化

我一开始直接用的oracle【date】类型，mysql【date】类型，sql的校验通过了，但是真正操作数据的时候报错，告诉我oracle的数据格式的日期数据，不可以直接插入到mysql格式的日期数据，说白了就是数据格式不一致导致的。我想的是既然格式不对，就自己手动把格式转一下，然后变成mysql

overfit同步小助手 2023-09-13 13:04:05 0 收藏

超详细Hadoop安装教程（单机版、伪分布式）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

overfit同步小助手 2023-09-13 11:03:19 0 收藏

大数据课程I3——Kafka的消息流与索引机制

比如，在成功消费一条消息后，你又把消费的offset重置到之前的某个offset位置，那么你将收到从那个offset到最新的offset之间的所有消息。想要开启这个特性，获得每个分区内的精确一次语义，也就是说没有重复，没有丢失，并且有序的语义，每个log文件默认是1GB生成一个新的Log文件，比如新

overfit同步小助手 2023-09-13 10:03:57 0 收藏

Flink流批一体计算（20）：DataStream API和Table API互转

在 PyFlink Table API 中，DDL 是定义 source 和 sink 比较推荐的方式，这可以通过 TableEnvironment 中的 execute_sql() 方法来完成，然后就可以在作业中使用这张表了。由于Flink是一个基于 Java/Scala 的项目，连接器（conn

overfit同步小助手 2023-09-13 10:03:47 0 收藏

轻松通关Flink第24讲：Flink 消费 Kafka 数据业务开发

这一课时介绍了 Flink 消费 Kafka 的方式，比如从常用的指定单个或者多个 Topic、消息的序列化、分区的动态发现等，还从源码上介绍了 Flink 消费 Kafka 的原理。通过本课时的学习，相信你可以对 Flink 消费 Kafka 有一个较为全面地了解，根据业务场景可以正确选择消费的方

overfit同步小助手 2023-09-13 07:04:09 0 收藏

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

Uber 模式” 是指在 Hadoop 中运行 MapReduce 任务时，将所有的任务（Mapper 和 Reducer）都运行在一个单独的 JVM 进程中，而不是在集群的不同节点上分别启动多个 JVM 进程来运行任务。这个模式的名称来自于 Uber 公司，他们在其 Hadoop 集群上采用了这种

overfit同步小助手 2023-09-13 07:03:56 0 收藏

【HDFS】NN处理全量块汇报时reportDiff的一些细节

overfit同步小助手 2023-09-13 06:03:12 0 收藏

hadoop3.2.4集成flink 1.17.0

hadoop，flink，集成

overfit同步小助手 2023-09-13 02:03:55 0 收藏

[大数据 Flink,Java实现不同数据库实时数据同步过程]

🌮笔记// 定义Mysql数据库连接信息// 定义查询语句// 定义JDBC连接器.finish();// 读取Mysql数据库中的数据rowTypeInfo表示数据类型信息，需要根据Mysql数据库中的表结构来定义。// 将读取到的数据封装成一个Flink的DataStream程序@Overri

overfit同步小助手 2023-09-13 02:03:46 0 收藏

win10 hadoop报错 unable to load native-hadoop library

win10 安装hadoop执行hdfs -namenode format 和运行hadoop的start-all报错 unable to load native-hadoop library。(1条消息) 【免费】hadoop3.0.0或者其他版本Unabletoloadnative-hadoop

overfit同步小助手 2023-09-13 01:04:09 0 收藏

4.1、Flink任务怎样读取集合中的数据

Flink任务读取集合中的数据

overfit同步小助手 2023-09-13 01:04:01 0 收藏

数据仓库(数仓)介绍

比如现在的网购，淘宝，京东等等。面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻划各个分析对象所涉及的企业的各项数据，以及数据之间的联系。这个阶段，主要是按照一定的数据模型，对整个企业的数据进行采集，整理，并且能够按照各个业务部门的需要，提供跨部门的，

overfit同步小助手 2023-09-12 21:04:08 0 收藏

说说Flink双流join

state数据保存多久，会内存爆炸吗 state自带有ttl机制，可以设置ttl过期策略，触发Flink清理过期state数据。为什么我的双流join时间到了却不触发，一直没有输出检查一下watermark的设置是否合理，数据时间是否远远大于watermark和窗口时间，导致窗口数据经常为空。实现

overfit同步小助手 2023-09-12 19:04:21 0 收藏

Linux安装Flink及其环境配置

使用StandAlone模式，需要启动Flink的主节点JobManager以及从节点TaskManager（1）Application模式（2）Per-Job模式（3）Session模式。

overfit同步小助手 2023-09-12 19:03:55 0 收藏

【大数据】Linkis：打通上层应用与底层计算引擎的数据中间件

Linkis 基于微服务架构，提供了金融级多租户隔离、资源管控、权限隔离等企业级特性，支持统一变量、UDF、函数、用户资源文件管理，具备高并发、高性能、高可用的大数据作业 / 请求全生命周期管理能力。

overfit同步小助手 2023-09-12 18:03:57 0 收藏

大数据平台搭建之hive连接mysql

linux中mysql的安装、hive本地模式的搭建

overfit同步小助手 2023-09-12 18:03:23 0 收藏