大数据 - overfit.cn

Flink on yarn 加载失败plugins失效问题解决

flink 任务运行在yarn集群,plugins加载失效问题

overfit同步小助手 2023-11-07 15:03:40 0 收藏

Flink之FileSink将数据写入parquet文件

Flink写入数据到Parquet文件

overfit同步小助手 2023-11-07 14:03:37 0 收藏

运营商大数据获客：电销数据资源企业要实现精准获客金融贷款行业

目前传统的电销数据资源存在的问题也很明显，尤其是表现在金融贷款，教育培训，装修设计，房产保险这几个行业，在各行各业竞争激烈的情况下面，传统的公海数据资源存在被反复利用过度营销的情况，所以说电销数据资源的时效性，也就是实时的电销数据资源才有意义！如果你想获得准确的客户，你必须有信息技术的支持——运营商

overfit同步小助手 2023-11-07 11:03:53 0 收藏

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

当缓存命中最大缓存行 lookup.partial-cache.max-rows 或当行超过 lookup.partial-cache.expire-after-write 或 lookup.partial-cache.expire-after-access 指定的最大存活时间时，缓存中的行将被设置

overfit同步小助手 2023-11-07 09:03:32 0 收藏

解决：ERROR: Cannot set priority of datanode process 10603

datanode 启动解决

overfit同步小助手 2023-11-07 08:03:40 0 收藏

ES性能优化最佳实践- 检索性能提升30倍！

虽然Elasticsearch是一款强大的搜索引擎技术，但在超大规模数据检索中，尤其是在处理大量检索关键词（150个以上）、对多个字段执行检索并使用脚本排序时，可能会面临严重的性能问题。在我们实际的业务中，检索的时间可能到达300秒，无法满足实时交互需求。本文带你打开一个新思路。在未添加任何资源的情

overfit同步小助手 2023-11-07 03:04:22 0 收藏

Hadoop3教程（二十一）：MapReduce中的压缩

主要介绍了MR里压缩的定义、优缺点、常用压缩算法的对比，以及该在什么地方启用压缩，如何启用压缩等

overfit同步小助手 2023-11-07 02:03:48 0 收藏

Hadoop 分布式集群搭建教程（2023在校生踩坑版）

在Hadoop01节点上执行以下命令，启动HDFS和YARN：bug1：如果出现类似报错。

overfit同步小助手 2023-11-07 01:04:42 0 收藏

spark相关网站

矢量线八方向和全方向栅格化算法C#实现。GIS中将矢量数据转换栅格数据算法。Spark的五种JOIN策略解析。

overfit同步小助手 2023-11-06 23:03:44 0 收藏

数据导入与预处理——实验一：数据导入与导出

掌握使用Kettle进行数据导入与导出的方法计算机、Kettle（PDI）、MySQL数据库某连锁超市为了优化经营管理，拟搭建一个商务智能系统，来帮助企业管理团队更全面、专业的通过数据了解业务况状。目前公司有一个订单数据库，记录了每一笔订单的详细数据，包括以下字段：【字段名称,订单编号,下单日期,销

overfit同步小助手 2023-11-06 21:03:42 0 收藏

人工智能如何促进产业升级？

作者：禅与计算机程序设计艺术 1.简介随着人类科技的飞速发展，技术革新带动着产业的变革。由于人的脑力已经无法承受复杂任务的处理，人工智能（AI）技术显得尤为重要。随着人工智能的应用日益广泛，产业变革的加速度也越来越快。围绕着人工智能的产业由传统的机械制造向互联网

overfit同步小助手 2023-11-06 20:01:40 0 收藏

倾向得分匹配（PSM）的原理以及应用

该文章主要介绍倾向得分匹配（PSM, Propensity Score Matching）方法的原理以及实现。这是一种理论稍微复杂、但实现较为容易的分析方法，适合非算法同学的使用。可用于（基于观察数据的）AB实验、增量模型搭建等领域。文章主要分为四部分：前置知识（因果推断）介绍、倾向得分计算与匹配与

overfit同步小助手 2023-11-06 18:03:50 0 收藏

07-HDFS入门及shell命令

Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。分布式文件系统解决大数据如何存储的问题。分布式意味着是横跨在多台计算机上的存储系统。HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错，适用于具有大数据集的应用程序，它非

overfit同步小助手 2023-11-06 18:03:41 0 收藏

数据清洗【大数据比赛长期更新】

大数据比赛数据清洗题目分析，欢迎一起讨论

overfit同步小助手 2023-11-06 15:03:46 0 收藏

Flink CDC介绍

CDC（Change Data Capture）是一种用于捕获和处理数据源中的变化的技术。它允许实时地监视数据库或数据流中发生的数据变动，并将这些变动抽取出来，以便进行进一步的处理和分析。传统上，数据源的变化通常通过周期性地轮询整个数据集进行检查来实现。但是，这种轮询的方式效率低下且不能实时反应变化

overfit同步小助手 2023-11-06 14:03:50 0 收藏

大数据之hadoop启动失败问题集锦

启动时会提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”，其中 DBLab-XMU 对应你的机器名，但其实启动日志信息是记录在 /us

overfit同步小助手 2023-11-06 13:03:40 0 收藏

人工智能在金融行业的应用前景及挑战

作者：禅与计算机程序设计艺术 1.简介随着互联网、移动互联网、物联网等新型信息技术的发展，人工智能（AI）在金融领域也越来越受到关注。近几年，随着数据量的爆炸性增长、模型的迅速更新换代，人工智能在财务、金融领域有着广阔的发展空间。在过去的几年里，人工智能在财务领

overfit同步小助手 2023-11-06 09:01:42 0 收藏

Flinkx/Datax/Flink-CDC 优劣势对比

FlinkX是一款基于Flink的分布式离线/实时数据同步插件，可实现多种异构数据源高效的数据同步，其由袋鼠云于2016年初步研发完成，目前有稳定的研发团队持续维护，已在Github上开源（开源地址详见文章末尾），并维护该开源社区。目前已完成批流统一，离线计算与流计算的数据同步任务都可基于Flink

overfit同步小助手 2023-11-06 08:03:44 0 收藏

大数据Flink（七十一）：SQL的时间属性

以事件时间举个例子，如果只是数据携带了时间，Flink 也消费了这个数据，但是在 Flink 中没有使用数据的这个时间作为计算的触发条件，也不能把这个 Flink 任务叫做事件时间的任务。：举个例子，比如用户可以自定义每隔 10s 的本地时间，或者消费到的数据的时间戳每增大 10s，就把计算结果输出

overfit同步小助手 2023-11-06 06:03:47 0 收藏

Langchain 流式输出到前端（真正解决方法，附最佳实践的完整代码）

当我们深入使用Langchain时，我们都会考虑如何进行流式输出。尽管官方网站提供了一些流式输出的示例，但这些示例只能在控制台中输出，并不能获取我们所需的生成器。而网上的许多教程也只是伪流式输出，即先完全生成结束，再进行流式输出。实际上，这个方法非常简单，但是在文档和网上教程中确实很难找到。我花费了

overfit同步小助手 2023-11-06 02:02:50 0 收藏