大数据 - overfit.cn

大数据基础设施搭建 - 业务数据同步策略

套路：从body中拿出采集到的数据，解析出有用字段放入header中，配置文件中可以获取header中的东西。作用1：把从Kafka中获取的json串的业务表名放到header中。作用2：把从Kafka中获取的json串的ts时间戳转换成毫秒，放入header中。import com/**// 1、

overfit同步小助手 2023-12-28 18:03:17 0 收藏

Flume采集Kafka并把数据sink到OSS

我这里是为了防止sink的文件过于零碎, 但因为使用的memory channel, 缓存时间过长容易丢数据。默认启动时-Xmx20m, 过于小了, 加大堆内存可以直接放开。下载JindoSDK(连接OSS依赖), 下载地址。2. 进阶配置, 根据自己情况按需配置。3. Flume JVM参数。修改

overfit同步小助手 2023-12-28 17:03:51 0 收藏

机器人行业数据闭环实践：从对象存储到 JuiceFS

本文所指的机器人特指商用服务型机器人，如在商场中常见的自动清洁和送餐机器人。数据闭环是指收集终端用户的软件系统运行数据，以此来优化产品的功能和用户体验。数据闭环如下图所示，首先，机器人系统会捕捉并上传现场问题相关的数据。这些数据，包括传感器数据以及感知、规划和控制方面的信息，都将被直接采集并用于后续

overfit同步小助手 2023-12-28 11:06:08 0 收藏

虚拟机上搭建Hadoop运行环境

比如在上面这台虚拟机上面配置了上述主机名称和IP的映射，那么我要在这台主机访问另外几个IP，只需要访问他们的主机名即可。最大磁盘大小在条件允许的情况下建议是设置40G以上， 20G可能后续还需扩容，这里我们设置的50G.集群化软件之间需要通过端口互相通讯，为了避免出现网络不通的问题，我们可以简单的在

overfit同步小助手 2023-12-28 11:03:52 0 收藏

2023_Spark_实验二十九：Flume配置KafkaSink

flume1.9.0 配置source为exec读取shell脚本模拟产生的实时数据，配置Sink为kafkaSink，配置channel为memoryChannel

overfit同步小助手 2023-12-28 10:03:33 0 收藏

大数据编程实验：RDD编程

针对问题(6)，考虑使用嵌套形式的数据结构来存储，从该数据集中映射出课程名称和分数，对课程出现次数用字典进行统计：(课程名称, (分数, 1))使用reduceByKey方法将分数和方法加，得到新的数据：(课程名称,(总分数,总人数))于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行

overfit同步小助手 2023-12-28 10:03:22 0 收藏

医院信息化-5 集成平台和数据中心

每个做集成平台和数据中心的厂商都有自身的优势，有的追求评级、有的追求低成本、有的追求技术。无论哪一种都会在其中找到生存需求。因此一个集成平台和数据中心如何做技术选型都是参照公司本身的优势和目标定制的，并无完美的答案，以上仅仅是个人在医疗行业的见闻，仅供参考，如有错误之处，望请慷慨指出。

overfit同步小助手 2023-12-28 09:03:43 0 收藏

Centos系统上nginx安装

原文链接：https://blog.csdn.net/plj5201314/article/details/123706734。设置开放的端口号：firewall-cmd --add-service=http –permanent。查看开放的端口号：firewall-cmd --list-all。重

overfit同步小助手 2023-12-28 07:03:31 0 收藏

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践

利用58同城爬虫获取实时房价数据。使用Pandas进行数据清洗、处理，确保数据质量。利用Spark加速大数据分析，使用Echarts创建交互式可视化图表展示房价相关信息。基于Spark构建房价预测模型，通过机器学习算法实现对未来房价的预测。实现协同过滤推荐系统，为用户提供个性化的房屋推荐。设计合适的

overfit同步小助手 2023-12-28 06:03:40 0 收藏

基于spark对美国新冠肺炎疫情数据分析

2020年美国新冠肺炎疫情是全球范围内的一场重大公共卫生事件，对全球政治、经济、社会等各个领域都产生了深远影响。在这场疫情中，科学家们发挥了重要作用，积极探索病毒特性、传播机制和防控策略，并不断推出相关研究成果。本篇论文旨在使用 Spark 进行数据处理分析，以了解2020年美国新冠肺炎疫情在该国的

overfit同步小助手 2023-12-28 05:03:10 0 收藏

git 撤销已经push到远程的提交

overfit同步小助手 2023-12-28 01:04:15 0 收藏

BI软件概述以及FineBI安装并连接Hive（包含安装包和插件）

简单来说，就是借助BI工具，可以完成复杂的数据分析、数据统计等需求，为公司决策带来巨大的价值。1.在FineBI安装目录进入FineBI6.0\webapps\webroot\WEB-INF\lib此文件夹。6.运行程序，输入在官网注册账号获取的激活码，也可以点击获取激活码。2.粘贴jar包，jar

overfit同步小助手 2023-12-27 16:03:50 0 收藏

【大数据】HBase 中的列和列族

HBase 的每一个行都是离散的，因为列族的存在，所以一个行里不同的列甚至被分配到了不同的服务器上。行的概念被减弱到了一个抽象的存在。在实体上，把多个列定义为一个行的关键词 RowKey，也就是行这个概念在 HBase 中的唯一体验。

overfit同步小助手 2023-12-27 16:03:19 0 收藏

大数据课程综合实验案例---课设问题汇总

大数据课设问题汇总

overfit同步小助手 2023-12-27 11:03:37 0 收藏

大数据深度解析NLP文本摘要技术：定义、应用与PyTorch实战

在本文中，我们深入探讨了自然语言处理中的文本摘要技术，从其定义、发展历程，到其主要任务和各种类型的技术方法。文章详细解析了抽取式、生成式摘要，并为每种方法提供了PyTorch实现代码。最后，文章总结了摘要技术的意义和未来的挑战，强调了其在信息过载时代的重要性。

overfit同步小助手 2023-12-27 10:03:51 0 收藏

Flink-Checkpoint源码详解

Flink chcekpoint作为flink中最重要的部分，是flink精准一次性的重要保证，可以这么说flink之所以这么成功和她的checkpoint机制是离不开的。之前大概学习了一下flink的checkpoint源码，但是还是有点晕乎乎的，甚至有点不理解我们作业中设置的checkpoint

overfit同步小助手 2023-12-27 10:03:41 0 收藏

Flink 输出至 Redis

【代码】Flink 输出至 Redis。

overfit同步小助手 2023-12-27 08:03:25 0 收藏

全国职业院校技能大赛-大数据离线数据处理模块-数据清洗

4. 抽取ods库中producerecord的全量数据进入Hive的dwd库中表fact_produce_record,分区字段为etldate且值与ods库的相对应表该值相等，并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modif

overfit同步小助手 2023-12-27 04:03:46 0 收藏

Flink学习---15、FlinkCDC（CDC介绍、案例实操）

FlinkCDC（CDC介绍、案例实操）

overfit同步小助手 2023-12-27 01:03:48 0 收藏

Hadoop入门详解以及Hadoop集群搭建

Hadoop基础知识入门详解，CentOs8搭建Hadoop集群

overfit同步小助手 2023-12-27 01:03:45 0 收藏