大数据 - overfit.cn

广州Y行信用卡中心大数据部数据开发岗笔试题

- 未排序，直接提取原表逻辑结构前10条记录。B.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX IN '男' AND C.CNAME IN '数据库';A.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX='男' AND C.CNAME='数据库';注

overfit同步小助手 2023-12-29 10:03:47 0 收藏

Flink Job 执行流程

模式【1】；生成，然后转化为JobGraph；【2】依次启动三者都服从分布式协同一致的策略；将JobGraph转化为，然后转化为物理执行任务Execution，然后进行deploydeploy过程会向请求slot，如果有直接deploy到对应的的slot里面，没有则向Yarn的申请，带contain

overfit同步小助手 2023-12-29 08:03:21 0 收藏

【详解】Spark数据倾斜问题由基础到深入详解-完美理解-费元星

spark hive数据倾斜，一文从浅到深，完美理解和解决

overfit同步小助手 2023-12-29 07:03:41 0 收藏

Flink快速部署集群，体验炸了！

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。

overfit同步小助手 2023-12-29 03:03:47 0 收藏

大数据 | 实验一：大数据系统基本实验 | 熟悉常用的HBase操作

1）理解 HBase 在 Hadoop 体系结构中的角色。2）熟练使用 HBase 操作常用的 shell 命令。3）熟悉 HBase 操作常用的 Java API。

overfit同步小助手 2023-12-29 00:03:27 0 收藏

Spark计算框架

Spark的诞生背景Spark 2009年诞生的一个技术，诞生的主要原因是因为Hadoop大数据解决方案存在一些弊端MR程序是基于磁盘进行运算，因此导致MR程序计算效率底下。MR程序无法计算复杂的任务，如果想要实现复杂的计算逻辑，可能编写多个MR Job，其中后续的Job依赖于前一个Job的输出，但

overfit同步小助手 2023-12-28 21:03:46 0 收藏

2023年【危险化学品生产单位安全生产管理人员】考试内容及危险化学品生产单位安全生产管理人员考试试卷

11时左右,当甲再次沿爬梯下到井底时,突然倒地。在附近作业的b工程公司职工丙等迅速赶到现场,丙在未采取任何防护措施的情况下下井救人,刚进入井底也突然倒地,乙再次大声呼救,c炼油厂专业救援人员闻讯赶到现场,下井将甲、丙救出,甲、丙经抢救无效死亡。86、【判断题】某厂生产一种有机产品,须在高压釜中进行反

overfit同步小助手 2023-12-28 20:06:56 0 收藏

阿里云实时数据仓库Hologres&Flink

为企业所有决策制定过程，提供所有系统数据支持的战略集合。传统的离线数仓无法实现当天数据的及时分析数据，所以需要开发实时数仓开填补空缺。

overfit同步小助手 2023-12-28 20:03:14 0 收藏

Spark读写Hive

使用Spark读写分布式数据仓库Hive

overfit同步小助手 2023-12-28 19:03:39 0 收藏

增强学习与自主智能体数学模型原理和在人工智能领域的应用代码实例讲解

人工智能国际合作是一种跨国、跨学科的合作模式，旨在共同研究和推动人工智能技术的发展。在这个领域，增强学习和自主智能体技术发挥着重要作用。增强学习是机器学习的一个分支，它旨在让机器学习系统能够在不明确指定奖励函数的情况下，自主地学习从环境中获取奖励。自主智能体是一种具有自主决策能力的智能体，它可以根据

overfit同步小助手 2023-12-28 19:01:34 0 收藏

大数据基础设施搭建 - 业务数据同步策略

套路：从body中拿出采集到的数据，解析出有用字段放入header中，配置文件中可以获取header中的东西。作用1：把从Kafka中获取的json串的业务表名放到header中。作用2：把从Kafka中获取的json串的ts时间戳转换成毫秒，放入header中。import com/**// 1、

overfit同步小助手 2023-12-28 18:03:17 0 收藏

Flume采集Kafka并把数据sink到OSS

我这里是为了防止sink的文件过于零碎, 但因为使用的memory channel, 缓存时间过长容易丢数据。默认启动时-Xmx20m, 过于小了, 加大堆内存可以直接放开。下载JindoSDK(连接OSS依赖), 下载地址。2. 进阶配置, 根据自己情况按需配置。3. Flume JVM参数。修改

overfit同步小助手 2023-12-28 17:03:51 0 收藏

机器人行业数据闭环实践：从对象存储到 JuiceFS

本文所指的机器人特指商用服务型机器人，如在商场中常见的自动清洁和送餐机器人。数据闭环是指收集终端用户的软件系统运行数据，以此来优化产品的功能和用户体验。数据闭环如下图所示，首先，机器人系统会捕捉并上传现场问题相关的数据。这些数据，包括传感器数据以及感知、规划和控制方面的信息，都将被直接采集并用于后续

overfit同步小助手 2023-12-28 11:06:08 0 收藏

虚拟机上搭建Hadoop运行环境

比如在上面这台虚拟机上面配置了上述主机名称和IP的映射，那么我要在这台主机访问另外几个IP，只需要访问他们的主机名即可。最大磁盘大小在条件允许的情况下建议是设置40G以上， 20G可能后续还需扩容，这里我们设置的50G.集群化软件之间需要通过端口互相通讯，为了避免出现网络不通的问题，我们可以简单的在

overfit同步小助手 2023-12-28 11:03:52 0 收藏

2023_Spark_实验二十九：Flume配置KafkaSink

flume1.9.0 配置source为exec读取shell脚本模拟产生的实时数据，配置Sink为kafkaSink，配置channel为memoryChannel

overfit同步小助手 2023-12-28 10:03:33 0 收藏

大数据编程实验：RDD编程

针对问题(6)，考虑使用嵌套形式的数据结构来存储，从该数据集中映射出课程名称和分数，对课程出现次数用字典进行统计：(课程名称, (分数, 1))使用reduceByKey方法将分数和方法加，得到新的数据：(课程名称,(总分数,总人数))于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行

overfit同步小助手 2023-12-28 10:03:22 0 收藏

医院信息化-5 集成平台和数据中心

每个做集成平台和数据中心的厂商都有自身的优势，有的追求评级、有的追求低成本、有的追求技术。无论哪一种都会在其中找到生存需求。因此一个集成平台和数据中心如何做技术选型都是参照公司本身的优势和目标定制的，并无完美的答案，以上仅仅是个人在医疗行业的见闻，仅供参考，如有错误之处，望请慷慨指出。

overfit同步小助手 2023-12-28 09:03:43 0 收藏

Centos系统上nginx安装

原文链接：https://blog.csdn.net/plj5201314/article/details/123706734。设置开放的端口号：firewall-cmd --add-service=http –permanent。查看开放的端口号：firewall-cmd --list-all。重

overfit同步小助手 2023-12-28 07:03:31 0 收藏

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践

利用58同城爬虫获取实时房价数据。使用Pandas进行数据清洗、处理，确保数据质量。利用Spark加速大数据分析，使用Echarts创建交互式可视化图表展示房价相关信息。基于Spark构建房价预测模型，通过机器学习算法实现对未来房价的预测。实现协同过滤推荐系统，为用户提供个性化的房屋推荐。设计合适的

overfit同步小助手 2023-12-28 06:03:40 0 收藏

基于spark对美国新冠肺炎疫情数据分析

2020年美国新冠肺炎疫情是全球范围内的一场重大公共卫生事件，对全球政治、经济、社会等各个领域都产生了深远影响。在这场疫情中，科学家们发挥了重要作用，积极探索病毒特性、传播机制和防控策略，并不断推出相关研究成果。本篇论文旨在使用 Spark 进行数据处理分析，以了解2020年美国新冠肺炎疫情在该国的

overfit同步小助手 2023-12-28 05:03:10 0 收藏