大数据 - overfit.cn

云计算与大数据-虚拟化与容器技术题库

VMX模式包括根操作（VMX Root Operation）模式和非根操作（VMX Non-Root Operation）模式，由于这两种模式中都存在Ring0到Ring3的特权级，所以在描述某个应用程序时，除了描述它属于哪个特权级，还要指明它处于根操作模式还是非根操作模式。同样的硬件环境，容器运行

overfit同步小助手 2023-04-18 16:03:53 0 收藏

搜索技术elasticsearch 和 kibana开启及docker启动

虚拟机中启动1、先启elasticsearch 浏览器访问：http://192.168.1.179:9200失败：原因1.防火墙没有关闭原因2.配置文件 network.hosts修改错误或者集群节点主机名配置错误cd /opt/es/kibana/bin （自己的）no

overfit同步小助手 2023-04-18 15:03:34 0 收藏

CDH数仓项目(一) —— CDH安装部署搭建详细流程

CDH数仓项目——基于CDH搭建数据仓库

overfit同步小助手 2023-04-18 12:03:52 0 收藏

docker安装rabbitmq

rabbitmq_delayed_message_exchange介绍大概的意思就是可以用来做延时队列，rabbitmq本身不支持延时队列，需要手动维护此插件，延时队列的实现在这不多做描述，大家可以到&&文章了解详情。需要安装docker-compose,了解yaml格式文件的编写以及一些常用的do

overfit同步小助手 2023-04-18 11:03:46 0 收藏

大数据技术——Flume实战案例

1. 复制和多路复用1.1 案例需求1.2 需求分析1.3 实现操作2. 负载均衡和故障转移2.1 案例需求2.2 需求分析2.3 实现操作3. 聚合操作3.1 案例需求3.2 需求分析3.3 实现操作

overfit同步小助手 2023-04-18 10:03:57 0 收藏

Elasticsearch 安装及启动【Windows】

以上就是今天要讲的内容，本文仅仅简单介绍了Windows下安装和启动Elasticsearch，以上方法亲测有效，希望能给大家一个参考。

overfit同步小助手 2023-04-18 10:03:47 0 收藏

大数据面试常见问题（四）——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题，你们是怎么解决的？4、如果抽取的数据有重复，怎么解决5、etl脚本开发以后，怎么运维6、一张特别大的表，几千万，几亿的表，怎么通过etl工具同步7、数据同步以后，源系统的表结构发生了改变，比如源系统的表增加了字段，你的kett

overfit同步小助手 2023-04-18 09:03:49 0 收藏

Flume学习-采集端口数据存入kafka

overfit同步小助手 2023-04-18 08:03:50 0 收藏

HBase安装部署

本文介绍了在hadoop和zookeeper的基础上进行hbase的安装步骤。

overfit同步小助手 2023-04-18 08:03:37 0 收藏

Python文本数据及其可视化

1.实验内容：根据qq音乐获取的信息，对某一首歌曲的评论内容进行处理。分析评论中的词性分布。统计高频词，画出词云。2.实验步骤： 1. 文本信息初处理：根据实验二QQ音乐抓取周杰伦的前五首歌曲评论等信息筛查晴天这首歌的相关信息存为“晴天-周杰伦”的文本文件方便后续数据读取。文本信息节选展示：

overfit同步小助手 2023-04-18 07:03:51 0 收藏

基于SSM的医院医疗管理系统的设计与实现

这里根据疫情当下，你想解决的问题，今天给大家介绍一篇基于SSM的医院医疗管理系统的设计与实现。从求医患者和医院相关管理人员的角度出发，对每个功能的需求实现点进行人性化详细的构思，对每个功能的细节点进行分析设计整合完成整个医疗系统的设计[9]。系统管理员功能模块：病人挂号入院、病房管理、结算中心、统计

overfit同步小助手 2023-04-18 07:03:40 0 收藏

【RabbitMQ】Springboot实现延迟队列+死信队列

目录死信的概念应用场景死信的来源延迟队列延迟队列概念延迟队列使用场景springboot实现代码架构图配置类生产者（在web界面输入消息）消费者结果问题和新需求延时队列优化代码架构图配置文件类代码消息生产者代码消费者存在的问题解决：安装延时队列插件代码架构图配置文件类代码消息生产者代码消费者结果总结

overfit同步小助手 2023-04-18 07:03:37 0 收藏

本地上传文件到hadoop的hdfs文件系统里

2、我们进入到/opt/hadoop/hadoop.2.8.5/etc/里面又很多配置文件，我们修改hdfs.site.xml文件跟core.site.xml文件。cd /opt/hadoop/hadoop.2.8.5/bin/ hdfs namenode -format //格式化名称节点。//查

overfit同步小助手 2023-04-18 06:03:53 0 收藏

大数据Flink进阶（十六）：Flink HA搭建配置

默认情况下，每个Flink集群只有一个JobManager，这将导致单点故障（SPOF，single point of failure），如果这个JobManager挂了，则不能提交新的任务，并且运行中的程序也会失败，这是我们可以对JobManager做高可用（High Availability，简

overfit同步小助手 2023-04-18 04:03:53 0 收藏

由spark.sql.shuffle.partitions混洗分区浅谈下spark的分区

spark分区 spark并行度 spark任务数 spark输入数据分区 spark shuffle操作分区

overfit同步小助手 2023-04-18 04:03:42 0 收藏

Hadoop之Yarn篇

(7) NodeManger创建容器，任何任务的执行都是在容器中执行的（容器中有cpu+ram--网络资源），并且在容器中启动了一个MRAppmaster。(3): 提交job运行所需要的资源(Job.spilt Job.xml wc.jar )（按

overfit同步小助手 2023-04-18 03:03:47 0 收藏

Kafka消费者不消费数据

kafka消费者停止消费

overfit同步小助手 2023-04-18 03:03:38 0 收藏

ES查询常用语法

ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询）9.

overfit同步小助手 2023-04-18 02:03:49 0 收藏

Spark参数优化

sprak参数优化

overfit同步小助手 2023-04-18 00:03:42 0 收藏

终于有人把分布式机器学习讲明白了

导读：分布式机器学习与联邦学习。作者：薄列峰黄恒顾松庠陈彦卿等来源：大数据DT（ID：hzdashuju）分布式机器学习也称分布式学习，是指利用多个计算节点（也称工作节点，Worker）进行机器学习或者深度学习的算法和系统，旨在提高性能、保护隐私，并可扩展至更大规模的训练数据和更大的模型。联邦

overfit同步小助手 2023-04-18 00:03:36 0 收藏