大数据 - overfit.cn

Flink安装部署（一）

Flink的三种安装部署方式

overfit同步小助手 2023-07-03 04:03:51 0 收藏

Flume实现Kafka数据持久化存储到HDFS

本文关键字：Flume、Kafka、HDFS、实时数据、存储。对于一些实时产生的数据，除了做实时计算以外，一般还需要归档保存，用于离线数据分析。使用Flume的配置可以实现对数据的处理，并按一定的时间频率存储，本例中将从Kafka中按天存储数据到HDFS的不同文件夹。

overfit同步小助手 2023-07-03 03:04:29 0 收藏

【毕业设计】奥运会数据分析与可视化 - python 大数据

🔥 Hi，大家好，这里是丹成学长的毕设系列文章！🔥 对毕设有任何疑问都可以问学长哦!这两年开始，各个学校对毕设的要求越来越高，难度也越来越大… 毕业设计耗费时间，耗费精力，甚至有些题目即使是专业的老师或者硕士生也需要很长时间，所以一旦发现问题，一定要提前准备，避免到后面措手不及，草草了事。为了

overfit同步小助手 2023-07-03 03:04:16 0 收藏

SpringBoot+MyBatis批量插入数据的三种方式

这种方式插入大量数据时，好处是不用频繁访问数据库，一条sql搞定，效率比较高，缺点是当数据量太大时，会出现拼接的sql语句超长而执行失败，所以当数据量太大时，也不推荐。这种方式可以说是集第一种和第二种方式的优点于一身，既可以提高运行效率，又可以保证大数据量时执行成功，大数据量时推荐使用这种方式。好了

overfit同步小助手 2023-07-03 03:03:54 0 收藏

大数据基础考试复习（考试前不停更）——《大数据技术与原理应用》

小题：文章目录小题：选择：判断：填空：大题一、简答题1、Hadoop 生态及各部分的作用2、HDFS的实现目标3、FsImage和EditLog的过程4、HDFS读数据的过程5、HBase Region的定位方式6、MapReduce运行流程7、简述Map函数和Reduce函数的功能二、实验题三、综

overfit同步小助手 2023-07-03 02:04:23 0 收藏

数据分析师不能不知道的5种数据分析方法，解决90%分析难题！

按照这6个步骤，结合相关数据进行分析，一般不会出错，另外需要注重数据的展示，即用图表展示数据，就像这种：这种图表Excel就可以做~01 SMART分析法S（Specific）：明确性M（Measurable）：可衡量性A（Attainable）：可实现性R（Relevant）：相关性T（Time-

overfit同步小助手 2023-07-03 00:04:16 0 收藏

Windows环境下RabbitMQ的安装（安装过程以及解决安装过程的问题）

详细的介绍了Windows下安装RabbitMQ的过程、RabbitMQ管理插件的安装和常见的命令以及解决安装过程出现的问题

overfit同步小助手 2023-07-03 00:03:56 0 收藏

Kibana配置ES集群（版本号8.3.3）

注意kibana只支持非root启动，我没有新建用户，还是用的elasticsearch101。

overfit同步小助手 2023-07-02 23:04:43 0 收藏

Docker环境运行Kafka容器失败

overfit同步小助手 2023-07-02 23:04:32 0 收藏

你好：Zookeeper

初次认识了Zookeeper，讲解了Zookeeper分布式集群搭建的过程，在搭建完成之后进行了Zookeeper shell API的学习，通过Shell API初次尝试Zookeeper，同时通过curator进行Java Api的尝试。此外Zookeeper也能够实现分布式锁，在这里进行了一个

overfit同步小助手 2023-07-02 21:04:16 0 收藏

【Python】数据框DataFrame和列表List相互转换

在使用一些别人封装好的库的时候，调用函数返回的结果便是DataFrame，这时如果要对内部数据做一些加工处理的话会很不方便。我们要需要将DataFrame还原成列表的形式来处理。

overfit同步小助手 2023-07-02 21:04:10 0 收藏

利用Docker快速部署hadoop、hive和spark

文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml1.docker-compose.ymlversion: '3.4' services: namenode: image: test/hadoop

overfit同步小助手 2023-07-02 21:03:59 0 收藏

CENTOS上的网络安全工具（二十四）Windows下的Hadoop+Spark编程环境构建

前面我们搭建了hadoop集群，spark集群，也利用容器构建了spark的编程环境。但是一般来说，就并行计算程序的开发，一刚开始一般是在单机上的，比如hadoop的single node。但是老师弄个容器或虚拟机用vscode远程访问式开发，终究还是有些不爽。还好，hadoop和spark都是支持

overfit同步小助手 2023-07-02 20:04:23 0 收藏

在Hive中判断字符串中是否包含指定子字符串

方法一用法:返回值函数名函数说明intlocate(string substr, string str[, int pos])Returns the position of the first occurrence of substr in str after position pos.使用案例:s

overfit同步小助手 2023-07-02 19:04:17 0 收藏

kafka消费多个topic的使用

我们在业务中难免遇到一个kafka消费多个topic的消息，本文帮助大家如何在业务中用一个类消费多个topic消息。

overfit同步小助手 2023-07-02 18:04:17 0 收藏

elasticsearch 如何查看index的内容

2、使用 Kibana 工具来进行查询，Kibana 是一个基于 Elasticsearch 的数据分析和可视化平台，可以通过 Kibana 的界面来查询 Elasticsearch 中的数据。3、使用 Elasticsearch 的客户端库，例如 Python 的 elasticsearch-py

overfit同步小助手 2023-07-02 17:04:37 0 收藏

节点数据采集和标签信息的远程洪泛传输

完成节点数据采集和标签信息的远程洪泛传输，在与 Sink 节点相连接的 PC 上能看到结果（标签信息、感知的数据）。其中，节点感知数据采集包括光照值、温湿度值，采集节点每 20s 采集一次温湿度、每10s 采集一次光照。标签数据读写控制周期自行决定。............

overfit同步小助手 2023-07-02 16:04:15 0 收藏

第三章_基于zookeeper实现分布式锁

在这种羊群效应中，zookeeper需要通知1000个客户端，这会阻塞其他的操作，最好的情况应该只唤醒新的最小节点对应的客户端。在设置事件监听时，每个客户端应该对刚好在它之前的子节点设置事件监听，例如子节点列表为/lock/lock-0000000000、/lock/lock-0000000001、

overfit同步小助手 2023-07-02 15:04:15 0 收藏

大数据框架之Hive：第7章综合案例练习（初级）

overfit同步小助手 2023-07-02 12:05:50 0 收藏

Kafka消息队列核心概念以及部署

当系统架构中引入了消息队列，用户下单完成后向消息队列中发送一条消息数据后，就会返回给用户订单创建完成，此时仅仅花费50毫秒的时间，消息数据进入到消息队列后，会被分配到某一个队列中，需要与订单系统联动的系统，就会去消息队列中订阅这个队列，然后消费订单系统产生的消息数据，进行相应的业务逻辑处理。无Bro

overfit同步小助手 2023-07-02 12:05:38 0 收藏