大数据 - overfit.cn

Hadoop之Mapreduce序列化

反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。为什么要序列化：一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程

overfit同步小助手 2023-03-22 08:03:42 0 收藏

Hadoop集群安装及配置

hadoop集群搭建

overfit同步小助手 2023-03-21 13:04:15 0 收藏

linux安装kafka

下面的是日志地址，那就在这个地址下看看有没有对应的目录，没有的话就新建即可。启动日志最后是这样的,开启的是9092端口。待办：kafka配置文件详解。

overfit同步小助手 2023-03-21 13:04:08 0 收藏

Zookeeper选举机制（通俗易懂）

zookeeper的选举机制，通俗易懂的解释以及举例

overfit同步小助手 2023-03-21 13:03:51 0 收藏

大数据Flink进阶（六）：Flink入门案例

DataSet和DataStream是Flink中表示数据的特殊类，DataSet处理的数据是有界的，DataStream处理的数据是无界的，这两个类都是不可变的，一旦创建出来就无法添加或者删除数据元。主要是因为在Flink1.15版本后，Flink添加对opting-out（排除）Scala的支持

overfit同步小助手 2023-03-21 12:03:36 0 收藏

Kafka（十一）如何保证数据的不重复和不丢失

Kafka 如何保证数据的不重复和不丢失

overfit同步小助手 2023-03-21 11:03:42 0 收藏

3s安装JupyterLab，4步完成JupyterLab插件安装（附多款高生产力插件推荐）

不允许你们不知道Jupyterlab还有那么方便的使用途径

overfit同步小助手 2023-03-21 08:04:08 0 收藏

回首2022，展望2023

当开始写这篇文章时，我意识到，2022结束了说实话，回首自己的2022，感觉是不算成功的一年这一年步履维艰，不仅是工作上还有生活上年初订的计划也没有完成（可能由于计划太多了，今年要理性一点订计划不论如何，这一年还是过来的，随着时间的车轮回首一下2022吧

overfit同步小助手 2023-03-21 08:03:52 0 收藏

猿创征文｜Hadoop大数据技术综合实验

Hadoop大数据技术综合实验：网站访问日志采集、处理及分析

overfit同步小助手 2023-03-21 05:04:06 0 收藏

基于大数据的股票数据可视化分析与预测系统

本项目基于 Python 利用网络爬虫技术从某财经网站采集上证指数、创业板指数等大盘指数数据，以及个股数据，同时抓取股票公司的简介、财务指标和机构预测等数据，并进行 KDJ、BOLL等技术指标的计算，构建股票数据分析系统，前端利用echarts进行可视化。基于深度学习算法实现股票价格预测，为投资提供

overfit同步小助手 2023-03-18 14:04:09 0 收藏

MySQL删除外键、增加外键及删除主键、增加主键

MySQL删除外键、增加外键及删除主键、增加主键示例

overfit同步小助手 2023-03-18 14:03:58 0 收藏

大数据Flink进阶（四）：Flink应用场景以及其他实时计算框架对比

在实际生产的过程中，大量数据在不断地产生，例如金融交易数据、互联网订单数据、GPS定位数据、传感器信号、移动终端产生的数据、通信信号数据等，以及我们熟悉的网络流量监控、服务器产生的日志数据，这些数据最大的共同点就是实时从不同的数据源中产生，然后再传输到下游的分析系统。另一方面结合实时数据ETL处理

overfit同步小助手 2023-03-18 13:04:04 0 收藏

2.Hadoop环境配置之虚拟机安装配置

虚拟机下载安装配置和克隆

overfit同步小助手 2023-03-17 15:04:13 0 收藏

Elasticsearch之join关联查询

Elasticsearch提供了类似于SQL JOIN的关联查询，通过has_child/has_parent可以实现一对多关系的父子表数据查询。但是其损耗也是比较大的，在使用的时候要根据分片数量的多少和预估数量量级的大小，提前做好性能测试

overfit同步小助手 2023-03-17 13:04:02 0 收藏

CCF-CSP真题《202209-3—防疫大数据》思路+python题解

本文为大家用python题解了CCF-CSP真题《202209-3—防疫大数据》，希望对你有帮助~~

overfit同步小助手 2023-03-17 13:03:53 0 收藏

编写Scala代码，使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层

抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata，字段排序、类型不变，同时添加静态分区，分区字段类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。创建一个scala目录并将

overfit同步小助手 2023-03-17 12:04:05 0 收藏

用 docker 部署kafka

通过 docker 部署 kafka 服务

overfit同步小助手 2023-03-17 08:04:10 0 收藏

Kafka的终极UI工具丨Offset Explorer功能简介

Offset Explorer（以前称为Kafka Tool）是一个用于管理和使Apache Kafka ®集群的GUI应用程序。它提供了一个直观的UI，允许人们快速查看Kafka集群中的对象以及存储在集群主题中的消息。它包含面向开发人员和管理员的功能。

overfit同步小助手 2023-03-16 08:04:23 0 收藏

浅谈云计算和大数据

云计算和大数据是相辅相成关系，从应用角度来讲，大数据离不开云计算，因为大规模的数据运算需要很多计算资源；大数据是云计算的应用案例之一，云计算是大数据的实现工具之一。大数据大数据技术是一种新一代技术和构架，以快速的采集、处理和分析技术，从各种超大规模的数据中提取价值。大数据涉及到数据的采集、整理、存储

overfit同步小助手 2023-03-16 08:04:14 0 收藏

Scala下载及IDEA安装Scala插件(保姆级教程超详细)

一.Scala的下载与安装Scala语言可以在Windows，Linux，Mac OS等系统上编译运行。由于Scala是运行在JVM平台上的，所以安装Scala之前必须配置好JDK环境(JDK版本要求不低于1.5！)，本博客为基于Windows系统下安装。JDK环境下载路径：https://www.

overfit同步小助手 2023-03-16 08:04:08 0 收藏