大数据 - overfit.cn

无人集群系统了解篇

智能无人集群是指:由一定数量的同类或者异构无人系统/装备、控制系统及人机界面组成，利用信息交互与反馈、激励与响应，实现相互间行为协同，适应动态环境，共同完成特定任务的智能联合系统。...

overfit同步小助手 2023-03-31 01:05:05 0 收藏

MapReduce案列-数据去重

数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选，数据去重指去除重复数据的操作。在大数据开发中，统计大数据集上的多种数据指标，这些复杂的任务数据都会涉及数据去重。

overfit同步小助手 2023-03-31 01:05:00 0 收藏

Hive综合应用案例——用户学历查询

任务描述本关任务：查询出每一个用户从出生到现在的总天数编程要求在右侧编辑器补充hql语句，查询出每一个用户从出生到现在的总天数。创建数据库：mydb创建表：usertab字段名类型注释id int 用户idsex string 性别,f:女性,m:男性time string 出生日期educat

overfit同步小助手 2023-03-31 01:04:57 0 收藏

【实战】OceanBase之OMS迁移Oracle至oceanbase

使用OMS迁移Oracle至oceanbase

overfit同步小助手 2023-03-31 01:04:42 0 收藏

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——ReduceTask工作机制

ReduceTask工作机制

overfit同步小助手 2023-03-31 01:04:26 0 收藏

Hadoop mapreduce课程设计-全球历史平均气温数据分析

例如：随着大数据的不断发展，hadoop这门技术也越来越重要，很多人都开启了学习大数据之路。此次课程设计，我们采用mongodb作为存储，javaweb作为前端，echarts作为可视化工具，kettle和pandas作为数据清洗工具。使用底层mapeduce作为大数据计算。mongodb数据库：它

overfit同步小助手 2023-03-31 00:05:04 0 收藏

手机短信注册验证与登录功能

overfit同步小助手 2023-03-31 00:04:59 0 收藏

大数据高频面试题一：hive和Oracle的区别

从传统数据库转到大数据的必问题目

overfit同步小助手 2023-03-31 00:04:50 0 收藏

Python爬虫数据入库

Python爬虫数据导入数据库详细代码教程

overfit同步小助手 2023-03-31 00:04:26 0 收藏

国产自研开源大数据管理平台DataSophon Manager安装教程

DataSophon是近日开源的一款国产自研大数据管理平台，致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力，帮助你快速构建起稳定、高效的大数据集群服务。主要有以下特性:极易部署，1小时可完成300节点的大数据集群部署国产化兼容，兼容ARM服务器和常用国产化操作系统监控指标全面

overfit同步小助手 2023-03-30 23:05:54 0 收藏

XJTU-SY数据集轴承故障诊断

overfit同步小助手 2023-03-30 23:05:07 0 收藏

springboot 用rocketmq实现批量消息，亲测可用

本地测试，一定要启动rocketmq ,否则报错。启动方式请百度。1.创建Springboot项目，添加rockermq 依赖2.配置rocketmq# 端口server:# 配置 rocketmqrocketmq:#生产者#生产者组名，规定在一个应用里面必须唯一#消息发送的超时时间默认3000m

overfit同步小助手 2023-03-30 23:05:00 0 收藏

Flink 通过批量和CDC两种方式读取MySQL数据入Iceberg

Flink JDBC 连接器允许使用 JDBC 驱动程序从任何关系数据库读取数据并将数据写入其中。本文档介绍如何设置 JDBC 连接器以针对关系数据库运行 SQL 查询。如果在 DDL 上定义了主键，则 JDBC sink 以 upsert 模式与外部系统交换 UPDATE/DELETE 消息，否则

overfit同步小助手 2023-03-30 23:04:44 0 收藏

Hadoop学习之SSH免密登录配置(以三台虚拟机为例，完全分布式)

HadoopSSH免密登录配置，完全分布式安装

overfit同步小助手 2023-03-30 23:04:37 0 收藏

DataX实现mysql全量数据同步到hdfs

DataX是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

overfit同步小助手 2023-03-30 23:04:32 0 收藏

KafKa存储机制

Kafka 是为了解决大数据的实时日志流而生的, 每天要处理的日志量级在千亿规模。1. 数据实时产生2. 海量数据存储与处理所以它必然要面临分布式系统遇到的高并发、高可用、高性能等三高问题。对于 Kafka 的存储需要保证以下几点：1. 存储的主要是消息流（可以是简单的文本格式也可以是其他格式，对于

overfit同步小助手 2023-03-30 23:04:29 0 收藏

系统性能测试

目录常见的性能问题为什么要进行性能测试？系统性能测试的流程如何确定性能测试需求 --> 确定性能测试指标软件系统性能相关人员常见的性能指标性能测试术语性能测试方法（类型）资源泄漏、系统内存泄漏、线程阻塞（死锁）、查询速度变慢、CPU利用率达到100%并发用户数响应时间：用户发出请求，到前端页面渲染出

overfit同步小助手 2023-03-30 22:07:29 0 收藏

基于大数据平台的毕业设计

前言最近有很多人问我，大数据专业有什么好的毕设项目，我就简单的回复了一下。也有直接问我要源码的…所以就抽空写一写自己毕业设计的一个思路，大数据是我实习自学的，这个思路是我当初自己想的，就当做一份参考吧。在我毕业那年，同学们毕业设计大多都是以Java语言开发的各种管理系统、xx商城为主，包括我刚开始的

overfit同步小助手 2023-03-30 22:05:13 0 收藏

Flink SQl 语法(hint,with,select,分组窗口聚合，时间属性（处理，事件）)

6、Flink SQl 语法1、查询语句1、hint在对表进行查询的是偶动态修改表的属性-- 创建表CREATE TABLE word ( lines STRING) WITH ( 'connector' = 'kafka', 'topic' = 'word', 'properties

overfit同步小助手 2023-03-30 22:05:08 0 收藏

Hive中的建表方式

hive中的建表语法，查看表结构方式

overfit同步小助手 2023-03-30 22:05:05 0 收藏