大数据 - overfit.cn

Doris浅略介绍 +部署+使用

DORIS 部署 +使用 +扩容 BE节点，学习记录doris 遇到的坑以及学习过程；

overfit同步小助手 2023-03-30 22:04:47 0 收藏

大数据Maxwell（一）：Maxwell介绍和工作原理

Maxwell是由美国Zendesk开源，使用Java编写的MySQL实时抓取工具，可以实时读取MySQL二进制日志binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程

overfit同步小助手 2023-03-30 22:04:37 0 收藏

OneNET 数据可视化按键控制

使用MQTT协议接入OneNET实现数据的上传以及命令的下发，本文主要是介绍一下如何使用OneNET可视化平台来实现数据的可视化。1.学会onenet的网页的数据可视化。2.学会网页按键的简单使用。

overfit同步小助手 2023-03-30 22:04:31 0 收藏

hiveSql正则方式提取字段中的内容

regexp_extract方法正则提取string中的内容

overfit同步小助手 2023-03-30 22:04:28 0 收藏

【Hive】内置函数—字符串函数

hive字符串内置函数大全

overfit同步小助手 2023-03-30 21:05:15 0 收藏

五分钟了解支付、交易、清算、银行等专业名词的含义？

支付的本质就是货币在收付款人之间的转移，那为什么会转移呢，就是因为发生了经济活动有了交易；就如我们口渴了去超市买了一瓶水，这就是经济活动我们使用银行卡“支付工具”在超市的pos机上刷卡完成了支付；这个过程转移的是电子账户货币，也就是我们的银行结算账户里的钱，转移到了商户的银行结算账户所以支付是在经济

overfit同步小助手 2023-03-30 21:04:55 0 收藏

hive表的输入输出格式总结

hive输入输出格式总结

overfit同步小助手 2023-03-30 21:04:49 0 收藏

大数据平台性能监控

大数据监控是指通过大数据技术手段获取、收集、分析数据，并能够准确分析信息，有效预测信息发展动态趋势。大数据监控主要围绕着海量全网数据，大多数需要借助监测系统来协助分析数据。PrometheusPrometheus注重于数据存储及分析，存储采集到的监控数据并以metric的形式保存在其中，且能够将数据

overfit同步小助手 2023-03-30 21:04:36 0 收藏

GB/T 20984-2022《信息安全技术信息安全风险评估方法》解读

对GB/T 20984-2007《信息安全技术信息安全风险评估规范》和GB/T 20984-2022 《信息安全技术信息安全风险评估方法》主要差异进行叙述。

overfit同步小助手 2023-03-30 21:04:33 0 收藏

华数杯2023A题思路+雅鲁藏布江数据

对于问题3，“红旗河”引水工程的引入需要我们考虑其巨大的投资成本，因此与问题1和问题2不同，我们需要重新考虑一些因素。因此，收集问题a的数据是一个很大的问题。至于如何量化印度因素，这里可以收集印度对中国的关税和一些相关的政策数据，还可以收集印度赴中国旅游的人数，以进行约束控制。对于这个问题，我们需要

overfit同步小助手 2023-03-30 21:04:30 0 收藏

字节、腾讯争先部署，ClickHouse+Doris 赶超 MySQL 810 倍

里流传着这样一句话，作为大数据从业者，你一定明白有数据是一回事，可要想是另一回事。如何实现智能路径检测，查询出符合条件的路径详情及符合路径的用户数？关于有序漏斗转化，如果想要更准确一些该怎么做？面对大量的订单记录，如果想按照地域、时间、来源等维度等进行实时分析，该怎么实现？对于海量评论数据，想要查询

overfit同步小助手 2023-03-30 21:04:26 0 收藏

Hadoop高可用搭建（一）

overfit同步小助手 2023-03-30 21:04:23 0 收藏

完美解决mac git clone总是报128错误｜git clone克隆问题

完美解决mac git clone总是报128错误！全网第一！Failure while executing; `git clone https://github.com/mongodb/homebrew-brewfatal: unable to connect to github.com:gith

overfit同步小助手 2023-03-30 20:05:25 0 收藏

Flink 1.13 源码解析——Flink 作业提交流程上

Flink 1.13 源码解析 Flink 作业提交流程

overfit同步小助手 2023-03-30 20:05:16 0 收藏

spark为什么比hadoop快

spark为什么快

overfit同步小助手 2023-03-30 20:05:12 0 收藏

Hive 搭建（将 MySQL 作为元数据库）

安装 Hive 之前请先确保你当前已经安装好了 Hadoop，并且运行正常。

overfit同步小助手 2023-03-30 20:05:00 0 收藏

统计学习方法笔记（理论+实例+课后习题+代码实现）：感知机

统计学习方法笔记，感知机，线性分类模型

overfit同步小助手 2023-03-30 20:04:51 0 收藏

【MDPI出版社】3区SCI、大数据、图像、信号处理、深度学习、物联网、无线通信等领域均可，仅2-3个月左右录用

【期刊简介】IF：2.5-3.0，JCR3区，中科院3/4区。【期刊简介】IF：3.0-4.0，JCR2/3区，中科院4区。【期刊简介】IF：3.5-4.0，JCR2区，中科院3/2区。【期刊简介】IF：3.0-4.0，JCR2区，中科院3/4区。【期刊简介】IF：3.0-4.0，JCR2区，中科院

overfit同步小助手 2023-03-30 20:04:46 0 收藏

openpyxl和pandas简单比对

关于Excel数据处理，Pyhton有pandas库和openpyxl、xlwings 模块模块可以对Excel数据进行处理，下面对pandas和openpyxl处理数据进行简单比对。

overfit同步小助手 2023-03-30 20:04:40 0 收藏

消除数据冗余的方法有哪些,处理冗余数据的方法

数据冗余指数据之间的重复，也可以说是同一数据存储在不同数据文件中的现象。可以说增加数据的独立性和减少数据冗余为企业范围信息资源管理和大规模信息系统获得成功的前提条件。数据冗余会妨碍数据库中数据的完整性(integrality)，也会造成存贮空间的浪费。尽可能地降低数据冗余度，是数据库设计的主要目标之

overfit同步小助手 2023-03-30 20:04:37 0 收藏