大数据 - overfit.cn

2023大数据必看面试题

大数据必看面试题

overfit同步小助手 2023-03-29 00:05:01 0 收藏

【数据挖掘实战】——航空公司客户价值分析（K-Means聚类案例）

在企业的客户关系管理中，对客户分类，区分不同价值的客户。针对不同价值的客户提供个性化服务方案，采取不同营销策略，将有限营销资源集中于高价值客户，实现企业利润最大化目标。在竞争激烈的航空市场里，很多航空公司都推出了优惠的营销方式来吸引更多的客户。在此种环境下，如何将公司有限的资源充分利用，提示企业竞争

overfit同步小助手 2023-03-29 00:04:53 0 收藏

基于注意力时空图神经网络的交通预测

文章信息本周阅读的论文是题目为《Learning Dynamics and Heterogeneity of Spatial-Temporal Graph Data for Traffic Forecasting》的一篇2021年发表在《IEEE Transactions on Knowledge

overfit同步小助手 2023-03-29 00:04:50 0 收藏

【云原生】Minio on k8s 讲解与实战操作

MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。高性能分布式对象存储——MinIO（环境部署）高性能分布式对象存储——MinIO实

overfit同步小助手 2023-03-29 00:04:44 0 收藏

中国版ChatGPT高潮即将到来，解密ChatGPT底层网络架构

全新聊天机器人ChatGPT，在中国用户无法访问的前提下，上线仅两个月月活用户就突破了1亿。ChatGPT如同重磅炸弹，一时间火遍全球。

overfit同步小助手 2023-03-28 23:06:02 0 收藏

基于容器云提交spark job任务

spark提交Kind=Job类型的任务，首先需要申请具有Job任务提交权限的rbac，然后编写对应的yaml文件，通过spark-submit命令提交任务到集群执行。

overfit同步小助手 2023-03-28 23:05:58 0 收藏

spark sql解析过程详解

overfit同步小助手 2023-03-28 23:05:48 0 收藏

大数据双路e5主机搭建：2696v3+256g内存

大数据学习用的双路e5配置单

overfit同步小助手 2023-03-28 23:05:43 0 收藏

flink中的时间属性

1：时间的几种类型（官网概念）1.1处理时间指的是执行具体操作时的机器时间（大家熟知的绝对时间, 例如 Java的 System.currentTimeMillis()) ）1.2事件事件指的是执行具体操作时的机器时间（大家熟知的绝对时间, 例如 Java的 System.currentTimeMi

overfit同步小助手 2023-03-28 23:05:38 0 收藏

用flink cdc sqlserver 将数据实时同步到clickhouse

flink cdc 终于支持 sqlserver 了。现在互联网公司用sqlserver的不多，大部分都是一些国企的老旧系统。我们以前同步数据，都是用datax，但是不能实时同步数据。现在有了flinkcdc，可以实现实时同步了。1、首先sqlserver版本：要求sqlserver版本为14及以上

overfit同步小助手 2023-03-28 23:05:21 0 收藏

vue大数据表格解决方案的比较

关于大数据表格的比较，包含了Ant Design、Surley Vue、vxe-table、Ag Grid等框架。

overfit同步小助手 2023-03-28 23:05:11 0 收藏

Elasticsearch：深入理解 Elasticsearch 查询：过滤器查询 vs 全文搜索

Elasticsearch 现在适合许多用途，有时很难理解什么是最好的工具。我希望你记住的主要事情是，你并不总是需要使用最高级的功能来解决简单的问题。如果你不需要相关性分数来检索你的数据，请尝试切换到过滤器上下文。此外，了解 Elasticsearch 的底层工作原理也很重要，因此我建议你充分了解分

overfit同步小助手 2023-03-28 23:05:08 0 收藏

StarRocks官网摘要笔记

StarRocks 官网摘要笔记

overfit同步小助手 2023-03-28 23:05:02 0 收藏

ICCV, ECCV, CVPR，IEEE的关系

顶会

overfit同步小助手 2023-03-28 23:04:56 0 收藏

Flink窗口及其分类-详细说明

Flink 是一种流式计算引擎，主要是来处理无界数据流的，数据源源不断、无穷无尽。想要更加方便高效地处理无界流，一种方式就是将无限数据切割成有限的“数据块”进行处理，这就是所谓的“窗口”（Window）。所以在 Flink 中，窗口其实并不是一个“框”，流进来的数据被框住了就只能进这一个窗口。相比之

overfit同步小助手 2023-03-28 23:04:53 0 收藏

如何用html制作一个简单的网页

overfit同步小助手 2023-03-28 23:04:45 0 收藏

Centos8安装CDH解决不兼容问题

Cenots8解决CDH不兼容问题

overfit同步小助手 2023-03-28 22:06:03 0 收藏

hadoop常用的命令

广义：指的是Hadoop的生态圈，有很多的大数据组件构建而成，包括：Linux，zookeeper，Hadoop，hive，hbase，redis，elk,kafka，java,scala,python,impala,kudu,spark,flink。1.不是namenode的备份节点，不是nam

overfit同步小助手 2023-03-28 22:05:57 0 收藏

使用Hadoop同步Neo4j数据（亿级）

企业和人物节点数据以及关系数据导入实践，使用hive生成csv文件，进行 apoc.load.csv 操作。

overfit同步小助手 2023-03-28 22:05:42 0 收藏

python读取hive数据库

其中sasl安装较为麻烦一点，在Linux下直接安装可能会出现sasl.h头文件丢失问题，原因是sasl的源码已经许久没有维护了，代码结构与现有的代码结构不一样，下面分别给出win及Linux下的安装方法。首先是配置相关的环境及使用的库。如果存在sasl.h头文件问题，可以通过pip安装libsas

overfit同步小助手 2023-03-28 22:05:32 0 收藏