大数据 - overfit.cn

spark法律服务大数据智能推荐（自己动手做的，完整过程+源码）

与搜索引擎不同，推荐系统并不需要用户提供明确的需求，而是通过分析用户的历史行为，主动为用户推荐能够满足他们兴趣和需求的信息。为了能够更好地满足用户需求，需要依据其网站的海量数据，研究用户的兴趣偏好，分析用户的需求和行为，发现用户的兴趣点，从而引导用户发现自己的信息需求，将长尾网页（长尾网页是指网页的

overfit同步小助手 2023-05-26 20:04:39 0 收藏

DataHub调研&数据血缘

在DataHub中可以通过GraphQL API轻松的创建和添加任何实体标签，这样随着时间的推移，实体的属性回越来越丰富。当有一天我们想要查看某一标签的相关实体信息时，只需要在标签位置点击该标签，就会将所有相关的实体数据列出来。

overfit同步小助手 2023-05-26 18:04:03 0 收藏

什么是一网统管？终于有人讲明白了

导读：本文给出了一网统管的定义，介绍了其定位、目标和支撑的业务范畴。作者：郑宇来源：大数据DT（ID：hzdashuju）01一网统管的定义定义：一网统管是打通城市各治理系统的业务平台、管理全域的实体中心和整合治理力量的协同模式，通过技术创新、机制创新和组织创新，实现一张网络管全城、一个中心管全域、

overfit同步小助手 2023-05-26 17:03:57 0 收藏

蓝牙信标的优势及应用场景

蓝牙信标是人员定位系统的重要组成部分。蓝牙信标是一种小型、廉价的无线设备，一般由电池供电，运用低功耗蓝牙技能来播送其存在。

overfit同步小助手 2023-05-26 15:08:16 0 收藏

Postman之Mock Servers虚拟服务器

Mock Servers虚拟服务器使用教程

overfit同步小助手 2023-05-26 15:06:37 0 收藏

Flink简介、基本原理、架构图

Flink是一款支持有状态运算的流计算引擎。支持有状态运算是指数据的计算过程中可以保存计算的中间过程状态，比如我们要计算一个整数数据流的求和，那么我们就需要一个中间变量把数据流中的每一项数据加到这个变量上。而这个变量就是计算的中间状态。Flink框架会帮你管理状态的保存和复原。流计算是指我们要针对一

overfit同步小助手 2023-05-26 15:04:33 0 收藏

2020年数学建模国赛B题穿越沙漠

数学建模2020年B题穿越沙漠的模型准备

overfit同步小助手 2023-05-26 14:04:25 0 收藏

大数据技术之Hadoop-入门

Hadoop Distributed File System，简称HDFS，是一个Hadoop分布式文件系统。1）NameNode（老板）：负责数据存在什么位置，整个数据的存储情况。2）DataNode：负责数据具体存在哪，存的什么信息。3）2NN（秘书）：备份，辅助NameNode工作，防止Nam

overfit同步小助手 2023-05-26 14:04:15 0 收藏

Spark on Yarn 部署模式运行常用参数和认证参数理解

spark 提交任务参数说明

overfit同步小助手 2023-05-26 14:03:55 0 收藏

Map集合的遍历方式(3种)

先获取Map集合的全部键的Set集合遍历键的Set集合，然后通过键提取对应的值第二种方式使用foreach遍历Map集合发现Map集合的键值对元素直接是没有类型的。所以不能直接用foreach遍历集合可以通过调用Map的方法：entrySet把Map结合转化成Set集合的形式Set 就可以看成键值对

overfit同步小助手 2023-05-26 12:03:36 0 收藏

一文带你了解MySQL之InnoDB统计数据是如何收集的

InnoDB以表为单位来收集统计数据，这些统计数据可以是基于磁盘的永久性统计数据，也可以是基于内存的非永久性统计数据。

overfit同步小助手 2023-05-26 11:03:07 0 收藏

实习证明| 大数据在线实习项目意义

实习以企业真实项目为场景，充分感受真实的大数据挖掘过程及其所需要的技能和知识点。

overfit同步小助手 2023-05-26 09:04:18 0 收藏

五-1、elasticsearch集群搭建(ES集群搭建)

从零到一，elasticsearch搭建集群

overfit同步小助手 2023-05-26 08:03:50 0 收藏

Hive优化总结

一、SQL本身的优化1、只select需要的列，避免select *2、where条件写在子查询中，先过滤再关联3、关联条件写在on中，而不是where中4、数据量大时，用group by代替count distinct5、数据量小时，用in代替join6、避免笛卡尔积7、join时大表放后面，使用

overfit同步小助手 2023-05-26 07:04:04 0 收藏

Elasticsearch并发写入版本冲突解决方案

overfit同步小助手 2023-05-26 07:03:48 0 收藏

毕业设计基于大数据的高校校园学生一卡通数据分析

今天学长向大家介绍一个数据分析项目基于大数据的高校校园学生一卡通数据分析基于国内某高校校园一卡通系统一个月的运行数据，使用数据分析和建模的方法，挖掘数据中所蕴含的信息，分析学生在校园内的学习生活行为为了将学生的整体校园消费行为进行分类，选择了当月消费总金额，消费次数，卡内存款作为特征进行聚类，采用的

overfit同步小助手 2023-05-26 04:04:07 0 收藏

sqllineage解析sql列级血缘并提交到datahub

通过sqllineage获取指定sql文件中HiveSQL的字段级血缘关系，并将结果提交到datahub

overfit同步小助手 2023-05-26 04:03:58 0 收藏

2万字硬核spark源码精讲手册

spark源码精讲，结合企业级开发和面试实战重点关注内容

overfit同步小助手 2023-05-26 02:03:51 0 收藏

阿里大数据平台组件

阿里云计算大数据组件

overfit同步小助手 2023-05-26 00:04:11 0 收藏

【Spark基础】Spark核心模块组成与功能概述

Spark基于Spark Core开发了多种组件。开发人员可以基于这些组件，轻松完成多种不同场景的计算任务。

overfit同步小助手 2023-05-25 18:04:28 0 收藏