大数据 - overfit.cn

国务院《新一代人工智能发展规划》中国经济和信息化研究中心

overfit同步小助手 2024-03-19 23:01:37 0 收藏

带你从Spark官网啃透Spark Structured Streaming

By 远方时光原创，可转载，open合作本文是基于spark官网结构化流解读spark官网对结构化流解释1.结构化流是基于SparkSQL引擎构建的可扩展且容错的流处理引擎。（也就是他摒弃了DStream)2.可以像批数据一样处理流数据。可以使用在Scala、Java、Python或R中流聚合、事件

overfit同步小助手 2024-03-19 22:03:22 0 收藏

Java技术发展历程中的六大春天：从Web开发到大数据战略

自Java诞生以来，其发展历程中出现了多个关键的“春天”时刻，每一段历程都伴随着重大技术革新与市场需求的变化，为开发者带来广阔的职业前景和技术创新空间。

overfit同步小助手 2024-03-19 14:03:36 0 收藏

flink重温笔记（七）：Flink 流批一体 API 开发—— Connector 连接器

前言：今天是学习 flink 的第七天啦！学习了 flink 中 connector（数据连接器）部分知识点，这一部分只要是解决数据处理之后，数据到哪里去的问题，主要学习了数据存储到以下三处：1、关系型数据库 mysql ；2、消息队列：kafka；3、非关系型数据库：redis我觉得还是比较有意

overfit同步小助手 2024-03-19 12:03:37 0 收藏

值得收藏！2024年人工智能顶级会议投稿信息汇总（机器学习领域）

本文对机器学习领域内的顶级会议进行了介绍，以便读者了解会议主题、截稿日期、举办时间及地点等关键信息。同时，还将这些会议信息汇总成了表格，做到一目了然，为读者投稿会议论文提供方便。

overfit同步小助手 2024-03-19 12:01:29 0 收藏

Zookeeper客户端命令、JAVA API、监听原理、写数据原理以及案例

要想验证对子节点增删的监听，首先在java主线程中添加一个睡眠的函数，使其持续运行不至于很快结束，然后在process回调中添加相应的打印代码（比如继续getChildren，打印子节点信息），这样手动去添加节点，会执行到process函数中的打印信息。分析：进程用客户端表示，每个客户端进程会去Zo

overfit同步小助手 2024-03-19 10:03:36 0 收藏

flink反压

flink反压过程介绍

overfit同步小助手 2024-03-19 09:03:30 0 收藏

【实验2】在Hadoop平台上部署WordCount程序

在Hadoop平台上部署WordCount程序5. 分布式文件系统HDFS上的操作5.1 利用Shell命令与HDFS进行交互5.2 利用Web界面管理HDFS6. 分布式文件系统HDFS上的编程实践6.1 安装Eclipse6.2 创建Eclipse工程6.3 编写一个Java应用程序检测HDFS

overfit同步小助手 2024-03-19 08:03:46 0 收藏

如何高效接入 Flink： Connecter / Catalog API 核心设计与社区进展

本文整理自阿里云实时计算团队 Apache Flink Committer 和 PMC Member 任庆盛在 FFA 2023 核心技术专场（二）中的分享。

overfit同步小助手 2024-03-19 06:03:36 0 收藏

大数据组件之Flink：实时流处理的王者

Apache Flink是一个用于无界和有界数据流的开源流处理框架。它提供了一个统一的API来处理批量和流数据，使得开发者可以轻松地构建高效的实时数据处理应用。Flink的核心优势在于其低延迟、高吞吐量和容错性强的特点，适用于多种实时数据分析场景。Apache Flink作为一款革新的大数据处理引擎

overfit同步小助手 2024-03-19 02:03:44 0 收藏

什么！你要学spark！

hadoop是什么 mapreduce概述 spark概述

overfit同步小助手 2024-03-19 01:03:42 0 收藏

科普|大数据信用高风险形成原因，怎么查询?

联系人风险是指借款人的联系人(如家庭成员、朋友、同事等)在借款人面临信用风险时，可能受到牵连的风险。在大数据时代，基于大数据技术的大数据信用风险在很多时候是很多机构比较重视的问题，大数据信用风险主要包括多头借贷风险、履约行为风险、联系人风险、司法风险等。市面上做大数据信用查询的比较多，信息比较全服务

overfit同步小助手 2024-03-19 00:03:44 0 收藏

2023计算机（AI）领域相关期刊的SCI分区

就在昨天（12月27日）2023年中科院分区表公布，本文总结了有关计算机领域（尤其是AI（机器学习，CV，NLP，数据挖掘等））的一些期刊的SCI分区，供大家参考学习。

overfit同步小助手 2024-03-18 22:01:41 0 收藏

Hadoop必会面试题

分布式: 多台机器做不同的事情, 然后组成1个整体.集群: 多台机器做相同的事情多台机器既可以组成中心化模式(主从模式), 也可以组成去中心化模式(主备模式)A.员工1和A.员工2的关系是集群，A.员工1和B.员工1的关系是分布式分布式存储解决了单机存储容量有限的问题, 且带来了比较高的性能提升

overfit同步小助手 2024-03-18 21:03:46 0 收藏

flink的分组聚合、over聚合、窗口聚合对比

对比flink的分组聚合group_agg/over聚合over_agg/窗口聚合window_agg

overfit同步小助手 2024-03-18 21:03:33 0 收藏

python高校舆情分析系统+可视化+snownlp情感分析舆情分析+Flask框架大数据毕业设计（源码）✅

overfit同步小助手 2024-03-18 19:03:46 0 收藏

Spark---Master启动及Submit任务提交

Spark集群启动之后，首先调用$SPARK_HOME/sbin/start-all.sh，start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本，在start-master.sh脚本中可以看到启动Master角色的主类：“org.apac

overfit同步小助手 2024-03-18 14:03:10 0 收藏

基于SpringBoot+大数据城市景观画像可视化设计和实现

# 背景意义：Java与大数据城市景观画像可视化的设计与实现随着城市化进程的加速，城市景观成为反映城市文化、环境和发展水平的重要标志。城市景观不仅是城市居民生活的一部分，更是城市形象的重要组成部分。同时，随着大数据技术的迅速发展，城市数据的规模和复杂性也在不断增加，这为城市规划、管理和决策提出了新的

overfit同步小助手 2024-03-18 12:03:41 0 收藏

大数据计算技术秘史（上篇）

在之前的文章中，我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后，下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前，对于用户来讲并没有存储和计算的区分，都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后，情况就变得不一样了。单机系统无法存储如此之多的数据，

overfit同步小助手 2024-03-18 12:03:25 0 收藏

Kudu与Apache Flink的集成：实时数据处理的新方法

1.背景介绍随着数据的增长，实时数据处理变得越来越重要。传统的批处理系统已经不能满足现在的需求。因此，实时数据处理技术逐渐成为了研究的热点。Kudu和Apache Flink是两个非常重要的实时数据处理系统，它们各自具有独特的优势。Kudu是一个高性能的列式存储系统，适用于实时数据处理和分析。Apa

overfit同步小助手 2024-03-18 11:03:36 0 收藏