大数据 - overfit.cn

第五：Spark启动！

一.什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-20 05:03:52 0 收藏

【汪汪学HADOOP】第一天:Hadoop环境配置

自学中，仅供参考。。有错误请指正。。。

overfit同步小助手 2024-03-20 05:03:35 0 收藏

【大数据】Flink 内存管理（三）：TaskManager 内存分配（理论篇）

Flink JVM 进程的总内存（Total Process Memory）由 Flink 应用程序（Total Flink Memory，Flink 总内存）和 JVM 运行进程所消耗的内存组成。Flink 总内存（ Total Flink Memory）包括 JVM Heap、Managed M

overfit同步小助手 2024-03-20 04:03:51 0 收藏

单机搭建hadoop环境（包括hdfs、yarn、hive）

然后，下载hadoop安装包，这个包就包括了hdfs服务器和yarn服务器的执行文件和配置脚本。首先，要配置好Java的JAVA_HOME和PATH（etc/hadoop/hadoop-env.sh里的JAVA_HOME要改为本机的JAVA_HOME），还是有ssh本机的免密码登录。etc/hado

overfit同步小助手 2024-03-20 01:03:51 0 收藏

深入了解Hadoop：架构、组件与工作流程

用户只需编写少量的Map和Reduce函数代码，就可以利用Hadoop的分布式处理能力来完成复杂的数据处理任务。同时，Hadoop还提供了丰富的API和工具来支持数据的导入、导出、格式转换等操作，使得用户可以更加灵活地使用和处理大数据。Hadoop是一个分布式系统的基础架构，用户可以在不了解分布式底

overfit同步小助手 2024-03-20 01:03:34 0 收藏

【电商AI工具一期】AI引领电商新风潮：20款AI电子商务工具盘点，让你实现财富增长！

【电商AI工具一期】AI引领电商新风潮：20款AI电子商务工具盘点，让你实现财富增长！，未来百科，为发现全球AI工具而生，目前已聚集3000+优质AI工具

overfit同步小助手 2024-03-20 01:01:25 0 收藏

初入云上大数据2

Hadoop生态圈是由一系列基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。它们都是用于大数据处理、分析和存储的技术，旨在解决大规模数据处理问题。MapReduce是一个分布式计算框架，主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户

overfit同步小助手 2024-03-19 23:03:51 0 收藏

【Flink精讲】Flink性能调优：CPU核数与并行度

提交任务命令：-d \-p 5 \ 指定并行度-Dyarn.application.queue=test \ 指定 yarn 队列-Djobmanager.memory.process.size=2048mb \ JM2~4G 足够-Dtaskmanager.memory.process.size=

overfit同步小助手 2024-03-19 23:03:41 0 收藏

国务院《新一代人工智能发展规划》中国经济和信息化研究中心

overfit同步小助手 2024-03-19 23:01:37 0 收藏

带你从Spark官网啃透Spark Structured Streaming

By 远方时光原创，可转载，open合作本文是基于spark官网结构化流解读spark官网对结构化流解释1.结构化流是基于SparkSQL引擎构建的可扩展且容错的流处理引擎。（也就是他摒弃了DStream)2.可以像批数据一样处理流数据。可以使用在Scala、Java、Python或R中流聚合、事件

overfit同步小助手 2024-03-19 22:03:22 0 收藏

Java技术发展历程中的六大春天：从Web开发到大数据战略

自Java诞生以来，其发展历程中出现了多个关键的“春天”时刻，每一段历程都伴随着重大技术革新与市场需求的变化，为开发者带来广阔的职业前景和技术创新空间。

overfit同步小助手 2024-03-19 14:03:36 0 收藏

flink重温笔记（七）：Flink 流批一体 API 开发—— Connector 连接器

前言：今天是学习 flink 的第七天啦！学习了 flink 中 connector（数据连接器）部分知识点，这一部分只要是解决数据处理之后，数据到哪里去的问题，主要学习了数据存储到以下三处：1、关系型数据库 mysql ；2、消息队列：kafka；3、非关系型数据库：redis我觉得还是比较有意

overfit同步小助手 2024-03-19 12:03:37 0 收藏

值得收藏！2024年人工智能顶级会议投稿信息汇总（机器学习领域）

本文对机器学习领域内的顶级会议进行了介绍，以便读者了解会议主题、截稿日期、举办时间及地点等关键信息。同时，还将这些会议信息汇总成了表格，做到一目了然，为读者投稿会议论文提供方便。

overfit同步小助手 2024-03-19 12:01:29 0 收藏

Zookeeper客户端命令、JAVA API、监听原理、写数据原理以及案例

要想验证对子节点增删的监听，首先在java主线程中添加一个睡眠的函数，使其持续运行不至于很快结束，然后在process回调中添加相应的打印代码（比如继续getChildren，打印子节点信息），这样手动去添加节点，会执行到process函数中的打印信息。分析：进程用客户端表示，每个客户端进程会去Zo

overfit同步小助手 2024-03-19 10:03:36 0 收藏

flink反压

flink反压过程介绍

overfit同步小助手 2024-03-19 09:03:30 0 收藏

【实验2】在Hadoop平台上部署WordCount程序

在Hadoop平台上部署WordCount程序5. 分布式文件系统HDFS上的操作5.1 利用Shell命令与HDFS进行交互5.2 利用Web界面管理HDFS6. 分布式文件系统HDFS上的编程实践6.1 安装Eclipse6.2 创建Eclipse工程6.3 编写一个Java应用程序检测HDFS

overfit同步小助手 2024-03-19 08:03:46 0 收藏

如何高效接入 Flink： Connecter / Catalog API 核心设计与社区进展

本文整理自阿里云实时计算团队 Apache Flink Committer 和 PMC Member 任庆盛在 FFA 2023 核心技术专场（二）中的分享。

overfit同步小助手 2024-03-19 06:03:36 0 收藏

大数据组件之Flink：实时流处理的王者

Apache Flink是一个用于无界和有界数据流的开源流处理框架。它提供了一个统一的API来处理批量和流数据，使得开发者可以轻松地构建高效的实时数据处理应用。Flink的核心优势在于其低延迟、高吞吐量和容错性强的特点，适用于多种实时数据分析场景。Apache Flink作为一款革新的大数据处理引擎

overfit同步小助手 2024-03-19 02:03:44 0 收藏

什么！你要学spark！

hadoop是什么 mapreduce概述 spark概述

overfit同步小助手 2024-03-19 01:03:42 0 收藏

科普|大数据信用高风险形成原因，怎么查询?

联系人风险是指借款人的联系人(如家庭成员、朋友、同事等)在借款人面临信用风险时，可能受到牵连的风险。在大数据时代，基于大数据技术的大数据信用风险在很多时候是很多机构比较重视的问题，大数据信用风险主要包括多头借贷风险、履约行为风险、联系人风险、司法风险等。市面上做大数据信用查询的比较多，信息比较全服务

overfit同步小助手 2024-03-19 00:03:44 0 收藏