大数据 - overfit.cn

头歌大数据——HBase 伪分布式环境搭建

HBase 伪分布式环境搭建

overfit同步小助手 2023-10-26 06:03:31 0 收藏

AI架构师必知必会系列：AI与物联网

作者：禅与计算机程序设计艺术 1.简介1.1 概述物联网(IoT)和人工智能(AI)的结合使得我们的生活变得更加便捷、智能化、智慧化。由于复杂的系统结构、海量数据的处理需求和实时响应的要求，企业迫切需要对其进行智能化的管理和控制。但目前人工智能技术的发展远不及

overfit同步小助手 2023-10-26 06:01:33 0 收藏

人工智能大模型技术基础系列之：模型并行与数据并行

作者：禅与计算机程序设计艺术 1.简介在人工智能领域，为了提升模型性能、减少计算量，机器学习算法被改进过多次，产生了很多不同类型的模型，如决策树、随机森林、支持向量机、神经网络等。如何有效地训练这些模型，从而得到更优秀的预测结果，是这个领域研究者们所关注的问题。

overfit同步小助手 2023-10-26 02:01:46 0 收藏

Kafka与Flume的对比分析

Kafka的生态完善丰富支持更多的数据类型和协议。每个Partition都有一个Offset，消费者可以跟踪每个Partition的Offset，以确保数据的正确性。Kafka是一种更通用的系统，可用于更广泛的事物（包括消息队列、事件存储或日志存储），而Flume则是专门为日志存储及采集而设。在数据

overfit同步小助手 2023-10-26 01:03:45 0 收藏

人工智能技术目前存在哪些局限性？

作者：禅与计算机程序设计艺术 1.简介随着技术的不断进步和应用场景的扩展，人工智能技术在解决实际问题方面越来越具有自主学习能力、自我更新能力和灵活应变能力。但是，由于当前的人工智能技术还处于初期阶段，因此很多人担心其技术可能会带来的新问题和影响。而作者在本文中就

overfit同步小助手 2023-10-26 01:01:19 0 收藏

大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习

作者：禅与计算机程序设计艺术 1.简介1.1 论文背景随着互联网的普及、移动互联网的爆炸性增长以及电子商务的兴起，传统的基于数据库的数据分析已不能满足当前信息社会对海量数据的处理需求。如何有效地进行大数据分析已经成为众多行业面临的共同难题。而数据挖掘和机器

overfit同步小助手 2023-10-25 17:03:45 0 收藏

大数据 DataX 数据同步数据分析入门

overfit同步小助手 2023-10-25 13:03:50 0 收藏

Spark简介

部署Spark集群大体上分为两种模式：单机模式与集群模式大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。

overfit同步小助手 2023-10-25 11:03:20 0 收藏

信息系统基础练习题

D．资金流、工作流和信息流。A．物流、资金流和信息流。B．物流、工作流和信息流。C．物流、资金流和工作流。

overfit同步小助手 2023-10-25 11:03:15 0 收藏

区块链、人工智能、大数据、物联网和云计算

人工智能（Artificial Intelligence，AI）是一种模拟人类智能的技术，它可以让计算机执行复杂的任务，例如图像识别、自然语言处理、语音识别等。总之，区块链、人工智能、大数据、物联网和云计算都是当前IT领域的热门技术。云计算可以提供虚拟化的计算、存储和网络资源，并通过互联网进行远程访

overfit同步小助手 2023-10-25 11:01:45 0 收藏

【大数据】Hadoop运行环境搭建

自动进入图形界面安装—>选择中文（安装过程中使用的语言，不代表操作系统的语言），继续—>修改时区、日期和时间—>软件选择可以选择最小安装或者GNOME桌面安装，本次选择桌面版。中的主机名配置信息，例如将主机名配置为hadoop100（后面的几台集群中主机为hadoop101、hadoop102、ha

overfit同步小助手 2023-10-25 09:03:23 0 收藏

Flink之Window窗口机制

在Apache Flink中，窗口是对无界数据流进行有界处理的机制。窗口可以将无限的数据流划分为有限的、可处理的块，使得可以基于这些有限的数据块执行聚合、计算和分析操作。

overfit同步小助手 2023-10-25 08:04:00 0 收藏

（GPT、GEE）遥感云大数据、洪涝灾害监测、红树林遥感制图、河道轮廓监测、洪涝灾害监测、GRACE重力卫星、源遥感影像

相比于ENVI等传统的遥感影像处理工具，GEE在处理海量遥感数据方面具有不可比拟的优势，一方面提供了丰富的计算资源，另一方面其巨大的云存储节省了科研人员大量的数据下载和预处理的时间，是遥感数据的计算和分析可视化方面代表世界该领域最前沿水平，是遥感领域的一次革命。专题涉及光学和雷达数据处理、机器学习算

overfit同步小助手 2023-10-25 08:03:51 0 收藏

HBase（9）：过滤器

在HBase中，如果要对海量的数据来进行查询，此时基本的操作是比较无力的。此时，需要借助HBase中的高级语法——Filter来进行查询。Filter可以根据列簇、列、版本等条件来对数据进行过滤查询。因为在HBase中，主键、列、版本都是有序存储的，所以借助Filter，可以高效地完成查询。当执行F

overfit同步小助手 2023-10-25 08:03:45 0 收藏

人工智能是由谁领导开发的？

作者：禅与计算机程序设计艺术 1.简介近几年，人工智能领域经历了从“小机器人”到“AlphaGo”再到“华为在手臂上拍了一张照片之后还可以识别人的生理特征”等重大突破性进展。但是，在这项科技浪潮中，究竟存在哪些团队和个人在推动其发展，又是怎样的角色扮演者参与其中

overfit同步小助手 2023-10-25 08:01:23 0 收藏

AI架构师必知必会系列：循环神经网络

循环神经网络（Recurrent Neural Network）,缩写RNN，是一种特殊的神经网络模型，它可以处理序列数据，如文本、时间序列等。它的特点是在处理序列数据时，其记忆能力十分强悍。也就是说，通过对前面已知信息的存储，使得当前输入的信息能够更准确地预测或识别下一个输出。而传统的神经网络只能

overfit同步小助手 2023-10-25 06:01:29 0 收藏

IBM安全发布《2023年数据泄露成本报告》，数据泄露成本创新高

通过安装SSL证书，可以在网站服务器与客户端浏览器之间创建起一道加密通道，通过加密通信，确保只有接收者能够解密并读取原始数据，杜绝了数据在传输过程中被中间人监听、窃取或篡改，因此随着各行业信息化程度的提升，越来越多的网站都已经安装上SSL证书，通过启用HTTPS协议，来确保敏感数据的传输安全，防止重

overfit同步小助手 2023-10-25 01:07:05 0 收藏

Apache Kafka核心技术与实战

作者：禅与计算机程序设计艺术 1.简介Apache Kafka 是高吞吐量、低延迟、可扩展、可靠分布式消息系统。它的核心设计目标就是作为一个统一的消息队列服务，它可以作为网站的日志、系统监控指标、交易实时数据等不同类型的数据流进行实时的传输和存储。其官方网站上对

overfit同步小助手 2023-10-25 00:03:28 0 收藏

Flink---13、容错机制（检查点（保存、恢复、算法、配置）、状态一致性、端到端精确一次）

容错机制（检查点（保存、恢复、算法、配置）、状态一致性、端到端精确一次）

overfit同步小助手 2023-10-24 23:03:52 0 收藏

Hive 技术原理详解

作者：禅与计算机程序设计艺术 1.简介Apache Hive 是开源的基于Hadoop的数据仓库系统。它是一个分布式数据仓库基础设施，能够帮助用户轻松地进行结构化数据分析。其核心功能包括数据的提取、转换、加载（ETL）、数据查询、统计计算、图形展示等。其性能优越

overfit同步小助手 2023-10-24 22:03:56 0 收藏