大数据 - overfit.cn

大数据周会-本周学习内容总结015

overfit同步小助手 2023-06-06 09:03:41 0 收藏

ES数据存储和集群路由原理

不过对于 Elastic Stack 的日志场景来说，恰恰相反，我们并不需要如此高的实时性，而是需要更快的写入性能。既然涉及到磁盘，那么一个不可避免的问题就来了：磁盘太慢了！这一步刷到文件系统缓存的步骤，在 Elasticsearch 中，是默认设置为 1 秒间隔的，对于大多数应用来。如果每次

overfit同步小助手 2023-06-06 08:03:47 0 收藏

zookeeper安装

进入/export/software目录，将zookeeper软件包导入该目录下。解压zookeeper软件包到/export/servers目录下，并重命名为zookeeper。将zookeeper/conf下的zoo_sample.cfg文件修改为zoo.cfg，并配置zoo.cfg文件。在/

overfit同步小助手 2023-06-06 07:03:50 0 收藏

hive与Oracle

overfit同步小助手 2023-06-06 07:03:43 0 收藏

大数据Doris（二十四）：Doris数据Insert Into导入方式介绍

目前 Insert Into 并不支持自定义导入的 timeout 时间，所有 Insert Into 导入的超时时间是统一的，默认的 timeout 时间为1小时。假设有36G数据需要导入到Doris，Doris集群数据导入速度为10M/s（最大限速为10M/s，可以根据先前导入的数据量/消耗秒计

overfit同步小助手 2023-06-06 02:04:08 0 收藏

高并发系统设计－Feed流系统设计

有两种实现方式：push和pull实现，首先讨论push模式。

overfit同步小助手 2023-06-06 02:03:36 0 收藏

Spark中RDD、DataFrame和DataSet的区别与联系

RDD代表弹性分布式数据集。它是记录的只读分区集合。RDD是Spark的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。与RDD不同，数据以列的形式组织起来，类似于关系数据库中的表。它是一个不可变的分布式数据集合。Spark中的DataFrame允许开发人员将数据结构(类型)加到分布式

overfit同步小助手 2023-06-06 01:03:51 0 收藏

大数据技术（入门篇）--- 使用Spring Boot 操作 CDH6.2.0 Spark SQL进行离线计算

Spring Boot 操作 CDH6.2.0集群中的 Spark，使用Spark-SQL技术，实现离线计算，查询示例：简单的条件查询、稍微复杂一些的聚合查询、每行数据对象，转换为自定义Class对象、目标数据存储到MySQL数据库中、符合断言判断

overfit同步小助手 2023-06-05 23:03:52 0 收藏

超越ChatGPT：AgentGPT正在将自主AI带到浏览器中

你好，欢迎来到人工智能领域的新时代！今天我们介绍AgentGPT，这是一款最前沿的基于浏览器的平台，旨在革新人工智能的自主性。这项开创性的技术让你能够在舒适的网络浏览器中创建、配置和部署定制化的人工智能代理，以实现任何想象得到的目标。随着世界变得越来越互联，对先进的人工智能解决方案的需求前所未有地高

overfit同步小助手 2023-06-05 19:04:05 0 收藏

Kubectl scale 命令最佳实践

新钛云服已累计为您分享661篇技术干货kubectl scale 是帮助我们管理 Kubernetes 部署的众多工具之一。在本文中我们将了解如何使用此工具以及最佳使用实践。概述kubectl scale命令通过调整正在运行的容器的数量来立即缩放应用程序。这是增加部署副本数量的最快、最简单的方法，可

overfit同步小助手 2023-06-05 19:03:48 0 收藏

Flink--- 批处理 / 流处理

flink 流处理批处理

overfit同步小助手 2023-06-05 18:03:44 0 收藏

5.1 Spark的安装与使用

第一关 Scala语言开发环境的部署 1.下载解压在Scala官网根据平台选择下载Scala的安装包scala-2.17.7.tgz解压到/app目录下：mkdir /app //创建 app 目录cd /opttar -zxvf scala-2.12.7.tgz -C /appeducode

overfit同步小助手 2023-06-05 17:04:15 0 收藏

抖音小店无货源处罚全解，一文带你读懂官方规则，合理规避风险

使用抖音电子面单，电子面单是抖音电商平台和物流公司合作向商家提供一项快速打印标准模板的物流面单服务，抖音电商提供技术支持，商家可通过平台申请添加所需物流商并订购物流单号，物流商通过平台对已订购的商家下发物流单号，商家可在绑定物流面单号至交易订单后，生成物流面单信息。，指店铺经营者没有现货，在网上找产

overfit同步小助手 2023-06-05 16:03:46 0 收藏

开窗函数的使用详解(窗口范围ROWS与RANGE图文详解)

开窗函数，窗口范围ROWS与RANGE

overfit同步小助手 2023-06-05 08:03:45 0 收藏

2023年JAVA集成调用Kettle示例

依赖的jar包以pom的形式引入，有诸多版本，如果与kettle的版本不匹配则会调用失败。因为在java代码里会初始化插件来执行任务，查看插件版本9.0.0.0-423.仓库镜像地址：<repository> <id>pentaho-public</id>

overfit同步小助手 2023-06-05 06:04:10 0 收藏

K8S集群搭建(多master多node节点)

也可以自己创建kubeadm-config.yaml 文件，我这里选择自己创建kubeadm-config.yaml。集群中的所有机器的网络彼此均能相互连接(公网和内网都可以)节点之中不可以有重复的主机名，CentOS 7.9 每台机器 2 GB 或更多的 RAM内存2 CPU 核或更多。从work

overfit同步小助手 2023-06-05 06:03:54 0 收藏

【i阿极送书——第三期】《Hadoop大数据技术基础与应用》

本书由浅入深地介绍了Hadoop技术生态的重要组件，让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术，并搭建Hadoop运行环境。

overfit同步小助手 2023-06-05 04:03:41 0 收藏

Hadoop之Hive的安装配置（详细步骤）

配置前准备下载apache-hive-2.1.1-bin.tar.gz安装包并上传到XShell在XShell上解压

overfit同步小助手 2023-06-05 02:03:50 0 收藏

了解CDN

了解cdn

overfit同步小助手 2023-06-04 18:03:44 0 收藏

python与大数据

例如，NumPy库和SciPy库可以用于科学计算和数据分析，Pandas库可以用于数据的清洗、切片和统计分析，Matplotlib库和Seaborn库可以用于数据的可视化等。例如，Python中的SQLite库可以用于轻量级的关系型数据库，MongoDB库可以用于NoSQL数据库，而Hadoop库可

overfit同步小助手 2023-06-04 15:03:55 0 收藏