大数据 - overfit.cn

Day548.Kafka相关外部系统整合 -kafka

Kafka相关外部系统整合一、集成 FlumeFlume 是一个在大数据开发中非常常用的组件。可以用于 Kafka 的生产者，也可以用于Flume 的消费者。1、Flume 生产者启动 kafka 集群zk.sh startkf.sh start启动 kafka 消费者bin/kafka-cons

overfit同步小助手 2022-03-04 07:40:37 0 收藏

AWS、Azure等国外云计算如何迁移到国内阿里云上?

首先需要了解到云迁移流程：前期调研-制定方案-迁移-运营。这里主要介绍的是如何解决迁移过程中的难点。我从这个问题中看到了两个云迁移的难点：不同云平台之间的异构迁移用户缺少迁移经验，对迁移流程不够了解那么从这两个难点出发，有什么解决方案呢？其他的方案我就不多介绍了，因为我只介绍我使用过的最好的云迁移

overfit同步小助手 2022-03-04 07:40:33 0 收藏

kafka初学(自己觉得好难)

kafka初学一、介绍Kafka是是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统低延迟的实时系统Storm/Spark流式处理引擎web

overfit同步小助手 2022-03-04 07:40:28 0 收藏

四种常用的微服务架构拆分方式

微服务架构并无标准架构，不然什么架构师大会也不会各个系统架构百花齐放了。虽然没有固定的套路，却有一些经验，今天就来做一个总结。基于角色拆分这种拆分方式常见于基础设施以及其PaaS层的架构，...

overfit同步小助手 2022-03-04 07:40:20 0 收藏

HBase 过滤器

HBase过滤器、比较器

overfit同步小助手 2022-03-03 09:40:50 0 收藏

记一次RocketMQConsumer 服务关闭出现InterruptException异常

记一次RocketMQConsumer 服务关闭出现InterruptException异常背景提要出现问题主要还是版本升级老版本核心rocketmq依赖<dependency> <groupId>org.apache.rocketmq</groupId>

overfit同步小助手 2022-03-03 09:40:46 0 收藏

hive-SQL学习笔记11

之前有人问我，如何挑出一个月的最大值及其特征，比如有三列，分别是user_id，item_id，time，其中time是停留时长，这个问题就是找出这个用户，他这一行是什么，我当时就懵逼了。我说我直接全部拉下来这个月的数据，然后py操作取最大值即可。。。game overFor Recommendat

overfit同步小助手 2022-03-03 09:40:42 0 收藏

几分钟明白Flink水位线

Flink水位线1、Flink中不同的事件概念Processing time（处理时间）：即事件被机器处理的时间，事件流向某个算子的系统时间Event Time(事件时间）：事件时间是再某个生产设备上发生时间，指事件进入Flink之前嵌入的时间，通常可以从事件中获取一个时间戳，此时间戳可以用来得

overfit同步小助手 2022-03-03 09:40:37 0 收藏

DolphinScheduler无故删除HDFS上的Hive库表目录

亲爱的朋友们，我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过，中国人开源的一个调度工具，类似Azkaban，本次的事情就是在DolphinScheduler上发生的。据领导描述，某团队负责的某业务数仓上云后，HDFS上的Hive库表目录总是无故被删，他们找不

overfit同步小助手 2022-03-03 09:40:24 0 收藏

RabbitMQ搭建

一、环境主机名IP地址操作系统rabbitmq版本mq1192.168.10.180Centos 7rabbitmq3.9.7mq2192.168.10.181Centos 7rabbitmq3.9.7mq3192.168.10.183Centos 7rabbitmq3.9.7二、单机部署1.安装g

overfit同步小助手 2022-03-02 07:34:23 0 收藏

2022年春招平均薪资曝光，程序员也羡慕了？

overfit同步小助手 2022-03-02 07:34:19 0 收藏

APM链路监控：pinpoint安装部署实战详细手册

文章目录一、pinpoint介绍1.pinpoint简介2.架构组成二、安装环境准备三、HBase安装四、pinpoint安装1.安装pinpoint-collector2.安装pinpoint-web3.安装pinpoint-agent结尾一、pinpoint介绍1.pinpoint简介pinpo

overfit同步小助手 2022-03-02 07:34:16 0 收藏

在蚂蚁森林把逝去的能量抢回（Python实现）

1 蚂蚁森林简介蚂蚁森林是一项旨在带动公众低碳减排的公益项目，每个人的低碳行为在蚂蚁森林里可计为"绿色能量"。"绿色能量"积累到一定程度，就可以用手机申请在生态亟需修复的地区种下一棵真树，或者在生物多样性亟需保护的地区“认领”保护权益。蚂蚁森林在各地的生态修复项目，是由蚂蚁集团向公益机构捐赠资金，由

overfit同步小助手 2022-03-02 07:34:12 0 收藏

原来在SpringBoot中是这样引入jar包的，害我调试了两个多小时

最近单位新来了一位程序员。有次，他问我在做SpringBoot如何引入外部依赖jar包，我之前用IntelliJ工具做微服务做项目时也遇到过类似问题，在这里简单总结下。在开发时，我们需要引...

overfit同步小助手 2022-03-02 07:34:09 0 收藏

Elasticsearch（吃个泡面的时间了解清楚）

亮点Elasticsearch 官方入门视频涵盖：如何下载／运行 Elasticsearch，及其先决条件通过CRUD REST API 添加，更新，检索和删除数据基本的文本分析，包括标记和过滤基本搜索查询聚合：Elasticsearch 的面向和分析的主功能其他资源：Elasticsear

overfit同步小助手 2022-03-02 07:34:03 0 收藏

Hadoop入门（一篇就够了）

文章目录01 引言02 Hadoop概述2.1 Hadoop定义2.2 Hadoop优势2.3 Hadoop组成2.3.1 HDFS2.3.2 MapReduce2.3.3 YARN2.4 Hadoop工作方式2.4.1 Hadoop的主从工作方式2.4.2 Hadoop的守护进程03 Hadoop

overfit同步小助手 2022-03-02 07:34:00 0 收藏

阿里一面，说说你知道消息中间件的应用场景有哪些？

消息队列中间件是分布式系统中重要的组件，主要解决应用解耦，异步消息，流量削锋、海量日志数据同步、分布式事务等问题，实现高性能，高可用，可伸缩和最终一致性架构。

overfit同步小助手 2022-03-02 07:33:56 0 收藏

python大数据可视化分析淘宝商品，开专卖店不行啊

python大数据分析淘宝商品现如今大数据分析异常火爆，如何正确分析数据，并且抓住数据特点，获得不为人知的秘密?今天沉默带你用python爬虫，爬取淘宝网站进行淘宝商品大数据分析的实战！文章目录python大数据分析淘宝商品前言一、明确爬取方向1.1 淘宝搜索接口的分析1.1.1 cookie获

overfit同步小助手 2022-03-02 07:33:52 0 收藏

MapJoin工作机制

如果不指定MapJoin或者不符合mapJoin的条件，那么HIve解析器会将Join操作转换成Common Join，也就是说在reduce阶完成Join容易发生数据倾斜。mapJoin工作机制通过mapReduce Local Task，将小表读入到内存中生成HashTableFiles 上传到

overfit同步小助手 2022-03-01 09:38:26 0 收藏

剩余/长尾流量如何售卖广告

文章目录剩余/长尾流量如何售卖广告挖掘长尾流量价值长尾流量的出路2.1 长尾流量的判定2.1.1 数据局部性长尾流量实时标记3.1 Trace流服务整体链路布局3.2 架构层次图3.3 对象类图3.4 逻辑分布图服务可观测性猜你喜欢剩余/长尾流量如何售卖广告“ 在互联网行业中，如何利用流量快速变现，

overfit同步小助手 2022-03-01 09:38:23 0 收藏