大数据 - overfit.cn

大数据-kafka学习（八）—— 生产调优、硬件配置选择

一、场景说明100万日活，每人每天100条日志，每天总共的日志条数上100万*100条=1亿条1亿/24小时/60分/60秒=1150条/每分钟每条日志大小：0.5K-2K（取1K）1150条/每分钟*1K≈ 1m/s高峰期每分钟：1150条*20倍 = 23000条。每秒多少数据量：20MB/s。

overfit同步小助手 2022-04-17 09:01:26 0 收藏

多线程-并发编程(7)-生产者消费者模式及非阻塞队列与阻塞队列实现

生产者消费者模式是一个十分经典的多线程协作模式弄懂生产者消费者问题能够让我们对多线程编程的理解更加深刻存在3个元素1.生产者(类比厨师)2.生产者的生产产品(类比美食)3.消费者(类比吃货)思路分析：理想情况：最开始，生产者先抢到cpu执行权；生产出生产产品并放在2者位置之间(类比餐桌)然后消费者抢

overfit同步小助手 2022-04-17 09:01:20 0 收藏

Spark 创建RDD的几种方式

overfit同步小助手 2022-04-16 14:37:51 0 收藏

Oozie常用命令

启动命令:bin/oozied.sh start关闭命令:bin/oozied.sh stop页面访问:http://node01:11000/oozie/查看信息:bin/oozie job -oozie http://node01:11000/oozie -info 0000029-191027

overfit同步小助手 2022-04-16 07:38:42 0 收藏

内外网短信状态接收超时通知的常用的解决方案

怎样做技术选型•不要特立独行，优先使用公司约定技术栈，统一组件！•使用成熟的技术！•使用成熟技术的成熟功能！•使用团队熟悉技术栈中间件！•考虑后期数据量用户量•考虑后期运维难度（结合公司实施人员运维水平）常用的解决方案•方案1：•可以利用redis自带的key自动过期机制，短信推送时将id写入red

overfit同步小助手 2022-04-16 07:38:38 0 收藏

大数据-kafka学习（七）——集成SpringBoot

SpringBoot是一个在JavaEE开发中非常常用的组件。可以用于Kafka的生产者，也可以用于SpringBoot的消费者。一、SpringBoot项目搭建如果Spring Initializr产生如下错误解决方法Custom的URL改为https://start.aliyun.com/Spr

overfit同步小助手 2022-04-16 07:38:34 0 收藏

大数据-kafka学习（五）——消费者

一、KAfka消费方式1、pull（拉）模式：consumer 采用从broker中主动拉取数据，Kafka 采取这种方式2、push（推）模式：Kafka 没有采用这种方式，是因为由broker决定消费发生速率，很难适应所有消费者的消费速率。例如推送的速度是50m/sConsumer1、Consu

overfit同步小助手 2022-04-16 07:38:24 0 收藏

大数据-kafka学习（六）——简单代码实现生产者消费者

maven依赖导入 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artif

overfit同步小助手 2022-04-16 07:38:20 0 收藏

RabbitMQ消息中间件-基础篇

文章目录一.什么是MQ1.1 mq的作用1.2 mq的区别一.什么是MQ1.1 mq的作用1.流量消峰: 将同时刻大量请求访问,使用消息队列做缓冲,把一秒内下的订单分散成一段时间来处理.2.应用解耦:**3.异步处理: **1.2 mq的区别...

overfit同步小助手 2022-04-16 07:38:14 0 收藏

使用Flink1.14.3与Kafka、Fine BI练习搜狗日志实时BI小项目

overfit同步小助手 2022-04-15 09:37:49 0 收藏

数据治理（十一）：数据安全管理Ranger初步认识

目录数据安全管理Ranger初步认识一、Ranger介绍二、Ranger架构数据安全管理Ranger初步认识在大数据平台中，有海量数据存储，通畅在采集数据过程中敏感数据有意或者无意的进入大数据平台中，数据安全管理非常重要。我们不希望一些敏感数据被他人访问，希望可以按照一种规则给部分人访问权限，以防止

overfit同步小助手 2022-04-15 08:37:53 0 收藏

我的四周年创作纪念日

目录机缘收获日常憧憬机缘2018年写下第一篇文章centos命令大全，那时的想法是把CSDN当成一个网上的笔记本，后来才发现，随着时间的过去，所写的博客居然有人浏览，而且还有评论。接着就踏上写博客的路上，我的博客知识点很杂，包括php、python、java、大数据、云原生等等，几乎覆盖一些知识热点

overfit同步小助手 2022-04-15 08:37:48 0 收藏

Spark项目实战-数据清洗

SparkSql单次处理Web日志，分析用户留存率

overfit同步小助手 2022-04-15 08:37:44 0 收藏

如何玩懂RabbitMQ的消息确认机制？

用详细的讲解带你如何玩懂RabbitMQ的消息确认机制，包换生产者和消费者的消息确认，保护我们的消息不被丢失。

overfit同步小助手 2022-04-15 08:37:40 0 收藏

HDFS小文件问题分析与解决方案（面试层面~）

1）会有什么影响（1）存储层面：1个文件块，占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节（2）计算层面：每个小文件都会起到一个MapTask，占用了大量计算资源2）怎么解决（1）采用har归档方式，将小文件归档（2）采用CombineTextInputFor

overfit同步小助手 2022-04-15 07:38:05 0 收藏

【大数据】带你理解并使用flink中的Time、Window（窗口）、Windows Function（窗口函数）

这篇文章带你理清大数据开发中flink中time、window使用概念、实战的内容，欢迎大家品读，同时示例代码也是基于最新的flink1.13开发。

overfit同步小助手 2022-04-15 07:38:02 0 收藏

springboot----数据层技术的选择+各种整合(缓存，消息队列)+定时任务+发邮件

本笔记包含以下内容：springboot内置的数据源和配置、jdbcTemplate、内置的H2数据库。springboot整合redis，redis基本使用，切换springboot操作redis客户端的实现技术(jedis或lettuce)，MongoDB安装和初始化，安装可视化工具Robo 3

overfit同步小助手 2022-04-14 09:37:51 0 收藏

用质谱法定义 HLA-II 配体处理和结合规则可增强癌症表位预测

文献：Defining HLA-II Ligand Processing and Binding Rules with Mass Spectrometry Enhances Cancer Epitope Prediction文献地址：Defining HLA-II Ligand Processing

overfit同步小助手 2022-04-14 07:38:39 0 收藏

保姆级Hadoop集群部署

保姆级hadoop集群部署

overfit同步小助手 2022-04-14 07:38:35 0 收藏

Spark框架-离线数据统计

数据清洗任务简介:第一步：输出日志(使用spark默认的log4j配置文件)第二步：创建SparkSession对象(关闭严格模式,否则创建静态分区)第三步:拿出所有的表并进行清洗第四步：删除分区并且统计第五步：将对于字段的日期改为timestamp类型第六步：去除重复字段并创建临时视图第七步：查看

overfit同步小助手 2022-04-14 07:38:26 0 收藏