大数据 - overfit.cn

大数据框架综合实验作业

1、数据raw_user.csv：完整用户数据，记录2000万左右（见网盘-实验步骤-综合案例1数据）small_user.csv：子集，方便测试，记录30万条我们用small_user.csv这个小数据集进行实验，这样可以节省时间。等所有流程都跑通以后，可以使用大数据集raw_user.csv去测

overfit同步小助手 2022-05-23 08:05:53 0 收藏

[Dubbo3.0.8源码解析系列]-16-模块发布器发布服务全过程

目录16-模块发布器发布服务全过程16.1 简介16.2 导出服务的入口16.3 服务配置导出服务16-模块发布器发布服务全过程16.1 简介Dubbo做为服务治理框架,比较核心的就是服务相关的概念,这里我先贴个找到的关于Dubbo工作原理的架构图:如果按完整服务启动与订阅的顺序我们可以归结为以下6

overfit同步小助手 2022-05-23 08:05:49 0 收藏

Elasticsearch 从入门到实战到精通（Docker版）

解决什么问题有关系型数据库MySQL 为什么还用全文搜索引擎（Elasticsearch/Solr）?MySQL 侧重数据存储，用like进行简单关键字搜索，但无法应对海量数据下各种复杂条件的查询。如果需要全文进行模糊搜索,MySQL性能是非常低的.例如如下场景: 在一张一亿数据量的手机详情表，搜索

overfit同步小助手 2022-05-23 08:05:46 0 收藏

【大数据】Hive基础知识

Hive基础知识1.Hive 有哪些特点？Hive 最适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速响应给出结果，而且数据本身不会频繁变化。Hive 不是一个完整的数据库。Hadoop 以及 HDFS 的设计本身约束和局限性的限制了 Hive 所能胜任的工作。其中最大的限制

overfit同步小助手 2022-05-23 08:05:38 0 收藏

【RabbitMQ Confirm和returns保证生产者消息可靠性】

RabbitMQ Confirm和returns保证生产者消息可靠性RabbitMQ生产者消息可靠性实验环境软件环境和版本spring boot yml 配置RabbitMQ控制台创建交换机和队列并绑定最基本的生产者代码消息生产者流程梳理消息发送流程图简单理解两种机制confirm：returns：

overfit同步小助手 2022-05-23 08:05:33 0 收藏

图解Kafka的RecordBatch结构

文章目录RecordBatchRecordBatch初始化写入消息Record结构图关闭ProducerBatch关闭输出流appendStream并压缩数据填充RecordBatchHeader数据RecordBatchHeader结构图RecordBatch整体结构图阅读完本文你大概会获得以下知

overfit同步小助手 2022-05-23 08:05:30 0 收藏

二、elasticSearch的CRUD操作和批量操作

elasticSearch的CRUD操作和批量操作

overfit同步小助手 2022-05-22 07:05:50 0 收藏

四、elasticSearch分词器(Analysis和Analyzer)

elasticSearch分词器(Analysis和Analyzer)

overfit同步小助手 2022-05-22 07:05:46 0 收藏

【Pyspark】常用数据分析基础操作

文章目录零、准备工作0.1 安装pyspark一、pyspark.sql部分1.窗口函数2.更换列名：3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换：5.报错ValueError: Some of types cannot be determine

overfit同步小助手 2022-05-22 07:05:42 0 收藏

2022中青杯数学建模B题完整代码思路

众所周知，人口的数量和结构是影响社会和经济发展的重要因素。中国经历了从“计划生育”到“全面的两个孩子”，再到“自由化三个孩子”的政策实施，这是对中国人口发展趋势不断变化的调整。这三个儿童政策是中国实施的计划生育政策，以积极应对老龄化人口。 2021年5月31日，CPC中央委员会的政治局举行了一次会议

overfit同步小助手 2022-05-22 07:05:39 0 收藏

数据科学必备Pandas数据分析可视化常用举例

学Python数据科学，玩游戏、学日语、搞编程一条龙。整套学习自学教程中应用的数据都是《三國志》、《真·三國無雙》系列游戏中的内容。可视化是数据科学中必不可少的部分。Python 流行的数据分析库pandas提供了 .plot() 方法进行数据可视化。即使新手阶段也能很快就会创建基本图，从而对数据产

overfit同步小助手 2022-05-22 07:05:36 0 收藏

尚硅谷大数据技术之Hadoop（MapReduce）

文章目录MapReduce定义MapReduce核心思想WordCount案例Hadoop序列化MapReduce框架原理InputFormat数据输入MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核

overfit同步小助手 2022-05-22 07:05:31 0 收藏

RDD转换为DataFrame

spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema，这种方式适用于对已知的数据结构的RDD转换；第二种方法通过编程接口构造一个 Schema ，并将其应用在已知的RDD数据中。（一）反射机制推断Schema在Windows系

overfit同步小助手 2022-05-22 07:05:27 0 收藏

大数据入门学习指南

大数据入门学习指南前情提要大数据入门核心技术栏目刚打造出来没多久，内容十分丰富，集合将近200篇高质文章带你轻松入门。但是由于文章很多，集合很多不同系列的知识点，在栏目里面难以标注顺序，这次博主花时间整理一份详细的学习指南，对于新手是非常友好的。只要跟着学，想进入大数据做开发是很容易的，前提你得自律

overfit同步小助手 2022-05-22 07:05:24 0 收藏

Python系列之：使用kafkaProducer发送数据到topic，KafkaConsumer消费topic数据

Python系列之：使用kafkaProducer生产数据，KafkaConsumer消费数据一、构建KafkaProducer二、生成数据并发送数据到Kafka Topic三、使用kafkaProducer发送数据到topic完整代码四、构建KafkaConsumer五、消费topic数据六、Ka

overfit同步小助手 2022-05-21 21:05:08 0 收藏

Spark - saveAsTable + rename = 坑

目录一、背景二、环境及测试场景①、环境②、测试场景三、复现历程①、场景探索②、测试用例（写数据）1. rename表（hive引擎）2. 观察rename后表结构3. 记录下rename后的目录状态4. jar包 insertInto写入第二批数据③、测试用例（读数据）1. hive引擎读新路径(l

overfit同步小助手 2022-05-21 07:05:42 0 收藏

Linux下安装Zookeeper步骤

手把手操作，各种命令详情。请阅览

overfit同步小助手 2022-05-21 07:05:39 0 收藏

Elasticsearch8.x java客户端使用

Elasticsearch8.x Java API客户端使用，含配置查询操作...

overfit同步小助手 2022-05-21 07:05:36 0 收藏

Apache druid安装

Apache druid运行需要依赖其他一些软件环境，所以需要先安装依赖环境，最后再安装druid。这些依赖的环境包括：jdk zookeeper kafka1 jdk安装# 解压命令tar -zxf jdk-8u191-linux-x64.tar.gz -C /usr/local/# 修改配置命令

overfit同步小助手 2022-05-21 07:05:33 0 收藏

关于MySQL查询条件问题的优化

前言技术能解决的事情改技术技术解决不了的事情该需求现状假设我们目前有两张表业务表书（ t_a_book ）阅读历史记录表 (t_r_book_history) 用户表其两张表的数据逻辑如下t_a_bookt_r_book_historyt_a_user当然了，我们假设当前的数据量并不只是我们眼

overfit同步小助手 2022-05-21 07:05:30 0 收藏