大数据概论第二章理论基础

目录数据科学的学科地位统计学统计学与数据科学数据科学中常用的统计学知识数据科学视角下的统计学机器学习机器学习与数据库数据科学中常用的机器学习知识数据科学视角下的机器学习数据可视化数据科学的学科地位从学科定位上看,数据科学处于三大领域交叠之处,如下维恩图所示:从DrewConway的《数据科学维恩图》

大数据前端可视化大屏--前端开发之路

可视化常用组件有哪些? 常用的技术栈是什么?可视化的常见问题有哪些如何解决?一、什么是可视化大数据可视化这词相信大家并不陌生,从 17 世纪的地图和图形到 19 世纪初饼图的发明,使用图表来理解数据的概念已经存在了数个世纪。可视化一直伴随着我们的生活,在我们的生活中更是无处不在,像天猫双十一、女神节

Spark面试突击

大数据方面的面试总结汇总,本篇为Spark的面试总结。文章目录一、Spark基础1. 你是怎么理解Spark,它的特点是什么?2. Spark架构了解吗?3. 简述Spark的作业提交流程4. Spark与Hadoop对比?Spark为什么比MapRedude快?二、Spark Core5. 什么是

【Hadoop伪分布式安装】之安装PieTTY

文章目录系列文章1. 下载PieTTY2. 运行文件,输入CentOS 7的ip地址3. 查看CentOS的ip地址4. PieTTY登录CentOS系列文章【Hadoop伪分布式安装】之配置CentOS1. 下载PieTTY在网上找到安装包直接下载2. 运行文件,输入CentOS 7的ip地址如果

Hive实战 —— 利用Hive进行数据分析并将分析好的数据导出到mysql数据库中

Hive实战 利用Hive统计分析出热门视频TOP10,并将分析好的数据导出到mysql数据库中,步步相扣,记录一次试验完整过程,体验操作

开源OceanBase如何与Prometheus与Grafana监控结合

一、OceanBase 数据库简介OceanBase 数据库是一个原生的分布式关系数据库,它是完全由阿里巴巴和蚂蚁集团自主研发的项目,近期成立单独的商业公司北京奥星贝斯进行运营,并于2021年6月1日开源。OceanBase 数据库构建在通用服务器集群上,基于 Paxos 协议和分布式架构,提供金融

BOOT 整合 ElasticSearch

springBoot整合ES的基本操作

有幸遇见你们

时间又悄然来到2022年5月9日,这是我离开学校已经整整三个月的日子,也是我在新的组织工作也满三个月的一天。飞快的时光,令人感叹不已。在这三个月中,我虽已离开了原来的工作岗位,但是又好像没有完全离开。或许因我还在协助着原公司的某些工作,或许因我还没有完全退群,抑或是我内心仍旧喜爱在高校教学的工作……

Zookeeper——分布式锁的概念理解 & 应用举例

文章目录:1.前言2.原生Zookeeper实现分布式锁3.Curator框架实现分布式锁案例4.Zookeeper常见面试题1.前言什么叫做分布式锁呢? 比如说"进程 1"在使用该资源的时候,会先去获得锁,"进程 1"获得锁以后会对该资源保持独占,这样其他进程就无法访问该资源,"进程 1"用完该资

最近面试太难了。

在面试数据分析师时,往往会考察一下SQL的掌握程度。最近有位同学面试了几家,分享了一些觉得有些难度的SQL面试题:比如会让你用SQL实现行转列和列转行操作、用SQL计算留存、用SQL计算中位数、还有如何统计用户最大连续登录天数?当然这种题变形也很多,连续打卡天数、连续学习天数,连续点击天数等等都是同

数据中台建设(十一):数据中台解决方案参考与未来发展方向

各个行业的数据中台解决方案类似,只是涉及到的业务不同,建设框架类似。下面以零售行业构建数据中台和网易构建的数据中台为例,说明构建数据中台的解决方案。

分布式系统脑裂现象、Lease机制介绍

文章目录脑裂Lease机制介绍脑裂一个故障就将服务器集群分成两部分,右边就不能接收到Leader的日志写入信息了,右边三个机器就会选举出一个新的Leader,原先的集群就分成了两个小集群,这两个小集群就可能产生数据不一致的现象,一个client从不同的集群中读取到了不同的信息,这种现象被称为脑裂产生

一份笔记让你从 15K 涨薪并跳槽到32K+16

2022年的互联网行业竞争越来越严峻,面试也是越来越难,一直以来我都想整理一套完美的面试宝典,奈何难抽出时间,所以这里给大家整理好了这份15K 涨薪并跳槽到32K+16的笔记,祝大家涨薪并跳槽成功Java 面试题目录MyBatis 面试篇 什么是 Mybatis? Mybaits 的优点:

搭建大数据集群linux服务器配置步骤

1、IP设置使用下面命令修改添加示例内容命令:vi /etc/sysconfig/network-scripts/ifcfg-ensXX修改添加的内容示例:BOOTPROTO=staticIPADDR=192.168.1.100NETMASK=255.255.255.0GATEWAY=192.168

Kettle项目实战:比赛信息自动流转方案

Kettle项目实战比赛信息自动流转方案1. 项目背景与介绍众多的比赛都可以为抽象成以下的流程:传统的报名工作需要赛事组工作人员以表格或是邮件等方式采集选手的信息,并归档处理。选参赛过程中的种种行为,诸如签到、比赛、得分都得不到高效的记录,往往由纸张的表格记录,再录入excel进行整理。在处理比赛结

数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章

目录前言一、数据科学的学科地位二、统计学2.1 统计学与数据科学2.2 数据科学中常用的统计学知识2.3 数据科学视角下的统计学三、机器学习3.1 机器学习与数据科学3.2 数据科学中常用的机器学习知识3.3 数据科学视角下的机器学习四、数据可视化五、总结

Lucene介绍与使用

目录Lucene全文检索全文检索的应用场景索引Lucene、Solr、Elasticsearch三者关系Lucene的基本使用lucene工作流程构建索引查询索引创建索引的详细流程案例演示生成索引:中文分词索引高亮显示文档域加权概述:案例演示查询索引的详细流程索引的删除修改删除索引deleteDoc

【整理】金融量化交易技术资料

最近碰巧很多人聊到金融量化交易方面的技术方面的问题,抽空半天把一些主要量化交易技术做了梳理给感兴趣的技术伙伴做参考,希望对你有帮助。

分布式-CAP定理

在分布式学习中,我们经常遇到一个概念便是CAP,它是分布式很重要的理论基础。很多分布式算法也是在不断的在解决相关问题,今天就让我们重新学习或者回顾一下这个知识点吧,加深印象打牢基础。一、简介CAP定理(CAP theorem),又被称作布鲁尔定理(Brewer's theorem),由计算机科学家

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈