大数据 - overfit.cn

Lucene介绍与使用

目录Lucene全文检索全文检索的应用场景索引Lucene、Solr、Elasticsearch三者关系Lucene的基本使用lucene工作流程构建索引查询索引创建索引的详细流程案例演示生成索引：中文分词索引高亮显示文档域加权概述：案例演示查询索引的详细流程索引的删除修改删除索引deleteDoc

overfit同步小助手 2022-05-09 11:28:36 0 收藏

【整理】金融量化交易技术资料

最近碰巧很多人聊到金融量化交易方面的技术方面的问题，抽空半天把一些主要量化交易技术做了梳理给感兴趣的技术伙伴做参考，希望对你有帮助。

overfit同步小助手 2022-05-09 11:28:33 0 收藏

分布式-CAP定理

在分布式学习中，我们经常遇到一个概念便是CAP，它是分布式很重要的理论基础。很多分布式算法也是在不断的在解决相关问题，今天就让我们重新学习或者回顾一下这个知识点吧，加深印象打牢基础。一、简介CAP定理（CAP theorem），又被称作布鲁尔定理（Brewer's theorem），由计算机科学家

overfit同步小助手 2022-05-09 11:28:29 0 收藏

【Hadoop伪分布式安装】之配置CentOS

文章目录配置CentOS一、修改主机名二、配置hosts文件1. vi编辑/etc/hosts2.在文件末尾添加一行配置CentOS一、修改主机名[eva@bogon ~]$ su #切换root模式密码：[root@bogon eva]# hostname hadoop

overfit同步小助手 2022-05-09 11:28:24 0 收藏

【博主推荐】大数据可视化大屏(源码下载)

可视化大屏交流学习提示：本文推荐好的大数据可视化源码，用于学习，用于项目，欢迎大家积极交流。持续更新贴……资源目录可视化大屏交流学习一、某公司大数据展示模版2二、大数据可视化通用素材三、大数据可视化系统数据分析通用模版相关资源一、某公司大数据展示模版2示例：简洁蓝色风，板块清晰明了，可以直接套用

overfit同步小助手 2022-05-09 11:28:21 0 收藏

160-大数据查重-位图算法

大数据查重-位图算法位：内存管理的最小单位是字节，一个字节是8个位。问题：有1亿个整数，最大值不超过1亿，问都有哪些元素重复了？谁是第一个重复的？内存限制100M1亿 = 100M如果是放到哈希表上：100M * 4 = 400M * 2 = 800M1、什么是位图算法？我们有下面一行数字：我

overfit同步小助手 2022-05-08 11:58:25 0 收藏

windows下用docker下载安装zookeeper

官网链接: https://hub.docker.com/_/zookeeper 1.将zookeeper镜像下载到docker 打开cmd输入docker pull zeekeeper 。回车之后等待几分钟下载检查镜像是否下载成功docker images 2.将镜像变成一个容器在cmd中输

overfit同步小助手 2022-05-08 11:58:21 0 收藏

Elasticsearch 快照生命周期管理 (SLM) 实战指南

1、Elasticsearch 保证高可用性的方式Elasticsearch 保证集群高可用的方式包含但不限于如下三种：方式一：副本分片。主分片失效后，副本分片会被提升为主分片。方式二：跨集群复制主从同步。简称：CCR，指的是索引数据从一个 Elasticsearch 集群复制到另一个 Elasti

overfit同步小助手 2022-05-08 11:58:18 0 收藏

Fork/Join框架

一、基本介绍与简单应用二、业务应用三、原理分析

overfit同步小助手 2022-05-08 11:58:15 0 收藏

hbase的啥子日子问题

这个是最开始的数据：乱七八糟的，要取出其中的一些，类似这些其中毫秒级的时间数据要转为时间戳spark先过滤出要取的数据package sparkj;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.r

overfit同步小助手 2022-05-08 11:58:11 0 收藏

物流项目中Oracle 数据库的使用及OGG是如何同步

Oracle数据库操作入门及OGG数据ETL

overfit同步小助手 2022-05-08 11:58:07 0 收藏

Zookeeper——集群搭建 & 选举机制

文章目录：1.前言2.步骤详解3.选举机制3.1 第一次启动3.2非第一次启动1.前言继上一篇文章中，我学过了Zookeeper的一些概念、配置文件以及Linux下本地启动。那么这篇文章来讲讲关于Zookeeper集群的相关操作步骤。2.步骤详解首先我们需要准备三台机器，这里就对我原有的Linux进

overfit同步小助手 2022-05-08 11:58:03 0 收藏

数据中台建设（八）：数据服务体系建设

数据服务是数据中台能力的出口，是支撑数据应用的重要支撑。数据资产只要形成数据服务被企业使用，才能体现价值，传统做法是根据某个应用产品的需求，独立构建非常多的数据接口与应用产品对接，这会造成大量接口的重复建设，且修改、运维、监控的成本都很大。我们可以构建可管理、可复用、可监控的统一标准下的数据服务体系

overfit同步小助手 2022-05-08 11:58:00 0 收藏

第4篇: Elasticsearch各版本特性总结及7.X增删改查实战

背景：目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领

overfit同步小助手 2022-05-08 11:57:56 0 收藏

Python 大数据的进行信用卡欺诈检测（附源码与注释）

信用卡欺诈检测

overfit同步小助手 2022-05-08 11:57:52 0 收藏

国家多部委发布13份“十四五”规划，115项重大工程

近段时间，国家多个部委陆续发布各自领域的“十四五”发展规划。据不完全统计，已发布《“十四五”数字经济发展规划》《“十四五”智能制造发展规划》、《“十四五”大数据产业发展规划》、《“十四五”机器人产业发展规划》等13个与科技领域相关的政策文件。

overfit同步小助手 2022-05-06 10:19:12 0 收藏

Project Galaxy (GAL) 首发币安，预期有多少涨幅？

大饼又涨了上来，昨晚最高突破了四万美金，以太坊最高突破了三千美金，这波还是挺意外的，利空出现没跌反而涨，估计是狗庄在搞事情。鲍威尔：通胀远高于目标，排除加息75个基点，未来几次加息50个基点是选项。美联储FOMC声明：6月开始缩表，三个月内逐步提高缩表上限至每月950亿美元。美联储FOMC声明显示，

overfit同步小助手 2022-05-06 07:19:53 0 收藏

搜索引擎ES--基础学习

目录ES功能及特点ES应用场景常见场景常见案例主流搜索方案对比ES安装部署ES功能及特点分布式搜索引擎通过多台服务器进行存储检索，如：百度、谷歌、站内搜索全文检索提供模糊搜索等自动度较高的查询方式，进行相关排名，高亮等操作数据分析引擎各类电商、新闻类网站进行搜索排名，销量排名处理海量数据实时处理对海

overfit同步小助手 2022-05-06 07:19:51 0 收藏

数据中台建设（七）：数据资产管理

文章目录数据资产管理一、数据标准管理二、元数据管理三、主数据管理四、数据质量管理五、数据安全管理六、数据共享管理七、数据生命周期管理数据资产管理随着企业数据越来越大，企业意识到数据是一种无形的资产，通过对企业各业务线产生的海量数据进行合理管理和有效应用，能盘活并充分释放数

overfit同步小助手 2022-05-06 07:19:45 0 收藏

Docker 上部署一主两从Hadoop集群 | [Centos7]

本文目录写在前面配置前须知集群规划step1 开启docker拉取镜像step2 创建容器step3 免密登录配置1. ip查看2. 设置主机名3. 主机名与ip地址映射4. 免密登录5. 免密登录效果***bug fix1.0 /etc/hosts修改完成后重启容器失效step4 关闭防火墙ste

overfit同步小助手 2022-05-06 07:19:42 0 收藏