大数据 - overfit.cn

数学规划（Python cvxpy、scipy.optimize）

数学规划学习笔记

overfit同步小助手 2023-04-02 08:04:46 0 收藏

大数据系列——什么是ClickHouse？ClickHouse有什么用途？

overfit同步小助手 2023-04-02 08:04:39 0 收藏

ElasticSearch导入PDF，WORD到ES进行全文检索，全文高亮等操作。

使用ElasticSearch导入文本只需要使用ES的javaapi添加文本即可，解析pdf和word我使用的是Tika来解析文档数据，每当一个文本文件被传递到Tika，它将检测在其中的语言。它接受没有语言的注释文件和通过检测该语言添加在该文件的元数据信息。......

overfit同步小助手 2023-04-02 08:04:31 0 收藏

ES基础入门

ElasticSearch基础入门

overfit同步小助手 2023-04-02 08:04:21 0 收藏

Gartner DSG数据安全治理架构及解读

目录背景：架构图：解释：英文解释：（自上而下）平衡业务与风险、威胁、合规之间的关系（5个维度之间的平衡）优先处理数据集制定安全策略实施安全工具策略配置同步从上到下，从需求调研开始实施数据安全治理。千万不要跨过数据摸底、治理优先级分析、制定治理整体策略，而直接从技术工具开始对数据安全进行治理。

overfit同步小助手 2023-04-02 08:04:09 0 收藏

windows上ES安装ik分词器

overfit同步小助手 2023-04-02 07:04:38 0 收藏

GEE11：2个土地覆盖数据（LUCC）分享和下载

地表覆盖分布是气候变化研究、生态环境评估及地理国情监测等不可或缺的重要基础信息。近年来，随着遥感科学技术以及计算机存储和计算能力的不断提升，地表覆盖应用需求也逐步从公里尺度（如 1 公里，500 米）向更高分辨率的米级尺度（30 米和 10 米）过渡。目前，已公开的三套 30 米全球地表覆盖产品（G

overfit同步小助手 2023-04-02 07:04:19 0 收藏

python大数据之dataframe常用操作

详细讲解了dataframe的常用操作，包含创建，增删改查，算数运算，逻辑运算，常用聚合函数以及lamda函数的使用等

overfit同步小助手 2023-04-02 06:04:43 0 收藏

干货 | 中小企业选型 Elasticsearch 避坑指南

1、线上常见问题在我线下对接企业或线上交流的时候，经常会遇到各种业务场景不同的问题。比如，常见问题归类如下：常见问题1：ES 适合场景及架构选型问题。公司的核心业务是做企业员工健康管理，数据来自电子化后的员工体检报告以及各种健康数据采集设备，均存储在关系型数据库中。先计划搞健康大数据分析，比如某企业

overfit同步小助手 2023-04-02 06:04:38 0 收藏

Elasticsearch实战之（商品搜索API实现）

overfit同步小助手 2023-04-02 06:04:34 0 收藏

Python提取.ipynb文件中的Python代码保存为.py文件

封面图片：《Python程序设计基础（第2版）》，ISBN：9787302490562，董付国，清华大学出版社配套资源：用书教师可以免费获取教学大纲、教案、课件、源码、习题答案、课堂管理与...

overfit同步小助手 2023-04-02 06:03:08 0 收藏

boost升压斩波电路分析

如果说通过开关间歇工作，实现“等效”降压的功能还不算神奇的话，“凭空”将直流电压升压的Boost斩波电路则体现了电力电子技术的精髓。1 Boost 升压斩波电路的推导电荷泵中的电容给了我们有益的启发，即电容短时间充电即可维持住电压。如图1所示的电路，是构成 Boost 升压斩波电路的基本原理之一：峰

overfit同步小助手 2023-04-02 05:04:52 0 收藏

云计算与大数据- 云计算概览练习题及答案

传统的网络杀毒软件为各个用户提供病毒防御服务，通过在每个节点上安装相应的杀毒软件来监控计算机的运行，当发现计算机疑似被病毒感染时就开始进行查杀工作，网络杀毒软件提供商也通过监控互联网的一些情况来发现病毒，对病毒库进行更新。5、与云计算不同，边缘计算将计算任务放在接近（数据源）的计算资源上

overfit同步小助手 2023-04-02 05:04:42 0 收藏

Es中索引的删除操作

overfit同步小助手 2023-04-02 05:04:30 0 收藏

启动Hadoop集群遇到Permission denied (publickey,password)问题的解决方法

百度上搜到的答案同质化比较严重（基本是sshkey），谷歌上搜到的答案存在越扯越远脱离原问题的不足，也可能是因为大佬不屑于用简单的方法解决问题。解决方法网上一搜一大把，基本是有两种方法，第一种只会影响到本用户所处的环境，第二种会影响到整个根目录（因为要修改。启动集群测试，如果还遇到问题，一般是别的地

overfit同步小助手 2023-04-02 05:04:27 0 收藏

Spark在Yarn集群的两种提交模式

spark on yarn

overfit同步小助手 2023-04-02 05:04:14 0 收藏

Linux Centos 7 压缩和解压缩命令

1.zip文件压缩语法：zip 加压缩后的文件名加要压缩的文件名。[root@localhost ~]# zip test.zip test.txt adding: test.txt (deflated 100%)[root@localhost ~]# 后面出现进度条百分比数字说明已经压缩好了然

overfit同步小助手 2023-04-02 05:04:11 0 收藏

数据挖掘实验：使用 Hadoop 实现 WordCount 应用

overfit同步小助手 2023-04-02 04:04:37 0 收藏

node.js文件的压缩解压

这三个部分通过pipe进行连接，也就是说处理的不是一个完整的文件，而是一部分一部分的处理文件，也就是通过流式的方式处理文件。这段代码各位看客可以复制下来运行一下，看看结果，当然你至少要保证读文件流里的路径地址是真实存在的，即同级目录下，你在创建一个a.txt文件，里面随便写上一些内容，运行后会在同级

overfit同步小助手 2023-04-02 04:04:31 0 收藏

Flink 1.14 的 mysql CDC 2.2实时增量同步使用

Flink 1.14 的 mysql CDC 实时增量同步使用

overfit同步小助手 2023-04-02 04:04:12 0 收藏