大数据 - overfit.cn

Clickhouse-CPU内存资源优化配置

overfit同步小助手 2023-04-02 04:04:02 0 收藏

大数据DataX（七）：HBase导入到MySQL

简而言之，HbaseReader 通过 HBase 的 Java 客户端，通过 HTable, Scan, ResultScanner 等 API，读取你指定 rowkey 范围内的数据，并将读取的数据使用 DataX 自定义的数据类型拼装为抽象的数据集，并传递给下游 Writer 处理。将HBas

overfit同步小助手 2023-04-02 03:04:54 0 收藏

Windows环境下Hadoop的安装和配置

overfit同步小助手 2023-04-02 03:04:49 0 收藏

spark环境搭建(idea版本)

spark环境搭建(idea版本)为了对初学者可以进行友好的交流，本文通过windows的idea快速搭建spark的运行环境，让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳，但是对初学者没那么友好，咱们先搞定windows之后再琢磨就会容易很多。那么接下来如果有环境的话大概5~

overfit同步小助手 2023-04-02 03:04:24 0 收藏

Elasticsearch：在 Elasticsearch 中按距离有效地对地理点进行排序

计算搜索中两点之间的距离有很多用例。如果你正在处理地理数据，那么无论你从事何种业务，这都必然会出现。然后，在对这些点进行排序时，你可能需要考虑距离，因为……好吧，为什么不呢？所以这里有几种不同的方法可以做到这一点。尽管我尝试尽可能详细地解释所有内容，但我假设你对 Elasticsearch (ES)

overfit同步小助手 2023-04-02 02:04:47 0 收藏

pandas read_sql 和 to_sql 读写Mysql的参数详解

Pandas 读写 Mysql 主要用到两个函数，下面分析一下 pandas.read_sql() 和 DataFrame.to_sql() 的参数。参数：注意点:参数：

overfit同步小助手 2023-04-02 02:04:35 0 收藏

给使用docker安装的ES和Kibana设置账号密码

ES安装后，默认是不开启用户名密码验证的，如果你的ES服务是部署在内网的话，不使用账号密码还不会有太大的安全隐患。但是如果，你的ES服务是暴露在外网环境的话，不设置账号密码肯定是非常不安全的，那如何开启简单的用户名密码验证呢？今天来讲一下怎么给使用docker安装的ES和Kibana设置账号密码如果

overfit同步小助手 2023-04-02 02:04:29 0 收藏

实验二-HDFS编程

大数据技术原理与应用-实验二-HDFS编程这里包括了实验步骤以及实验过程中遇到的问题及解决方法~实验要求：编写shell与Java代码检验分布式系统HDFS上是否存在一个input.txt，并对代码进行详细注释，通过流程图阐述数据查找过程。

overfit同步小助手 2023-04-02 02:04:26 0 收藏

大数据架构之-- Lambda架构

一、什么是Lambda架构Lambda架构由Storm 的作者 [Nathan Marz] 提出，根据维基百科的定义，Lambda 架构的设计是为了在处理大规模数据时，同时发挥流处理和批处理的优势。通过批处理提供全面、准确的数据，通过流处理提供低延迟的数据，从而达到平衡延迟、吞吐量和容错性的目的。

overfit同步小助手 2023-04-02 02:04:23 0 收藏

就业大山之下的网络安全：安逸的安服仔

从去年开始，各个互联网大厂就接二连三的放出了裁员消息，整个互联网行业好像都处于寒冬状态。微博、小米、滴滴、知乎、拼多多等在内的一大批互联网知名企业，也相继传出“人员优化”的消息。除了国内市场的萧条，国外市场也是不容乐观，比如：除了这些大环境的影响，很多公司在招聘方面也越来越离谱，比如最近频繁被爆出的

overfit同步小助手 2023-04-02 01:08:29 0 收藏

大数据开源框架之基于Spark的气象数据处理与分析

本次实验所采用的数据，从中央气象台官方网站（网址：http://www.nmc.cn/）爬取，主要是最近24小时各个城市的天气数据，包括时间整点、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况每个城市对应24条数据（每个整点一条）。数据规模达到2412个城市，57888条数据，有部分城市

overfit同步小助手 2023-04-02 01:04:25 0 收藏

发布一个轻量级的 Elasticsearch 压测工具 - Loadgen

Elasticsearch 压测工具 `Loadgen` ，由极限实验室出品，基于 Elasticsearch 的开发运维需求而开发，久经实际客户环境的真实考验，简单好用速度快。

overfit同步小助手 2023-04-02 00:07:05 0 收藏

TDengine 时序数据特色查询语法详解，助力时序场景下的应用开发

TDengine 是专为时序数据而研发的大数据平台，存储和计算都针对时序数据的特点量身定制，在支持标准 SQL 的基础之上，还提供了一系列贴合时序业务场景的特色查询语法，极大地方便了时序场景的应用开发。TDengine 提供的特色查询包括数据切分查询和窗口切分查询，本文将从语法层面深入解读这两种特色

overfit同步小助手 2023-04-02 00:04:32 0 收藏

logstash+elasticsearch+Kibana(ELK)日志收集

访问 http://ip:9200,http://ip:5601看es,kibana是否安装完成。3.3 进入logstash容器的挂载目录logstash.conf。3.进入容器后执行以下命令傻瓜式设置账号密码。2.重启es容器并进入es容器。3.2 重启logstash。

overfit同步小助手 2023-04-02 00:04:29 0 收藏

如何快速完成园区数据的可视化分析？

对于园区运营方来说，如果没有专业针对性的管理方案以及管理系统辅助的话，实现园区可视化管理的难度非常大，而且操作成本会很高。但如果园区运营方选择引进快鲸智慧楼宇推出的园区数据孪生可视化管理系统的话就会简单很多。

overfit同步小助手 2023-04-02 00:04:16 0 收藏

2000-2020全要素生产率OP法+LP法+OLS和固定效应法三种方法合集含原始数据和计算过程Stata代码

2000-2020全要素生产率OP法+LP法+OLS和固定效应法数据和Stata代码

overfit同步小助手 2023-04-02 00:04:07 0 收藏

虚拟机安装Hadoop

Hadoop的安装

overfit同步小助手 2023-04-02 00:04:04 0 收藏

T5 的尝试

T5 微调 3.参数列表（data dir 与 ouput dir 根据文件位置修改）4.下面进入各种github 主的各类NLP 任务IMDB review classificationtrain_pos_files = glob.glob('aclImdb/train/pos/*.txt

overfit同步小助手 2023-04-01 23:04:32 0 收藏

VMware环境配置

vmware环境配置：JDK、Hadoop、hive、sredis、spark、Scala等

overfit同步小助手 2023-04-01 23:04:24 0 收藏