大数据 - overfit.cn

Hadoop01【尚硅谷】

笔记

overfit同步小助手 2023-04-06 10:03:48 0 收藏

Python【二手车价格预测案例】数据挖掘

Python二手车价格预测案例数据挖掘

overfit同步小助手 2023-04-06 10:02:10 0 收藏

hadoop 3.x大数据集群搭建系列4-安装Spark

hadoop大数据平台搭建之 Spark搭建Spark集群Spark standaloneSpark Yarn

overfit同步小助手 2023-04-06 09:04:40 0 收藏

Spark框架概述

定义：Apache Spark是用于处理的。弹性分布式数据集RDD是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也是整个Spark的核心数据结构，Spark整个平台都围绕着RDD进行。简而言之，Spark借鉴了MapReduce 思想发展而来，保留了其分布

overfit同步小助手 2023-04-06 09:04:28 0 收藏

Stream流使用方法总结

流是一种处理数据的高级手段，任何数据都可以转化成流进行处理。对Stream流来说，比较常见数据源有集合、数组、IO等。我们可以把流想象成一条流水线，流水线的源头是数据源，数据源中的每个元素是流的操作对象。数据源中的元素被依次输送到流水线上，然后我们就可以对这些流水线上的元素进行各种操作，一旦元素走到

overfit同步小助手 2023-04-06 09:04:15 0 收藏

电影知识图谱和基于模板的问答系统构建

参考目前网络上开源的医疗问答系统等项目，对基于neo4j的知识图谱构建及基于人为指定模板的问答系统构建进行了整理，笔者对代码进行了较为详尽的注释，供读者参考。

overfit同步小助手 2023-04-06 08:04:05 0 收藏

Ubuntu22.04 Hadoop3.3.4 jdk18.02 安装配置

overfit同步小助手 2023-04-06 08:03:57 0 收藏

大数据Flink进阶（十二）：Flink本地模式开启WebUI

在导入flink-runtime-web依赖之后最好重启开发工具，重新加载对应的依赖包，否则可能执行代码之后访问本地WebUI时出现"{"errors":["Not found: /"]}"错误，访问不到WebUI情况。在工作中我们一般使用IntelliJ IDEA开发工具进行代码开发，为了能方便快

overfit同步小助手 2023-04-06 07:06:02 0 收藏

元数据管理实践&数据血缘

元数据血缘技术调研想把整个链路的数据血缘打通，避免不了自己去针对某个链路进行数据解析和采集，所以必须选择一款扩展性强的产品首先应该搞清楚一个问题，我们究竟想要做成一个怎样的产品？是一个仅仅供内部使用，主要为了解决日常痛点，交互体验差一点也可以容忍？还是想做成一个成熟的，可以商业化的产品？具体的方案

overfit同步小助手 2023-04-06 07:04:16 0 收藏

虚拟机安装配置Hadoop（图文教程）

启动镜像 Init1.0检查是否安装 Hdoop 和 jdk。

overfit同步小助手 2023-04-06 07:04:08 0 收藏

【SQL Server】入门教程-基础篇(完结)

overfit同步小助手 2023-04-06 06:04:26 0 收藏

Kibana启动失败无法连接Elasticsearch的解决方法

报错内容log [07:36:42.870] [warning][savedobjects-service] Unable to connect to Elasticsearch. Error: [resource_already_exists_exception] index [. kiban

overfit同步小助手 2023-04-06 06:04:19 0 收藏

Python操作Excel文件：插入一列数据

问题描述：已有Excel文件，其中包含5列数据，要求在第3列前插入一列数据，保存为新文件。参考代码：运行结果：--------董付国老师Python系列教材--------1）《Pytho...

overfit同步小助手 2023-04-06 06:02:20 0 收藏

FlinkSQL总结(1.12)

FlinkSQL使用总结

overfit同步小助手 2023-04-06 05:04:11 0 收藏

大数据精准营销应用（一）

大数据精准营销第一部分------数据的处理

overfit同步小助手 2023-04-06 05:04:05 0 收藏

Hadoop-yarn-未授权访问漏洞

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，由于服务器直接在开放了 Hadoop 机器 HDFS 的 50070 web 端口及部分默认服务端口，黑客可以通过命令行操作多个目录下的数据，如进行删除，下载，目录浏览甚至命令执行等操作，产生极大的危害。

overfit同步小助手 2023-04-06 04:04:04 0 收藏

-bash: xsunc: 未找到命令如何解决？

在搭建Hadoop集群环境的时候，用到了同步即xsync 命令，写完脚本后又发现，执行过程中有问题，特此总结。问题情景1——未找到命令此类问题多半是因为 xsync 可执行文件没有被配置环境路径解决方法：输入代码：$PATH查看自己终端上的环境，主要有两种解决办法1.将xsync文件复制到查到的全

overfit同步小助手 2023-04-06 03:04:37 0 收藏

Hadoop安全认证

hadoop安全认证

overfit同步小助手 2023-04-06 02:08:01 0 收藏

Elasticsearch8.X入门实战（四）Kibana8.1安装

Kibana是一个开源的分析与可视化平台，用于和Elasticsearch一起使用。我们可以用Kibana搜索、查看、交互存放在Elasticsearch索引里的数据，并使用各种不同的图表、表格、地图等进行可视化查看。

overfit同步小助手 2023-04-06 02:04:26 0 收藏

Elasticsearch：如何正确处理 Elasticsearch 摄取管道故障

我将使用一个实际的例子来展示如何实现一个死信索引（dead letter index - DLI）来捕获在使用 Elasticsearch Ingest pipeline 时运行摄取管道时的一些错误。摄取管道的能力是 Elastic Stack 提供的最强大的工具之一，用于在 Elasticsear

overfit同步小助手 2023-04-06 02:04:10 0 收藏