大数据 - overfit.cn

毕设项目分享 python大数据房价预测与可视化系统

# 0 简介今天学长向大家介绍一个适合作为毕设的项目毕设分享 python大数据房价预测与可视化系统项目获取：https://gitee.com/assistant-a/project-sharing对于数据挖掘工程师来说，有时候需要抓取地理位置信息，比如统计房子周边基础设施信息，比如医院、公交车站

overfit同步小助手 2024-04-11 04:03:41 0 收藏

今天来认识一下无聊的spark和scala基础理知识

Spark 应用程序计算的整个过程可以调用不同的组件，如 Spark Streaming 的实时流处理应用、SparkSQL的即席查询、BlinkDB 的权衡查询、MLlib/MLBase 的机器学习、GraphX的图处理和SparkR的数学计算等。Scala 是一种纯粹的面向对象的语言，每个值都是

overfit同步小助手 2024-04-11 04:03:26 0 收藏

hive-sql查询结果保留小数点两位小数

overfit同步小助手 2024-04-11 04:03:15 0 收藏

大数据在社交媒体行业的影响

1.背景介绍社交媒体是当今互联网行业中最快速发展的领域之一。随着互联网的普及和人们生活中的网络化程度的不断提高，社交媒体已经成为了人们日常生活中不可或缺的一部分。社交媒体平台为用户提供了一种方便、实时、互动的沟通方式，让人们可以轻松地与家人、朋友、同事等人保持联系，分享自己的生活体验和想法。然而，随

overfit同步小助手 2024-04-11 03:03:47 0 收藏

Rabbitmq杂记

里面有个脚本直接复制就可以其他不用看。

overfit同步小助手 2024-04-11 03:03:40 0 收藏

Flink 架构深度解析

它通过高效的事件处理模型、强大的状态管理和灵活的部署选项，为实时数据分析提供了一个可靠和高效的平台。- **作业调度**：接收提交的作业，将作业的 JobGraph 转换为 ExecutionGraph，并调度任务到 TaskManager 上执行。- **高吞吐量和低延迟**：Flink 的事件驱

overfit同步小助手 2024-04-11 03:03:28 0 收藏

云计算与大数据笔记之Spark【重点：流水线机制】

Spark的设计遵循“一个软件栈满足不同应用场景既能够提供内存计算框架，也可以支持SQL即时查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案。因此，Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理。

overfit同步小助手 2024-04-11 03:03:09 0 收藏

每日五道java面试题之ZooKeeper篇（一）

（4）watcher event 异步发送 watcher 的通知事件从 server 发送到 client 是异步的，这就存在一个问题，不同的客户端和服务器之间通过 socket 进行通信，由于网络延迟或其他因素导致客户端在不通的时刻监听到事件，由于Zookeeper 本身提供了 ordering

overfit同步小助手 2024-04-11 01:03:36 0 收藏

大数据的应用与成果

1.背景介绍大数据是指由于互联网、移动互联网、社交网络、物联网等信息技术的发展而产生的数据量巨大、数据类型多样、数据流动性高的数据集合。大数据的特点是五个V：Volume(数据量)、Velocity(数据速度)、Variety(数据类型)、Veracity(数据可靠性)和Value(数据价值)。大数

overfit同步小助手 2024-04-11 00:03:49 0 收藏

Hadoop平台搭建（一）

Hadoop平台的搭建需要一个主节点，多个副节点。在centos7中创建主机Master后，克隆主机为slave1与slave2，为保证从Hadoop平台的稳定选择完整克隆。克隆机slave1、slave2后的主机名依旧是Master，所以要修改主机名。由于slave1为Master的克隆机故uui

overfit同步小助手 2024-04-11 00:03:22 0 收藏

Spark SQL

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。

overfit同步小助手 2024-04-10 20:11:53 0 收藏

kafka 可视化工具

平时我们几乎都是查询topics 和 consumer 比较多，选择topics选项卡，右边就会显示kafka当前所拥有的topic，要查看某个 topic里面的消息，直接点击相应topic就能进到相应页面。删除topic，删除消费者组，查看消费者组，查询消息所属partition等等。随着科技发展

overfit同步小助手 2024-04-10 19:03:39 0 收藏

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令的解决方法

overfit同步小助手 2024-04-10 18:03:55 0 收藏

大数据分析设计-基于Hadoop运动项目推荐系统

一、项目介绍随着生活水平的提高,人们的健康意识越来越强。但是目前人们日常运动持续性还是比较差，为了改变这一现状。我们研究设计了基于Hadoop的运动推荐项目系统。系统通过统计分析用户运动信息，获取大众用户的运动习惯，设计人们感兴趣的运动模式，以提高人们的运动积极性。系统包含了体育项目信息、项目分类、

overfit同步小助手 2024-04-10 18:03:52 0 收藏

毕业设计大数据二手房数据爬取与分析可视化

*毕设帮助, 选题指导, 项目分享: **

overfit同步小助手 2024-04-10 18:03:43 0 收藏

（十七）大数据实战——Hive的hiveserver2服务安装部署

HiveServer2 是 Apache Hive 的一个服务器端组件，用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odbc接口，为用户提供远程访问Hive数据的功能。HiveServer2 允许多个客户端同时连接并与 Hive 交互。这些客户端可

overfit同步小助手 2024-04-10 18:03:39 0 收藏

Kafka服务端高性能技术细节原理：基于零拷贝的mmap和sendfile

Kafka 的生产者将消息数据写入一个底层的 Socket 输出流中，并调用 sendfile 系统调用来将数据发送给消费者。由于 sendfile 可以直接将文件内容发送到网络输出流中，因此它避免了不必要的内存拷贝和数据复制，提高了数据传输效率。sendfile 是一个系统调用，它可以将文件内容直

overfit同步小助手 2024-04-10 17:03:26 0 收藏

Hadoop在ubuntu虚拟机上的伪分布式部署|保姆级教程

2.经后续测试发现问题，虽然已经为ubuntu系统设置了java的环境变量，但hadoop实际运行时仍会出现找不到java-jdk的现象，故再对hadoop的环境文件进行修改，此外，该文件还包括启动参数、日志、pid文件目录等信息。Hadoop和与之相关的很多工具都是通过java语言编写的，并且很多

overfit同步小助手 2024-04-10 16:03:51 0 收藏

【大数据存储】实验六：Hive

Hive

overfit同步小助手 2024-04-10 16:03:48 0 收藏

IDEA软件中Scala配置安装教程（Spark计算环境搭建）

在com.atguigu.bigdata.spark.core 创建Scala class，命名为：Test ，选择object。在Java创建 new package，命名为：com.atguigu.bigdata.spark.core。print（“hello world”）进行验证，之后进行运

overfit同步小助手 2024-04-10 16:03:42 0 收藏