0


AllData项目源码结构概述

1、机器学习算法平台ai-studio

MLOPS

-基于机器学习算法平台建设AllData

MLOPS

平台

2、AI算法应用市场ai-tasks

数据平台的人工智能引擎:AI算法驱动

1、数据准备

2、模型开发

  支持自定义与可视化模型开发

3、训练和超参数调节

4、模型服务

5、模型调整和理解

6、模型监控

7、模型管理

8、AI算法应用市场

3、alldata-k8s

基于Docker拉起大数据集群组件

1、配置/etc/hosts

10.0.12.4 namenode
10.0.12.4 resourcemanager
10.0.12.4 elasticsearch
10.0.12.4 kibana
10.0.12.4 prestodb
10.0.12.4 hbase-master
10.0.12.4 jobmanager
10.0.12.4 datanode
10.0.12.4 nodemanager
10.0.12.4 historyserver
10.0.12.4 hive-metastore
10.0.12.4 hive-metastore-pg
10.0.12.4 hive-server
10.0.12.4 zookeeper
10.0.12.4 kafka
10.0.12.4 elasticsearch
10.0.12.4 jobmanager
10.0.12.4 taskmanger
10.0.12.4 hbase-master
10.0.12.4 hbase-regionserver
10.0.12.4 hbase-thrift
10.0.12.4 hbase-stargate
10.0.12.4 alluxio-master
10.0.12.4 alluxio-worker
10.0.12.4 alluxio-proxy
10.0.12.4 filebeat

2、docker-compose up -d

3、访问hive

3.1 进入hive-metastore 9083
docker exec -it hive-metastore /bin/bash
3.2 进行hive客户端
hive --hiveconf hive.root.logger=INFO,console
4、页面访问

4、AllData整包编译安装部署assembly


> AllData整包编译安装部署

5、buried-trade

ALL DATA Double 微服务商城

启动配置教程

1、启动前,打包dubbo-service

执行mvn clean package -DskipTests=TRUE打包,然后执行mvn install.

2、启动dubbo项目,配置tomcat端口为8091

image

3、启动商城项目的多个子系统

后台:访问http://localhost:8090

前端:启动mall-admin-web项目,进入项目目录,执行npm install,然后执行npm run dev;

后端:启动mall-admin-search项目,

配置tomcat端口为8092,接着启动pcManage项目,tomcat端口配置为8093;

imageimage

前台:小程序手机预览,移动端访问:http://localhost:6255

4、小程序和移动端

前端:商城小程序,启动mall-shopping-wc项目,

安装微信开发者工具,配置开发者key和secret,

使用微信开发者工具导入即可,然后点击编译,可以手机预览使用。

image

5、商城移动端

mobile-h5, 进入项目目录,执行npm install和npm run dev

6、小程序和移动端用的是同一个后台服务,

启动mobileService项目,进入项目目录,配置tomcat端口8094

image

7、商城PC端 访问http://localhost:8099

前端:启动computer项目,

进入项目目录,执行npm install和npm run dev;

8、启动admin-service项目,配置tomcat端口为8095;

image

6、系统埋点buried

Logan 开源的是一整套日志体系

包括日志的收集存储,上报分析以及可视化展示。

我们提供了五个组件,包括端上日志收集存储 、iOS SDK、

Android SDK、

Web SDK,

后端日志存储分析 Server,

日志分析平台 LoganSite。

并且提供了一个 Flutter 插件Flutter 插件

buried-shop

ALL DATA 商城生态体系

1、采用lilishop开源项目作为数仓数据来源

2、前端支持mobile、小程序、android、ios

3、后台支持电商用户侧+商家侧管理系统

4、数据运营报表分析系统

演示地址
平台管理端:https://47.107.48.119:8870 账号:admin/123456

店铺管理端:https://47.107.48.119:8871 账号:13011111111/111111

商城PC页面:https://47.107.48.119:8873

7. crawler爬虫项目

1.1 直接http构造es查询,显示查询结果,提供web端查看

1.2 前端拼接hivesql,查询hive表数据

2. 爬虫系统

2.1 爬取数据后,走rabbitmq消息队列通信,数据文件爬取后上传到sftp,然后跑mapreduce任务创建hive表,上传到hdfs

2.2 定时调度爬虫系统

3. data-spider基本架构图

https://my-macro-oss.oss-cn-shenzhen.aliyuncs.com/mall/images/20200304/data-spider.png

4. 启动脚本

django搜索服务
source /usr/local/python-3.6.2/envs/scrapytest/bin/activate
cd /usr/local/scrapy/search
python3 manage.py runserver 0.0.0.0:8000

#启动scrapy后台服务
cd /usr/local/scrapy/spider
/usr/local/python-3.6.2/envs/scrapytest/bin/scrapyd &

#查看scrapyd
netstat -tlnp | grep 6800

#部署spider到scrapy
/usr/local/python-3.6.2/envs/scrapytest/bin/scrapyd-deploy Myploy -p ArticleSpider

#启动爬虫
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=zhihu
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=lagou
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=jobbole

8、CRAWLAB FOR ALL DATA PLATFORM 数据采集引擎

数据平台的人工智能引擎:

CRAWLAB

基于Golang的分布式爬虫管理平台

支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

9、数据集成引擎dts

AllData社区项目数据集成平台

基于Canal/Debezium/FlinkCDC的原理机制,设计开发CDC异常恢复程序,保障数据同步链路的可靠性和准确性

  • 一、监控canal/dbz的失活状态,触发DTalk告警
  • 二、获取Kafka Topic最新时间值的数据
  • 三、获取恢复数据-先统一获取mysql/oracle最大时间戳字段
  • 四、获取源表近[最新起始,最新起始+10s]的操作最新的数据

1、DataX

2、flink cdc

3、FlinkX

4、InLong

5、Canal

6、Debezium

10、govern

DATA GOVERN FOR ALL DATA PLATFORM 数据治理引擎

数据平台的数据治理:数据治理是一个大而全的治理体系。需要数据质量管理、元数据管理、主数据管理、模型管理管理、数据价值管理、
数据共享管理和数据安全管理等等模块是一个活的有机体。

1、数据质量: 依托Griffin平台,为您提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能:

开源方案: Apache Griffin + ES + SparkSql

2、元数据: 描述数据的数据,对数据及信息资源的描述性信息,例如字段元数据描述字段的类型、长度、默认值。 
发布:指将某一元数据发布为数据资产的动作。数据资产是指可以对外提供服务并且产生价值的数据。
表/字段血缘:即表/字段的来龙去脉,主要包含表/字段的来源、加工方式、映射关系及数据出口。血缘是元数据的一部分,
有利于数据变更影响分析以及数据问题排查。

开源方案: Apache Atlas + ES + Hbase + JanusGraph + Hive + Kafka

3、数据标准: 参考阿里的DataWorks,数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,
它描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
数据标准,也称数据元,由一组属性规定其定义、标识、表示和允许值的数据单元,是不可再分的最小数据单元。
您可以将数据标准关联到各个业务上的数据库中。
其中,标识符、数据类型、表示格式、值域是数据交换的基础,它们用于描述表的字段元信息,规范字段所存储的数据信息。

暂无事实性标准的开源方案:Mysql + SpringBoot

4、数据服务:参考阿里的DataWorks, 数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。
数据服务为您提供快速将数据表生成API的能力,同时支持您快速注册现有的API至数据服务平台,进行统一的管理和发布。
数据服务已经与API网关(API Gateway)连通,支持一键发布API服务至API网关。
数据服务与API网关为您提供了安全稳定、低成本、易上手的数据开放共享服务。
数据服务采用Serverless架构,您只需要关注API本身的查询逻辑,无需关心运行环境等基础设施,
数据服务会为您准备好计算资源,并支持弹性扩展,零运维成本。

开源方案:Apache Kong + Mysql + Lua + Postgresql + ES

11、knowledge

DATA AI FOR ALL DATA

知识图谱(Knowledge Graph)

12、lakehouse

DATABASES FOR ALL DATA PLATFORM 分布式存储引擎

数据平台的分布式存储引擎:存算分离譬如Kylin+Parquet 存算一体譬如CK

1、cassandra

2、clickhouse

3、drill

4、flinksql

5、greenplum

6、hql

7、kylin

8、memcached

9、mongodb

10、mysql

11、oracle

12、phoenix

13、presto

14、postgresql

15、redis

16、sparkSql

17、teradata

18、janusgraph

19、iceberg

20、hudi

13、olap

基于Calcite建设多引擎SQL解析路由系统

基于Kylin3.1.3 DataSourceSDK + Calcite进行开发

1、增加ClickHouseAdapter

2、基于Calcite进行语法词法解析

3、根据Calcite解析SQL进行规则路由

4、封装JDBC转发查询不同OLAP引擎

5、返回SQL查询结果

14、studio

AllData社区版

image

1、AllData输入

实时开发

Dlink

离线开发

FlinkX

数据治理

ElAdmin

湖仓一体

Dlink+CDC+Hudi

机器学习算法平台

cube-studio

数据集成

ElAdmin

数据中台

ElAdmin

大数据集群运维平台

Rancher

数据分析

Hive+Doris

实时同步

Dlink+FlinkCDC+Doris

任务调度

DolphinScheduler

运维中心

SREWorks

数仓建模

Doris

低代码引擎

lowcode-engine

墨刀产品原型

2、输出

MVP产品

设计文档

项目会议

3、补强

前端开发

产品设计

后端架构

云原生架构

大数据架构

UI设计

15、studio-tasks

BUSINESS FOR ALL DATA PLATFORM 计算引擎

数据平台的计算引擎:离线开发&实时开发

1、druid

2、flink

3、griffin

4、ksql

5、mapreduce

6、spark

7、spark streaming

8、storm

9、tez

标签: github 开源 大数据

本文转载自: https://blog.csdn.net/AllDataDC/article/details/128537780
版权归原作者 AllDataDC 所有, 如有侵权,请联系我们删除。

“AllData项目源码结构概述”的评论:

还没有评论