0


cube studio开源一站式机器学习平台:kubesphere部署cube-studio平台

全栈工程师开发手册 (作者:栾鹏)
** 一站式云原生机器学习平台**


前言

开源地址:https://github.com/data-infra/cube-studio

cube studio 开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深度学习,大模型 开发训练推理发布全链路。支持元数据管理,维表,指标,sqllab,数据etl等数据中台对接功能。支持多集群,边缘集群,serverless集群方式部署。支持计量计费,资源额度限制,支持vgpu,rdma,国产gpu,arm64架构。

aihub模型市场:支持AI hub模型市场,支持400+开源模型应用一键开发,一键微调,一键部署。

gpt大模型:支持40+开源大模型部署一键部署,支持ray,volcano,spark等分布式计算框架,支持tf,pytorch,mxnet,mpi,paddle,mindspre分布式多机多卡训练框架,支持deepspeed,colossalai,horovod分布式加速框架,支持llama chatglm baichuan qwen系列大模型微调。支持llama-factory 100+llm微调,支持大模型vllm推理加速,支持智能体私有知识库,智能机器人。

初始化机器环境(每台机器)

参考 install/kubernetes/rancher/install_docker.md安装docker

修改主机名

主机名不要有大写,保持小写主机名

  1. hostnamectl set-hostname [新主机名]
  1. # 安装基础依赖aptinstall-y socat conntrack ebtables ipset ipvsadm
  2. # 关闭firewalld服务
  3. systemctl stop firewalld
  4. systemctl disable firewalld
  5. # 禁用iptable
  6. systemctl stop iptables
  7. systemctl disable iptables
  8. # 禁用selinux#setenforce 1#echo "SELINUX=disabled" > /etc/selinux/config#临时关闭swap分区
  9. swapoff -a

搭建 k8s+kubesphere (主节点)

注意:机器最低规格为:8C16G ;kubectl 版本要1.24 ;之前安装过 KS 要提前清理下环境。

  • 下载 KubeKey
  1. exportKKZONE=cn
  2. curl-sfL https://get-kk.kubesphere.io |VERSION=v3.0.13 sh -
  3. chmod +x kk
  • 清理 kubeconfig,不然会导致其他 node 节点 无法使用 kubectl
  1. rm-rf /root/.kube/config
  • 安装 1.21 版本的 k8s

自定义部署最好不要启用servicemesh和monitoring

  1. export KKZONE=cn
  2. ./kk create cluster --with-kubernetes v1.21.10 --with-kubesphere v3.4.1

详细安装步骤可以参考 KubeSphere 官方文档

默认账号密码:admin/P@88w0rd

部署cube-studio(主节点)

将k8s集群的kubeconfig文件复制到install/kubernetes/config文件中,其中xx.xx.xx.xx为机器内网的ip(不是外网ip)

  1. # 在k8s worker机器上执行
  2. sh start-with-kubesphere.sh xx.xx.xx.xx

配置prometheus替换为kubesphere的

grafana中数据源地址替换为http://prometheus-k8s.kubesphere-monitoring-system.svc:9090

配置文件config.py中

PROMETHEUS 修改为 prometheus-k8s.kubesphere-monitoring-system:9090

卸载 KubeSphere 和 Kubernetes

  1. ./kk delete cluster

本文转载自: https://blog.csdn.net/luanpeng825485697/article/details/139931182
版权归原作者 腾讯AI架构师 所有, 如有侵权,请联系我们删除。

“cube studio开源一站式机器学习平台:kubesphere部署cube-studio平台”的评论:

还没有评论