大数据-220 离线数仓 - 数仓基本概念 数仓特征 与数据库进行对比
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。数据仓库中的数据是分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,数据仓库中的数据会从多个数据源中获取,这些数据源包括多种类型数据库
图数据库| 2 、大数据的演进和数据库的进阶——从数据到大数据、快数据,再到深数据
时至今日,大数据已无处不在,所有行业都在经受大数据的洗礼。但同时我们也发现,不同于传统关系型数据库的表模型,现实世界是非常丰富、高维且相互关联的。此外,我们一旦理解了大数据的演进历程以及对数据库进阶的强需求,就会真正理解为什么“图”无处不在,以及为什么它会具有可持续的竞争优势,并最终成为新一代主流数
大数据-222 离线数仓 - 数仓 数仓模型 事实表 维度表 雪花模型 事实星座 元数据
但是它们之间也有着不同,周期快照事实记录的确定的周期的数据,而积累快照事实记录的不确定的周期的数据。事实数据通常包含大量的行,事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,事实表的粒度决定了数据仓库中数据的详细程度。在大数据平台中,元数据贯穿大数
通过MongoDB Atlas 实现语义搜索与 RAG——迈向AI的搜索机制
MongoDB Atlas 的向量搜索功能为语义搜索和 RAG 提供了一个高效的数据库管理平台。在这个全新的应用场景下,Atlas 的向量检索能力支持开发者实现高效的知识检索和增强型生成应用,使其在智能客服、知识问答、个性化推荐等场景中大放异彩。结合生成式模型的 RAG 应用,MongoDB Atl
大数据-213 数据挖掘 机器学习理论 - KMeans Python 实现 距离计算函数 质心函数 聚类函数
我们需要定义一个两个长度相等的数组之间欧式距离计算函数,在不直接应用计算结果,只比较距离远近的情况下,我们可以用距离平方和代替距离进行比较,化简开平方运算,从而减少函数计算量。此外需要说明的是,涉及到距离计算的,一定要注意量纲的统一。在定义随机质心生成函数时,首先需要计算每列数值的范围,然后从该范围
数据分析工具julius ai如何使用
虽然openai也支持生成图表,但是julius ai这类专门用于数据分析的工具,可以支持更加复制一些的数据处理功能,准确率也更高。但是这些软件也是基于llm+agent的模型,一款工具也不是万能的。大多数大模型只支持python语言,支持r语言的ai数据分析工具还不多。julius ai就支持py
大数据-209 数据挖掘 机器学习理论 - 梯度下降 梯度下降算法调优
上节我们完成了如下的内容:分类技术是机器学习和数据挖掘应用中的重要组成部分,在数据学科中,约70%的问题属于分类问题。解决分类的算法也有很多,如:KNN,使距离计算来实现分类;决策树,通过构建直观易懂的树来实现分类。这里我们要展开的是Logistic回归,它是一种很常见的用来解决二元分类问题的回归方
大数据-211 数据挖掘 机器学习理论 - 逻辑回归 scikit-learn 实现 max_iter 分类方式选参数
因此,如果在max_iter红条的情况下,模型的训练和预测效果都已经不错了,那我们就不需要再增大max_iter中的数目了,毕竟一切都以模型的预测效果为基准,只要模型预测的效果好,运行又快,那就一切都好。如果模型有 T 类,我们每次在所有的 T 类样本里面选择两类样本出来,不防记为 T1 和 T2,
大数据-216 数据挖掘 机器学习理论 - KMeans 基于轮廓系数来选择 n_clusters
有时间,当我们 n_cluster 选择不符合数据的自然分布,或者我们为了业务需求,必须要填入与数据的自然分布不合的 n_cluster,提前让迭代停下来反而能够提升模型的表现。初始质心放置的位置不同,聚类的结果很可能也会不一样,一个好的质心选择可以让 KMeans 避免更多的计算,让算法收敛稳定且
【NVIDIA NIM 黑客松训练营】基于NVIDIA NIM 平台提供的免费GPU和AI大模型能力实现数据分析问答系统
NVIDIA提供了免费的GPU和AI算力,旨在向各大公司及开发者推广自己的AI能力,开发者首次体验会免费提供1000个Credits left和至少个大模型[“mistralai/mistral-7b-instruct-v0.2”, “meta/llama-3.1-405b-instruct”]。由
2024 年(第 7 届)“泰迪杯”数据分析技能赛A 题 自动化生产线数据分析 完整代码结果分享
一、背景随着信息技术的快速发展,工业自动化领域的智能控制系统日益完善。自动化生产线能够独立完成从物料输送到元件抓取,再到产品安装和质量检验的各个环节,这不仅极大提升了制造效率和产品质量,也有效降低了生产成本。为了使企业的管理层和工程技术人员及时掌握生产线的运行状况和潜在问题,需要对生产线产生的数据进
大数据-205 数据挖掘 机器学习理论 - 线性回归 最小二乘法 多元线性
在正式进入到回归分析的相关算法讨论之前,我们需要对监督学习算法中的回归问题进一步进行分析和理解。虽然回归问题同属于有监督的学习范畴,但实际上,回归问题要远比分类问题更加复杂。首先关于输出结果的对比,分类模型最终输出结果为离散变量,而离散变量本身包含信息量较少,其本身并不具备代数运算性质,因此其评价指
大数据-210 数据挖掘 机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver
但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数,LogisticRegression默认带了正则化项,penalty参数可选择的值有1和2,分别对
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大家可以发现,我们的 Intertia 是基于欧几里得距离的计算公式得来的。第六次迭代之后,基本上质心的位置就不会再改变了,生成的簇也变得稳定,此时我们的聚类就完成了,我们可以明显看出,K-Means 按照数据的分布,将数据聚集成了我们规定的 4 类,接下来我们就可以按照我们的业务求或者算法需求,对
大数据-207 数据挖掘 机器学习理论 - 多重共线性 矩阵满秩 线性回归算法
这种高度相关关系下,矩阵的行列式不为 0,但是一个非常接近 0 数,矩阵 A 的逆存在,不过接近于无限大。矩阵 A 中第一行和第三行的关系,被称为:精确相关关系,即完全相关,一行可使另一行为 0,在这种精确相关关系下,矩阵 A 的行列式为 0,则矩阵 A 的逆不可能存在。相对的,矩阵 C 的行之间结
大数据-206 数据挖掘 机器学习理论 - 多元线性回归 回归算法实现 算法评估指标
这里需要注意的是,当使用矩阵分解来求解多元线性回归方程时,必须添加一列全为 1 的列,用于表征线性方程截距W0。其中 m 为数据集样例个数,以及 RMSE 误差的均方根,为 MSE 开平方后所得结果。在回归分析中,SSR 表示聚类中类似的组间平方和概念,译为:Sum of squares of th
大数据-201 数据挖掘 机器学习理论 - 决策树 局部最优 剪枝 分裂 二叉分裂
而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分,当然也可以根据实际需求适当调整划分比例,但无论如何,测试集和验证集数据量都不宜过多也不宜过少,该二者数据集数据均不参与建模,若占比太多,则会对模型的构建过程造成较大的影响(欠拟合),而若划分数据过少,训练集数据量较大,则又可能造成过
第三章 关键技术--数据仓库
量化交易系统
fastMNN|手把手教你理解和实现单细胞批次效应校正方法
fastMNN是MNN的升级版,主要改动是fastMNN采用PCA降维之后的低维空间计算细胞之间的距离,而MNN直接使用原始表达矩阵计算细胞之间的距离,因此分析速度会更快。MNN使用假设:(i)至少有一个细胞群同时存在于两个批次中,(ii)批次效应几乎与生物子空间正交,(iii)批次效应变化远小于不
大数据-203 数据挖掘 机器学习理论 - 决策树 sklearn 剪枝参数 样本不均匀问题
剪枝参数一定能够提升模型在测试集上的表现吗?调参是没有绝对的答案的,一切都需要看数据的本身。无论如何,剪枝参数的默认值会让树无尽的生长,这些树在某些数据集上可能非常巨大,对内存的消耗也非常巨大。属性是模型训练之后,能够调用查看的模型的各种性质,对决策树来说,最重要的是 feature_importa