聚类 - overfit.cn

Flash-KMeans：快速且内存高效的精确 K-Means，可在单张 GPU 进行亿级数据的聚类

本文介绍 Flash-KMeans是一个近期提出的框架，它受 Flash（最小化数据移动）的启发，论文给出了一种执行精确 K-Means 的方案，速度更快内存效率也远优于 FAISS 等行业标准实现

Deephub 2026-06-15 20:55:39 0 收藏

聚类分析算法——层次聚类详解

层次聚类（Hierarchical Clustering）是一种无监督的机器学习方法，通过递归地对数据进行合并（或拆分），构建一个类似树的聚类结构，称为“树状图”（Dendrogram）。该算法通常用于探索数据的层次结构。根据聚类方向的不同，层次聚类可以分为“自底向上”（凝聚式聚类）和“自顶向下”（

overfit同步小助手 2024-12-04 14:03:35 0 收藏

使用 DBSCAN（基于密度的聚类算法）对二维数据进行聚类分析

使用 make_moons 方法生成一个非线性分布的二维数据集，模拟月亮形状的两个半环形分布，同时添加一定的噪声。

overfit同步小助手 2024-11-26 08:05:14 0 收藏

从0开始学习机器学习--Day26--聚类算法

如图，可以看到两者的区别在于无监督学习的样本是没有标签的，换言之就是无监督学习不会赋予主观上的判断，需要算法自己去探寻区别，第二张图就是算法经过计算根据位置特点给两组样本划分开来，尽管算法并不知道这种特点意味着什么，这种按照特点分成一组或几组簇的算法叫聚类算法。一般来说，我们选择的迭代次数在50到1

overfit同步小助手 2024-11-24 03:06:00 0 收藏

怎么通过聚类分析进行客户画像精准营销？

需注意，这只是一个简单的示例，实际情况中数据集的特征可能更多样，需要更深入地分析和理解客户行为，以制定更有效的营销策略。例如，一家银行根据客户的存款金额、贷款情况、信用卡消费等指标，使用 K-Means 聚类算法将客户分为高价值客户、潜在高价值客户、普通客户等群组。总之，通过聚类分析进行客户画像精准

overfit同步小助手 2024-08-26 11:03:50 0 收藏

论文精要：《对静态分析缺陷报告进行聚类，以降低维护成本》

静态分析工具通过自动识别源代码中的错误来促进软件维护。但是，对于大型系统，这些工具通常会生成大量的缺陷报告，其中许多缺陷报告在概念上是相似的。单独处理缺陷会花费开发人员的工作量，并增加维护负担。建议对生成的缺陷报告进行聚类，以便可以对类似的错误进行分类，并可能一起修复。论文的方法利用静态错误报告中可

overfit同步小助手 2024-08-19 15:01:38 0 收藏

从零入手人工智能（6）—— 聚类

在远古时代，人类就使用聚类算法将不同的物种进行分类，他们会把温和的食草动物归类为“安全动物”，会把长了4条腿的大型食肉猫科动物划分为“危险动物”。同时他们会把这个不同类型动物的特征告诉给他们的后代，后代会根据这些特征标签来对看到的动物进行分类，判断该动物是否存在危险。

overfit同步小助手 2024-08-18 18:01:21 0 收藏

【机器学习】基于密度的聚类算法：DBSCAN详解

在数据科学和机器学习领域中，聚类是一种常见的无监督学习技术，用于发现数据集中的自然分组或结构。传统的聚类算法，如K-means，依赖于预定义的簇数量和球形簇假设，这限制了它们在复杂数据集上的表现。相比之下，基于密度的聚类算法，尤其是DBSCAN（Density-Based Spatial Clust

overfit同步小助手 2024-08-07 20:01:46 0 收藏

新闻聚类和新闻分类hadoop+spark（燕山大学大数据三级项目）

由于上传到csdn结构比较混乱，可以进我的主页查看相应的资源，可以下载【免费】新闻聚类+新闻分类（hadoop+spark+scala）资源-CSDN文库AbstractThis project aims at using Bayesian classification algorithm and

overfit同步小助手 2024-07-03 07:03:51 0 收藏

【人工智能Ⅰ】实验8：DBSCAN聚类实验

此处使用【sklearn】库中的DBSCAN封装包进行调用，选定初始参数eps = 0.5（领域的半径）、min_samples = 3（领域内最少包括的同类数据个数），采用fit方法进行模型训练，最后得到训练标签为【dbscan_sepal.labels_】和【dbscan_petal.label

overfit同步小助手 2024-06-21 04:01:47 0 收藏

机器学习(V)--无监督学习(一)聚类

根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能分开。

overfit同步小助手 2024-06-21 01:06:37 0 收藏

利用AI大模型进行文本分类和聚类

1.背景介绍1. 背景介绍文本分类和聚类是自然语言处理(NLP)领域中的重要任务，它们在各种应用场景中发挥着重要作用，如垃圾邮件过滤、新闻分类、文本摘要等。随着AI技术的发展，大模型在文本分类和聚类方面取得了显著的进展。本文将从以下几个方面进行阐述：核心概念与联系核心算法原理和具体操作步骤数学模型公

overfit同步小助手 2024-06-20 21:01:16 0 收藏

人工智能|机器学习——Canopy聚类算法（密度聚类）

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值T1 > T2 处理。Canopy聚类很少单独使用，一般是作为k-means前不知道要指定k为何值的时候，用Canopy聚类来判断k的取值。

overfit同步小助手 2024-05-31 02:01:32 0 收藏

AI - 聚类算法

通过计算不同k值下的簇内误差平方和（SSE），并绘制成图，可以找到曲线的“肘部”，即最佳的k值。其中，( C_{i} ) 是第 ( i ) 个簇，( p ) 是 ( C_{i} ) 中的样本点，( m_{i} ) 是 ( C_{i} ) 的质心（即 ( C_{i} ) 中所有样本的均值）对于簇中的每

overfit同步小助手 2024-03-20 19:01:19 0 收藏

聚类算法（下）：10个聚类算法的评价指标

在聚类算法中，评估聚类结果的好坏是非常重要的。Rand Index：用于衡量聚类结果和真实标签之间的相似度。Adjusted Rand Score：Rand Index的调整版本，可以对随机结果进行惩罚。Mutual Information Score（基于互信息的分数）：衡量聚类结果和真实标签之间

overfit同步小助手 2024-01-23 06:01:36 0 收藏

【完整思路】2023 年中国高校大数据挑战赛赛题 B DNA 存储中的序列聚类与比对

完整的思路分析可视化，免费获取～

overfit同步小助手 2024-01-06 13:03:26 0 收藏

结合PCA降维的DBSCAN聚类方法（附Python代码）

PCA，全称，即主成分分析。是一种降维方法，实现途径是提取特征的主要成分，从而在保留主要特征的情况下，将高维数据压缩到低维空间。在经过PCA处理后得到的低维数据，其实是原本的高维特征数据在某一低维平面上的投影只要维度较低，都可以视为平面，例如三维相对于四维空间也可以视为一个平面）。虽然降维的数据能够

overfit同步小助手 2024-01-06 01:01:37 0 收藏

数据挖掘聚类度量

【代码】数据挖掘聚类度量。

overfit同步小助手 2023-12-31 08:06:07 0 收藏

数据挖掘--（实验四）聚类方法

数据挖掘聚类方法

overfit同步小助手 2023-12-25 16:01:29 0 收藏

【人工智能Ⅰ】实验7：K-means聚类实验

通过任务2中的对比图可知，原来的标签与聚类结果的标签所对应的关系如下表所示。其中，Original Sepal Data对应原始花萼数据，Sepal Clustering Overlay对应聚类后的花萼数据，Original Petal Data对应原始花瓣数据，Petal Clustering O

overfit同步小助手 2023-12-24 10:01:17 0 收藏