聚类

2023-02-02 机器学习

2023 年 4 月 17 号，中间浪费了两个月的时间，一个东西要彻底搞懂

讲座

物以类聚人以群分：聚类分析的一些挑战和进展

报告嘉宾：彭玺 (四川大学)

报告题目：深度聚类：从“模态非完全对齐聚类”到“对比聚类”

个人主页：http://www.pengxi.me

报告时间：2021年01月27日(星期三)晚上20:00(北京时间)

报告地址：http://valser.org/article-401-1.html

视频回放地址：https://www.bilibili.com/video/BV1Ny4y127v6

报告嘉宾：刘新旺 (国防科技大学)

报告题目：一种简单有效的多核聚类算法

个人主页：https://xinwangliu.github.io/

报告时间：2021年01月27日(星期三)晚上20:30(北京时间)

报告地址：http://valser.org/article-401-1.html

视频回放地址：https://www.bilibili.com/video/BV1dU4y1s7Q4

Panel 嘉宾：

聂飞平 (西北工业大学) 个人主页：https://teacher.nwpu.edu.cn/niefeiping.htm

白亮 (山西大学) 个人主页：http://cs.sxu.edu.cn/faculty/associate_professor/3991/index.htm

张长青 (天津大学) 个人主页：http://cic.tju.edu.cn/faculty/zhangchangqing/index.html

Panel主持人：韩琥 (中国科学院计算技术研究所)

报告主题：物以类聚人以群分：聚类分析的一些挑战和进展

报告时间：2021年01月27日(星期三)晚上20:00(北京时间)

报告地址：http://valser.org/article-401-1.html

视频回放地址：https://www.bilibili.com/video/BV1dU4y1s7mN

Panel议题：

聚类分析有什么杀手锏应用吗？
聚类分析的核心科学问题是什么？
当前聚类分析更多受益于无监督/自监督表示学习的进展，如何避免聚类的研究和无监督/自监督表示学习的同质化？
端到端聚类对表示学习和聚类进行联合学习，通过表示学习得到更好的聚类，通过聚类提升表示学习能力，有专家认为端到端聚类聚类对初值敏感，那有必要进行端到端聚类吗？

深度学习聚类

【超详细】深度聚类_深度神经网络聚类

Kernel K-means

所以kernel到底是什么_哔哩哔哩_bilibili
cs229-notes3.pdf (stanford.edu)

根据聚类方法的实现方式和算法思想，聚类算法可以分为以下几类：

划分聚类算法（Partitioning Clustering Algorithm）：该算法通过将数据点划分为不同的簇来进行聚类。K-means算法是最常用的划分聚类算法之一。该算法根据距离度量将数据点分配到最近的聚类中心，并通过迭代更新聚类中心以最小化簇内的误差平方和。K-means算法具有简单易用、可解释性好、计算速度快等优点，但需要提前指定聚类数目k，对初始聚类中心的选择敏感，容易陷入局部最优解。
层次聚类算法（Hierarchical Clustering Algorithm）：该算法将数据点逐步合并成越来越大的簇，直到所有数据点都被合并成一个簇或达到预设的聚类数目。层次聚类算法又分为凝聚型和分裂型两种方法。凝聚型层次聚类算法从单个数据点开始，逐步合并最近的两个簇，直到所有数据点都被合并成一个簇。分裂型层次聚类算法则从一个大簇开始，逐步将其分成更小的子簇，直到达到预设的聚类数目。层次聚类算法具有不需要指定聚类数目、聚类结果可视化、灵活性好等优点，但计算复杂度高，对噪声数据敏感，容易形成不平衡的簇。
密度聚类算法（Density-Based Clustering Algorithm）：该算法将聚类看做是数据点周围密度较高的区域，通过密度高于阈值的点构成的簇来实现聚类。DBSCAN算法是最常用的密度聚类算法之一。该算法通过定义数据点的邻域和核心点的概念来判断数据点是否属于一个簇，并将核心点和可达点连接成一个簇。密度聚类算法具有对噪声数据不敏感、能够发现任意形状的簇等优点，但对密度参数的选择敏感，容易受到数据分布的影响。
模型聚类算法（Model-Based Clustering Algorithm）：该算法将聚类看做是生成数据的概率分布模型，通过对数据分布的拟合来进行聚类。高斯混合模型（Gaussian Mixture Model）是最常用的模型聚类算法之一

2023 年 2 月 2 号

层次聚类

K-Means

Visualizing K-Means Clustering (naftaliharris.com)

k-means 初始值是影响很大的，所以要很多值取平均值，每一次的簇都不一样，对初始值很敏感，所以一开始要取很多的初始值，最终不断取平均值

DBSCAN

Visualizing DBSCAN Clustering (naftaliharris.com)

核心点：我们首先定义一个阈值 minpoints=4 密度阈值; 以一个点为半径画圆圈，如果该圆圈里的点大于等于我们设置的阈值，那么这点就是核心点
半径大：会把某些离群点包进去
所以这个算法对于做异常分析和离群点的分析
密度阈值一般取得小一点，多次尝试

【无监督学习】DBSCAN聚类算法原理介绍，以及代码实现 (tencent.com)

机器学习之聚类算法(一:聚类概述和相似度计算)1,2型糖尿病相似度计算怎么选

链接

page PV: ・ site PV: ・ site UV: