K-means算法小结

it2023-11-01  69

1. K-means算法回顾

      k-means算法是一种无监督的聚类算法。其算法思想比较简单,就是对于给定的样本集,根据样本之间的距离,讲样本集划分为k个簇。并且希望结果中,簇内的点尽量紧密的连在一起,簇间的距离尽量大。

2. K-means算法优缺点

      优点

原理简单,容易实现有较强的可解释度

      缺点

K值选取不好把握 可以多尝试几个K值,看分成几类的结果更好解释,更符合分析目的。也可以把各种K值算出的SSE做比较,取最小的SSE的K值。容易陷入局部最优 可以通过二分k-means来优化对环状数据分布聚类效果差

数据集一旦太大,收敛就会比较慢

3. K-means与KNN对比

K-means与KNN虽然名字里都有k,但是两者差别较大:

k-meanskNN无监督学习的聚类算法监督学习的分类算法算法思想:“物以类聚,人以群分”算法思想:“近朱者赤,近墨者黑”数据集是带标签的数据数据集是无标签的数据k的含义:对一个未知样本x分类,从数据集中,在x附近找离它最近的K个数据点,这K个数据点,哪个类别的数量多,就把k归于哪一类k的含义:K是用户指定的,表示希望将数据集划分成几个簇有明显的的训练过程基本无需训练

K-means与KNN虽然差别大,但也有相似的地方。两个算法都有一个共同的过程:找和某一个点距离最近的点。

最新回复(0)