机器学习2k-means聚类

it2023-08-14 101

K-means聚类

1、k-means：工作原理2、k-means代码实现：3、k-means sklearn代码的实现：4、效果的评估：总结：

1、k-means：工作原理

k-means一种基于形心的技术，k-means算法把簇的形心（质心）定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩下的每隔对象，根据其余各个簇中心的欧式距离，将它分配到最相似的簇。然后，k-means 算法迭代地改善簇内变差。对于每隔簇，它使用上次迭代分配到该簇的对象。计算新的均值，然后，使用更新后的均值作为新的簇中心，重新分配所有的对象。迭代继续，知道分配稳定，即本轮形成的簇与前一轮形成的簇相同。k-means过程如下：

方法：

确定要将数据聚合成几类，参数k从数据当中，随机的选择k个点，称为聚类中心点计算所有其他点，到这三个点的距离。然后找出离每个数据点最近的中心点。就将该点划分到这个中心点所代表的的簇当中去。所有点都会被划分到k个簇当中去。重新计算K个簇的质心，作为下一次聚类的中心点重复上面的3-5步的过程，重新进行聚类停止条件，第一个：当重新聚类后，所有样本点归属类别都没有发生变化的时候。

2、k-means代码实现：

1、计算欧氏距离

def euclDistance(vector1, vector2): return np.sqrt(sum((vector2 - vector1) ** 2)) 2、初始化质心

def initCentroids(data, k): numSamples, dim = data.shape # k个质心，列数跟样本的列数一样 centroids = np.zeros((k, dim)) # 随机选出k个质心 for i in range(k): # 随机选取一个样本的索引 index = int(np.random.uniform(0, numSamples)) # 作为初始化的质心 centroids[i, :] = data[index, :] return centroids

3、算法实现过程

#传入数据集和k值 def kmeans(data, k): # 计算样本个数 numSamples = data.shape[0] # 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差 clusterData = np.array(np.zeros((numSamples, 2))) # 决定质心是否要改变的质量 clusterChanged = True # 初始化质心 centroids = initCentroids(data, k) while clusterChanged: clusterChanged = False # 循环每一个样本 for i in range(numSamples): # 最小距离 minDist = 100000.0 # 定义样本所属的簇 minIndex = 0 # 循环计算每一个质心与该样本的距离 for j in range(k): # 循环每一个质心和样本，计算距离 distance = euclDistance(centroids[j, :], data[i, :]) # 如果计算的距离小于最小距离，则更新最小距离 if distance < minDist: minDist = distance # 更新最小距离 clusterData[i, 1] = minDist # 更新样本所属的簇 minIndex = j # 如果样本的所属的簇发生了变化 if clusterData[i, 0] != minIndex: # 质心要重新计算 clusterChanged = True # 更新样本的簇 clusterData[i, 0] = minIndex # 更新质心 for j in range(k): # 获取第j个簇所有的样本所在的索引 cluster_index = np.nonzero(clusterData[:, 0] == j) # 第j个簇所有的样本点 pointsInCluster = data[cluster_index] # 计算质心 centroids[j, :] = np.mean(pointsInCluster, axis=0) return centroids, clusterData

上诉代码链接来源于：https://blog.csdn.net/qq_30377909/article/details/94596305

3、k-means sklearn代码的实现：

sklearn.cluster.KMeans n_clusters:int, default=8 聚类的组数, 也就是k值.

init: {‘k-means++’, ‘random’, ndarray, callable}, default=’k-means++’

k-means++就是一种选择初始聚类中心点的算法.

n_init: int, default=10 以不同的随机数种子, 重复执行10次, 然后选择出其中最好的结果.

max_iter:int, default=300 最大迭代次数

tol:float, default=1e-4 如果两次迭代中, 聚类中心点的变化, 达不到这个值的大小, 则停止.

random_state: 随机数种子

Attributes属性:

cluster_centers_: 聚类中心点.

labels_: 每个点对应的标签.

inertia_: 组内距离平方和, 用于衡量聚类效果.

n_iter_: 迭代次数

#导包 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from sklearn.cluster import KMeans # 一共生成1000个数据, 分成四组, # 每组数据有两个特征 # 中心点分别是 -1-1, 00, 11, 22 # 标准差分别是 0.4, 0.2, 0.2, 0.2 X, y = make_blobs(n_samples=1000,n_features=2, centers=[ [-1, -1], [0, 0], [1, 1], [2, 2] ] , cluster_std=[0.4, 0.2, 0.2, 0.2], random_state=666, shuffle=True) # 实例化模型 kmeans = KMeans(n_clusters=2,random_state=666) # 模型训练 kmeans.fit(X) # 聚类结果 kmeans.labels_ kmeans.n_iter_ # 迭代次数 kmeans.inertia_#查看组内平方和 #可视化聚类对象 plt.figure(dpi = 200) plt.scatter(X[:,0],X[:,1] , c = kmeans.labels_,cmap = "rainbow") plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],c="red", s = 100)

4、效果的评估：

如何评估k个分类中心呢？从前面我们的到k-means聚类实则就是使得簇内距离达到最小（组内离差平方和）簇间(组间离差平方和)距离越大。而这个参数inertia_ 使得这个组内离差平方和最小。接下来我们来绘制这个参数与K的学习曲线图： kmeans_inertia = [] for k in range(2,8): kmeans = KMeans(n_clusters=k,random_state=666) # 模型训练 kmeans.fit(X) kmeans_inertia.append(kmeans.inertia_) plt.figure(dpi = 150) plt.plot(range(2,8),kmeans_inertia) plt.xlabel(‘k_value’) plt.ylabel(‘inertia’) 这时我们发现了一个问题，innertia与K这个值不是太好确定，因为innertia它能最小取到0，它没有一个限制的条件，但是对于我们来说，如果取0，那就毫无意义了。这时我们可以采用轮廓系数来评估模型的性能及k的选值。轮廓系数：计算公式：

针对样本空间中的一个特定样本，计算它与所在聚类其它样本的平均距离a，以及该样本与距离最近的另一个聚类中所有样本的平均距离b，该样本的轮廓系数为(b-a)/max(a, b)，将整个样本空间中所有样本的轮廓系数取算数平均值，作为聚类划分的性能指标s。轮廓系数的区间为：[-1, 1]。 -1代表分类效果差，1代表分类效果好。0代表聚类重叠，没有很好的划分聚类。

接下来我们使用轮廓系数与k值的选值做学习曲线

from sklearn.metrics import silhouette_score sil_scores = [] for k in range(2, 11): # k 2-10变化 kmeans = KMeans(n_clusters=k, random_state=666) # 学习 kmeans.fit(X) # 计算轮廓系数 sil_scores.append(silhouette_score(X, kmeans.labels_)) plt.figure(dpi=100,figsize=(5, 4) ) plt.plot(range(2, 11),sil_scores ) plt.xlabel("k值") plt.ylabel("silihoscore"); #聚合成4个簇, 聚类效果最好

从上图可以看出当k= 6 的时候聚类出来的效果最好。

总结：

当然我们还能通过随机数种子来提升模型的聚类效果，这里我们就不介绍了。 Kmeans总结特点分析：采⽤迭代式算法，直观易懂并且⾮常实⽤缺点：容易收敛到局部最优解(多次聚类) 需要预先设定簇的数量(k-means++解决) 1、K值的选取不好把握(改进：可以通过在一开始给定一个适合的数值给k，通过一次K-means算法得到一次聚类中心。对于得到的聚类中心，根据得到的k个聚类的距离情况，合并距离最近的类，因此聚类中心数减小，当将其用于下次聚类时，相应的聚类数目也减小了，最终得到合适数目的聚类数。可以通过一个评判值E来确定聚类数得到一个合适的位置停下来，而不继续合并聚类中心。重复上述循环，直至评判函数收敛为止，最终得到较优聚类数的聚类结果)。 2、对于不是凸的数据集比较难收敛(改进：基于密度的聚类算法更加适合，比如DESCAN算法)

最新回复(0)