基础聚类
选取距离这个聚类中心越远的点会有更高的概率被选为第二个聚类中心
首先随机选择k个对象作为中心,把每个对象分配给离它最近的中心。
然后随机地选择一个非中心对象替换中心对象,计算分配后的距离改进量
如果总的损失减少,则交换中心对象和非中心对象;
如果总的损失增加,则不进行交换
简单来说,当面对一个大样本量时,CLARA每次随机选取样本量中的一小部分进行PAM聚类,然后将剩余样本按照最小中心距离进行归类。在各次重复抽样聚类的结果中,选取误差最小,即中心点代换代价最小的结果作为最终结果。
算法 | 具体描述 |
---|---|
k-means | 以集群点的平均值作为参考对象进行聚类 |
k-medoids | 以集群点中最中心(中位数)的对象为参考进行聚类 |
k-modes | 以集群点特征的众数作为参考进行聚类 |
PAM | k-medoids的一个变体,使用迭代和贪心算法进行聚类 |
CLARA | 在PAM的基础上对数据进行了抽样 |
算法 | 优缺点 |
---|---|
k-means | 优点: 算法简单,时间复杂度低。缺点: 无法处理非球形等不规则的数据、对初始值k的设置很敏感、对离群点敏感。 |
k-medoids | 优点: 对噪点和离群点不敏感。缺点: 处理时间比k-means长、须事先指定所需聚类簇个数k。 |
k-modes | 优点: 可适用于离散性数据集、时间复杂度更低。缺点: 需要事先对k值进行确定。 |
PAM | 优点: 对离群点数据不敏感。缺点: 时间复杂度高。 |
CLARA | 优点: 可用于大规模数据集的聚类。缺点: 在对数据进行随机抽样过程中采样不准确。 |
a.指定合适的r(点的半径)和M(在一个点半径内至少包含的点的个数);
b.计算所有的样本点,如果点p的r邻域里有超过M个点,则创建一个以p为核心点的新簇;
c.反复寻找这些核心点直接密度可达的点,将其加入到相应的簇,对于核心点发生"密度相连"状况的簇,给予合并;
d.当没有新的点可以被添加到任何簇,算法结束。
L=D-W
代表算法:DBSCAN、OPTICS、DENCLUE等。
算法 | 具体描述 |
---|---|
DBSCAN | 这类方法采用空间索引技术来搜索对象的邻域,将簇看做是数据空间中被低密度区域分割开的稠密对象区域 |
OPTICS | 是DBSCAN算法的一种改进,对数据对象集合中的对象进行排序,得到一个有序的对象列表,其中包含了足够的信息用来提取聚类 |
DENCLUE | 将每个数据点的影响用一个数学函数形式化地模拟出来,聚类簇通过密度吸引点(全局密度函数的局部最大值)来确定 |
各种算法的优缺点比较:
算法 | 优缺点 |
---|---|
DBSCAN | 优点: 可以处理任何形状的聚类簇、能够检测异常点。缺点: 需要给定数据点的半径r和最少数量m、对输入参数较敏感。 |
OPTICS | 优点: 对输入参数不敏感。缺点: 计算量大、速度较慢。 |
DENCLUE | 优点: 对有巨大噪声的数据点有良好的聚类效果、比DBSCAN算法快得多、有严格的数学基础。缺点:需要大量的参数并且参数对结果的影响巨大。 |
这种损失最大的缺点是更加重视原理中心的点