scikit-learn中的一个k_means聚类方法参数说明

  • 发布日期:2019-10-25
  • 难度:简单
  • 类别:聚类分析、MiniBatchKMeans参数说明
  • 标签:Python、sklearn.cluster.MiniBatchKMeans

1. 问题描述

基于Python第三方库sklearn,对sklearn.cluster.MiniBatchKMeans的参数进行说明。

2. 程序实现

In [1]:
#调用Mini-Batch-KMeans算法
from sklearn.cluster import MiniBatchKMeans
#调用该方法的一个具体实例
mini_example=MiniBatchKMeans(init='k-means++', n_clusters=3, batch_size=100,n_init=3, max_no_improvement=10)

Mini-Batch-KMeans算法的主要参数包括:

  • init:初始化方法,包括三种:K-means++,random和ndarray,默认选择为K-means++。
  • n_clusters为生成的聚类个数,默认值为8。
  • batch_size为每批的数据量,默认值为100。
  • n_init为尝试的随机初始化次数,默认值为3。
  • max_no_improvement为基于连续的小批量控制提前停止的数量,虽然这并不会使平滑质量得到改善,默认值为10,如要禁用此参数则设置为None。